广告

如何优化边缘机器学习的功耗和性能

时间:2020-08-28 作者:李立基 阅读:
知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长。AI/ML已然成为这些领域欲发挥价值的关键因素。
广告
ASPENCORE

人工智能和机器学习(AI/ML)发展至今,早已逾越了“纸上谈兵”的范畴。从消费产品到金融服务再到制造创新,其在众多行业的实践中不断汲取经验,发展迅速。知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长(图 1)。AI/ML已然成为这些领域欲发挥价值的关键因素。yDXEETC-电子工程专辑

图 1:AI/ML 边缘设备上的市场数据yDXEETC-电子工程专辑

这样的市场增速意味着企业已经看到了针对功耗、性能和面积(PPA)进行优化的边缘硬件架构的爆炸式增长。ML 逐渐成为主流技术,而硬件设计团队却迎来了难题,他们往往无法在一次迭代中完成 AI/ML 系统的优化,有时不得不因为 RTL 设计周期过长而带来的成本压力而放弃最初的尝试。yDXEETC-电子工程专辑

将 AI/ML 转移到边缘的重点在于定制化设计,这些设计必须能同时满足低功耗和高性能两种关键要求。此外,如果传统 RTL 设计流程无法迎合紧迫的上市时间窗口,设计团队就必须改用新的设计和验证流程。yDXEETC-电子工程专辑

认识挑战

优化 ML 算法需要多次运行设计流程(图 2):yDXEETC-电子工程专辑

●算法工程师在机器学习框架(如 Tensorflow 或 Caffe)中设计和验证 ML 算法。yDXEETC-电子工程专辑

●该步骤通常包括将算法从浮点数量化为定点,同时进行修剪,以降低复杂度。yDXEETC-电子工程专辑

●接下来,硬件设计人员将实施算法,这一步需要构建足够复杂的硬件来满足 PPA 要求。yDXEETC-电子工程专辑

其中由于一些系统过于复杂,如果不先行构建则无法进行分析,对于手动编码的 RTL 设计流程来说这种操作是不切实际的,因为生成一个工作设计可能需要三到六个月的时间,再加上算法和硬件领域持续不断的变化,许多团队很可能会因此放弃最初的硬件尝试。yDXEETC-电子工程专辑

图 2:机器学习的设计流程yDXEETC-电子工程专辑

要为 ML 推理引擎构建定制化的硬件,设计团队需要面对一项重要挑战:牺牲功耗以换取可编程性。这在很大程度上归因于用于构建卷积神经网络 (CNN) 的网络逐层行为。CNN 对后期层的存储权重需求急剧增加,而特征图谱存储需求在早期层中最大,在后期层中却大幅降低。另外,在后期层中,准确实现网络所需的精度也趋于降低。yDXEETC-电子工程专辑

CNN这些存储和精度要求,导致“一刀切”的硬件实现方式效率低下。通用型解决方案可以提供较高的性能和较小的面积,但它是通过“平铺”ML 算法,并与系统存储器往返传递特征图谱的数据来实现的,这无疑会引起功耗的大幅增加。这些通用型解决方案为了获得可编程性还有可能牺牲一部分片上计算资源。yDXEETC-电子工程专辑

潜在的架构解决方案

获得更高的功耗效率可能需要定制两个或多个硬件架构,以满足网络中不同层的存储器存储、计算需求和精度要求。这些计算引擎必须能够协同工作,需要复杂的片上存储器架构以及大规模并行性,还必须能访问高带宽系统存储器。yDXEETC-电子工程专辑

例如,网络的早期层可以映射到融合层架构或多通道滑动窗口架构。这些架构无需从片外存储器到系统存储器,也可以允许计算网络前几个层中的两层或更多层。由于它们仅在一个较小的特征图谱数据“窗口”上运行,因此需要的片上存储量相对较少;而对于后期层,多通道处理器件 (PE) 阵列架构则是一种兼顾功耗和性能的有效选择。yDXEETC-电子工程专辑

更优的设计和验证流程

构建自定义硬件解决方案要求设计人员尝试不同精度的架构组合,在功耗、性能和面积之间找到最佳平衡,这在 RTL 中很难实现,因此,高等级逻辑综合 (HLS) 成为很多设计人员的最佳解决选择。yDXEETC-电子工程专辑

Mentor的Catapult HLS 能够使用 C++/SystemC 快速创建和验证复杂的硬件架构。HLS 使用位精度的数据类型在 C++ 仿真中对真实的硬件精度进行建模。这样一来,设计人员不仅可以在 C++/SystemC 中为 ML 硬件的逐位行为建模,还可以在几分钟内验证 ML 设计,而在 RTL 仿真中,这通常需要几小时甚至几天的时间。yDXEETC-电子工程专辑

Catapult HLS能够为设计团队提供的ML 硬件设计功能特性包括:yDXEETC-电子工程专辑

●自动存储器分区:用于创建ML引擎所需的复杂片上存储器架构,以实现性能目标。这些优化能够将 C++ 算法中的数组转换到并行运行的多个存储器内。yDXEETC-电子工程专辑

●接口综合:可以将设计接口上的数组自动转换到高性能的 AXI4 主存储器,从而使核心硬件能够透明地访问系统存储器,这是抓取 ML 算法所用的数百万权重所需的。yDXEETC-电子工程专辑

●架构代码更改和 HLS 优化:能够产生具有不同 PPA 特征的独特硬件。在架构优化过程中的一个重要步骤就是能够以交互的方式分析和评估这些权衡方案。yDXEETC-电子工程专辑

●功耗优化:该工具可以自动优化其 RTL 输出的功耗,还会报告设计人员每个步骤的功耗,以便他们能够快速确定其设计的可行性。yDXEETC-电子工程专辑

架构优化流程的最后一步,可以将使用位精度数据类型设计的可综合 C++ 插回到 ML 框架(例如 TensorFlow),以便算法设计人员能够对照原始算法进行验证。yDXEETC-电子工程专辑

将机器学习转移到边缘对功耗和性能有着极高要求,曾经的解决方案无法满足现实所需:CPU 速度太慢,GPU/TPU 过于昂贵且功耗过高,连通用的机器学习加速器也可能被过度构建,这些都是横亘在最优功耗面前的重重障碍。为了满足下一代设计需求,在构建新的低功耗/高效存储器的硬件架构时采用HLS设计和验证流程,不失为实现生产计划的“最佳帮手”。yDXEETC-电子工程专辑

作者:李立基,Mentor,A Siemens Business亚太区技术总监yDXEETC-电子工程专辑

责编:Amy GuanyDXEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • ReRAM助力实现更像人脑的AI系统 米兰理工大学开发了利用以色列业者Weebit之ReRAM技术的硬件,结合卷积神经网络(CNN)的效率以及启发自人脑的棘波神经网络(SNN)之可塑性,让硬件系统能在不忘记先前撷取信息的训练任务之情况下,再学习新事物。
  • 科大讯飞发布TWS耳机,支持实时语音转文字 9月1日,科大讯飞召开了新品发布会,除了发布讯飞智能录音笔SR901、SR702、SR101外,还带来了旗下首款TWS真无线蓝牙耳机“iFLYBUDS”。这款耳机依托语音技术,支持通话实时转写、智能拨号识别、通话译文……
  • 重磅!中国成功研制全球神经元规模最大的类脑计算机 9月1日,亿级神经元类脑计算机重大成果新闻发布会在杭州召开。浙江大学校长吴朝晖院士出席并讲话。他表示,人工智能浪潮正加快智能增强时代的到来,类脑计算机将成为未来计算的主要形态和重要平台,将在模拟脑功能、高效实现AI算法、提升计算能力等方面发挥重要的独特作用。
  • 亚马逊机器人公司副总裁离职,加入AI初创公司 Scale AI 亚马逊机器人公司副总裁布拉德·波特(Brad Porter)加入人工智能创业公司Scale AI。Scale周一宣布,Brad Porter将担任首席技术官。
  • LPWAN技术们:要互补,要共存 如果把无线通信技术按照功耗与传输距离两个标准来区分的话,就发现能够同时满足“低功耗”和“长距离”这两个特点,Wi-Fi、蓝牙、zigbee以及2G、3G、4G等这些技术都还有所欠缺,LPWAN技术的出现正好弥补了这个短板。
  • 《中国禁止出口限制出口技术目录》调整,涉及AI算法/无 中国商务部会同科技部调整了《中国禁止出口限制出口技术目录》,其中新增的禁出口技术包括:“基于数据分析的个性化信息推送服务技术”、“人工智能交互界面技术”,分析人士认为,这涉及字节跳动旗下应用Tiktok,Tiktok如果出售或需中国许可。另外,新增的限制项目还涉及无人机和激光技术……
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了