广告

如何优化边缘机器学习的功耗和性能

时间:2020-08-28 作者:李立基 阅读:
知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长。AI/ML已然成为这些领域欲发挥价值的关键因素。
广告

人工智能和机器学习(AI/ML)发展至今,早已逾越了“纸上谈兵”的范畴。从消费产品到金融服务再到制造创新,其在众多行业的实践中不断汲取经验,发展迅速。知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长(图 1)。AI/ML已然成为这些领域欲发挥价值的关键因素。ahDEETC-电子工程专辑

图 1:AI/ML 边缘设备上的市场数据ahDEETC-电子工程专辑

这样的市场增速意味着企业已经看到了针对功耗、性能和面积(PPA)进行优化的边缘硬件架构的爆炸式增长。ML 逐渐成为主流技术,而硬件设计团队却迎来了难题,他们往往无法在一次迭代中完成 AI/ML 系统的优化,有时不得不因为 RTL 设计周期过长而带来的成本压力而放弃最初的尝试。ahDEETC-电子工程专辑

将 AI/ML 转移到边缘的重点在于定制化设计,这些设计必须能同时满足低功耗和高性能两种关键要求。此外,如果传统 RTL 设计流程无法迎合紧迫的上市时间窗口,设计团队就必须改用新的设计和验证流程。ahDEETC-电子工程专辑

认识挑战

优化 ML 算法需要多次运行设计流程(图 2):ahDEETC-电子工程专辑

●算法工程师在机器学习框架(如 Tensorflow 或 Caffe)中设计和验证 ML 算法。ahDEETC-电子工程专辑

●该步骤通常包括将算法从浮点数量化为定点,同时进行修剪,以降低复杂度。ahDEETC-电子工程专辑

●接下来,硬件设计人员将实施算法,这一步需要构建足够复杂的硬件来满足 PPA 要求。ahDEETC-电子工程专辑

其中由于一些系统过于复杂,如果不先行构建则无法进行分析,对于手动编码的 RTL 设计流程来说这种操作是不切实际的,因为生成一个工作设计可能需要三到六个月的时间,再加上算法和硬件领域持续不断的变化,许多团队很可能会因此放弃最初的硬件尝试。ahDEETC-电子工程专辑

图 2:机器学习的设计流程ahDEETC-电子工程专辑

要为 ML 推理引擎构建定制化的硬件,设计团队需要面对一项重要挑战:牺牲功耗以换取可编程性。这在很大程度上归因于用于构建卷积神经网络 (CNN) 的网络逐层行为。CNN 对后期层的存储权重需求急剧增加,而特征图谱存储需求在早期层中最大,在后期层中却大幅降低。另外,在后期层中,准确实现网络所需的精度也趋于降低。ahDEETC-电子工程专辑

CNN这些存储和精度要求,导致“一刀切”的硬件实现方式效率低下。通用型解决方案可以提供较高的性能和较小的面积,但它是通过“平铺”ML 算法,并与系统存储器往返传递特征图谱的数据来实现的,这无疑会引起功耗的大幅增加。这些通用型解决方案为了获得可编程性还有可能牺牲一部分片上计算资源。ahDEETC-电子工程专辑

潜在的架构解决方案

获得更高的功耗效率可能需要定制两个或多个硬件架构,以满足网络中不同层的存储器存储、计算需求和精度要求。这些计算引擎必须能够协同工作,需要复杂的片上存储器架构以及大规模并行性,还必须能访问高带宽系统存储器。ahDEETC-电子工程专辑

例如,网络的早期层可以映射到融合层架构或多通道滑动窗口架构。这些架构无需从片外存储器到系统存储器,也可以允许计算网络前几个层中的两层或更多层。由于它们仅在一个较小的特征图谱数据“窗口”上运行,因此需要的片上存储量相对较少;而对于后期层,多通道处理器件 (PE) 阵列架构则是一种兼顾功耗和性能的有效选择。ahDEETC-电子工程专辑

更优的设计和验证流程

构建自定义硬件解决方案要求设计人员尝试不同精度的架构组合,在功耗、性能和面积之间找到最佳平衡,这在 RTL 中很难实现,因此,高等级逻辑综合 (HLS) 成为很多设计人员的最佳解决选择。ahDEETC-电子工程专辑

Mentor的Catapult HLS 能够使用 C++/SystemC 快速创建和验证复杂的硬件架构。HLS 使用位精度的数据类型在 C++ 仿真中对真实的硬件精度进行建模。这样一来,设计人员不仅可以在 C++/SystemC 中为 ML 硬件的逐位行为建模,还可以在几分钟内验证 ML 设计,而在 RTL 仿真中,这通常需要几小时甚至几天的时间。ahDEETC-电子工程专辑

Catapult HLS能够为设计团队提供的ML 硬件设计功能特性包括:ahDEETC-电子工程专辑

●自动存储器分区:用于创建ML引擎所需的复杂片上存储器架构,以实现性能目标。这些优化能够将 C++ 算法中的数组转换到并行运行的多个存储器内。ahDEETC-电子工程专辑

●接口综合:可以将设计接口上的数组自动转换到高性能的 AXI4 主存储器,从而使核心硬件能够透明地访问系统存储器,这是抓取 ML 算法所用的数百万权重所需的。ahDEETC-电子工程专辑

●架构代码更改和 HLS 优化:能够产生具有不同 PPA 特征的独特硬件。在架构优化过程中的一个重要步骤就是能够以交互的方式分析和评估这些权衡方案。ahDEETC-电子工程专辑

●功耗优化:该工具可以自动优化其 RTL 输出的功耗,还会报告设计人员每个步骤的功耗,以便他们能够快速确定其设计的可行性。ahDEETC-电子工程专辑

架构优化流程的最后一步,可以将使用位精度数据类型设计的可综合 C++ 插回到 ML 框架(例如 TensorFlow),以便算法设计人员能够对照原始算法进行验证。ahDEETC-电子工程专辑

将机器学习转移到边缘对功耗和性能有着极高要求,曾经的解决方案无法满足现实所需:CPU 速度太慢,GPU/TPU 过于昂贵且功耗过高,连通用的机器学习加速器也可能被过度构建,这些都是横亘在最优功耗面前的重重障碍。为了满足下一代设计需求,在构建新的低功耗/高效存储器的硬件架构时采用HLS设计和验证流程,不失为实现生产计划的“最佳帮手”。ahDEETC-电子工程专辑

作者:李立基,Mentor,A Siemens Business亚太区技术总监ahDEETC-电子工程专辑

责编:Amy GuanahDEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 利用神经形态芯片仿真人脑 长期以来人们一直在研究生物细胞的电特性,以便了解细胞动力学。离子电流的动态特性和离子电导的非线性是由微观参数控制,由于测量微观参数具有相当的难度,阻碍了定量运算模型的建构…
  • 研究表明端到端模拟芯片可用于AI计算 神经拟态芯片初创公司Rain Neuromorphics与Mila合作进行的一项研究证明,使用全模拟硬件训练神经网络是可能的,显示出创建端到端模拟神经网络的可能性。这对整个神经拟态计算和AI硬件领域都具有重大意义:完全采用模拟AI芯片可以进行训练与推理,从而可以大大节省算力、能耗,并缩减延迟时间和产品尺寸。
  • 价值900亿美元的美国半导体连环并购案揭秘 2020年见证了非比寻常的半导体行业,一场旷日持久的疫情不但遮掩了全球半导体的持续下滑,也冲淡了中美科技冷战的硝烟。同时,另外一个被掩盖的现象下半年开始浮出水面,那就是半导体行业的一连串并购活动。并购金额之大令人咋舌,对整个半导体甚至高科技行业的影响也将会无法估量。本文将针对ADI/Maxim、Nvidia/Arm及AMD/Xilinx这三大并购案展开深入探讨,并简要提及对中国半导体的影响和启示。
  • 光学计算有望彻底改变AI性能的游戏规则 初创公司Lightmatter专注于开发针对AI加速的光学计算处理器,在第32届Hot Chips大会上展示了一款测试芯片。该处理器利用硅光子学和MEMS技术,通过毫瓦级激光光源供电,可以光速(在硅片中)执行矩阵矢量乘法。基于此次测试芯片的首个商用产品将于2021年秋季推出, 它是一款带光学计算芯片的PCIe卡,专为数据中心AI推理工作负载而设计。
  • 在MCU上进行深度学习才是边缘计算的未来 现在,机器学习(ML)不再需要每秒执行数万亿次操作(TOPS)的处理器。很多情况下,最新的微控制器(有些配置有嵌入式ML加速器)就可以在边缘设备上执行机器学习,它代表着物联网发展的下一阶段:在生产数据的源头,例如麦克风、摄像头和监控其他环境条件的传感器中引入智能计算,并使物联网应用受益。
  • 安谋中国“周易”Z2 AIPU正式发布,性能翻倍、效率翻番 10月13日,安谋科技(中国)有限公司(“安谋中国”)正式发布“周易”Z2 AIPU(AI Processing Unit),单核算力最高可达4TOPS,较“周易”Z1 AIPU的单核算力提高一倍,同时支持多达32核的可扩展配置,从而能够在单个SoC中实现128TOPS的强大算力。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了