广告

如何优化边缘机器学习的功耗和性能

时间:2020-08-28 作者:李立基 阅读:
知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长。AI/ML已然成为这些领域欲发挥价值的关键因素。
广告

人工智能和机器学习(AI/ML)发展至今,早已逾越了“纸上谈兵”的范畴。从消费产品到金融服务再到制造创新,其在众多行业的实践中不断汲取经验,发展迅速。知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长(图 1)。AI/ML已然成为这些领域欲发挥价值的关键因素。

图 1:AI/ML 边缘设备上的市场数据

这样的市场增速意味着企业已经看到了针对功耗、性能和面积(PPA)进行优化的边缘硬件架构的爆炸式增长。ML 逐渐成为主流技术,而硬件设计团队却迎来了难题,他们往往无法在一次迭代中完成 AI/ML 系统的优化,有时不得不因为 RTL 设计周期过长而带来的成本压力而放弃最初的尝试。

将 AI/ML 转移到边缘的重点在于定制化设计,这些设计必须能同时满足低功耗和高性能两种关键要求。此外,如果传统 RTL 设计流程无法迎合紧迫的上市时间窗口,设计团队就必须改用新的设计和验证流程。

认识挑战

优化 ML 算法需要多次运行设计流程(图 2):

●算法工程师在机器学习框架(如 Tensorflow 或 Caffe)中设计和验证 ML 算法。

●该步骤通常包括将算法从浮点数量化为定点,同时进行修剪,以降低复杂度。

●接下来,硬件设计人员将实施算法,这一步需要构建足够复杂的硬件来满足 PPA 要求。

其中由于一些系统过于复杂,如果不先行构建则无法进行分析,对于手动编码的 RTL 设计流程来说这种操作是不切实际的,因为生成一个工作设计可能需要三到六个月的时间,再加上算法和硬件领域持续不断的变化,许多团队很可能会因此放弃最初的硬件尝试。

图 2:机器学习的设计流程

要为 ML 推理引擎构建定制化的硬件,设计团队需要面对一项重要挑战:牺牲功耗以换取可编程性。这在很大程度上归因于用于构建卷积神经网络 (CNN) 的网络逐层行为。CNN 对后期层的存储权重需求急剧增加,而特征图谱存储需求在早期层中最大,在后期层中却大幅降低。另外,在后期层中,准确实现网络所需的精度也趋于降低。

CNN这些存储和精度要求,导致“一刀切”的硬件实现方式效率低下。通用型解决方案可以提供较高的性能和较小的面积,但它是通过“平铺”ML 算法,并与系统存储器往返传递特征图谱的数据来实现的,这无疑会引起功耗的大幅增加。这些通用型解决方案为了获得可编程性还有可能牺牲一部分片上计算资源。

潜在的架构解决方案

获得更高的功耗效率可能需要定制两个或多个硬件架构,以满足网络中不同层的存储器存储、计算需求和精度要求。这些计算引擎必须能够协同工作,需要复杂的片上存储器架构以及大规模并行性,还必须能访问高带宽系统存储器。

例如,网络的早期层可以映射到融合层架构或多通道滑动窗口架构。这些架构无需从片外存储器到系统存储器,也可以允许计算网络前几个层中的两层或更多层。由于它们仅在一个较小的特征图谱数据“窗口”上运行,因此需要的片上存储量相对较少;而对于后期层,多通道处理器件 (PE) 阵列架构则是一种兼顾功耗和性能的有效选择。

更优的设计和验证流程

构建自定义硬件解决方案要求设计人员尝试不同精度的架构组合,在功耗、性能和面积之间找到最佳平衡,这在 RTL 中很难实现,因此,高等级逻辑综合 (HLS) 成为很多设计人员的最佳解决选择。

Mentor的Catapult HLS 能够使用 C++/SystemC 快速创建和验证复杂的硬件架构。HLS 使用位精度的数据类型在 C++ 仿真中对真实的硬件精度进行建模。这样一来,设计人员不仅可以在 C++/SystemC 中为 ML 硬件的逐位行为建模,还可以在几分钟内验证 ML 设计,而在 RTL 仿真中,这通常需要几小时甚至几天的时间。

Catapult HLS能够为设计团队提供的ML 硬件设计功能特性包括:

●自动存储器分区:用于创建ML引擎所需的复杂片上存储器架构,以实现性能目标。这些优化能够将 C++ 算法中的数组转换到并行运行的多个存储器内。

●接口综合:可以将设计接口上的数组自动转换到高性能的 AXI4 主存储器,从而使核心硬件能够透明地访问系统存储器,这是抓取 ML 算法所用的数百万权重所需的。

●架构代码更改和 HLS 优化:能够产生具有不同 PPA 特征的独特硬件。在架构优化过程中的一个重要步骤就是能够以交互的方式分析和评估这些权衡方案。

●功耗优化:该工具可以自动优化其 RTL 输出的功耗,还会报告设计人员每个步骤的功耗,以便他们能够快速确定其设计的可行性。

架构优化流程的最后一步,可以将使用位精度数据类型设计的可综合 C++ 插回到 ML 框架(例如 TensorFlow),以便算法设计人员能够对照原始算法进行验证。

将机器学习转移到边缘对功耗和性能有着极高要求,曾经的解决方案无法满足现实所需:CPU 速度太慢,GPU/TPU 过于昂贵且功耗过高,连通用的机器学习加速器也可能被过度构建,这些都是横亘在最优功耗面前的重重障碍。为了满足下一代设计需求,在构建新的低功耗/高效存储器的硬件架构时采用HLS设计和验证流程,不失为实现生产计划的“最佳帮手”。

作者:李立基,Mentor,A Siemens Business亚太区技术总监

责编:Amy Guan

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 传奇AI公司现身超算中心,心中对手只有英伟达 Habana Labs日前宣布,其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力,计划于2021年秋季投入使用。
  • 分布式边缘计算的到来,将如何改变IT基础设施? 众所周知,所有转型技术都是经过成年累月的推动,逐渐发展成熟。然而过去一年以来全球在疫情的刺激下,大规模的数字化转型浪潮已开始汇集而成,各个产业皆趋之若鹜,争相构建能维持生存的技术,并期望可以成功为企业带来显著改变。这一切的转变,对于IT基础设施又有什么重要意义呢?
  • 未来几年会出现哪些GaN 创新技术? 现在GaN很火 ,人们似乎忘记了GaN 依然是一项相对较新的技术,仍处于发展初期,还有较 大的改进潜力和完善空间。本文将介绍多项即将出现的 GaN 创新技术,并预测未来几年这 些创新技术对基站设计和发展的影响。
  • “无尽边界法”尚未落定,美国参议院又拟对半导体立法 4月7日,美国总统乔·拜登(Joe Biden)表示,美国参议院正准备就半导体立法。目前,美国正在努力解决汽车、电脑等设备中使用的关键技术持续短缺问题。不过在去年,美国两党议员就曾共同提出一项名为《无尽边界法》(Endless Frontier Act)的议案,旨在通过增加对未来技术的投资来巩固美国在科学技术创新方面的领导地位。
  • 雷军称小米汽车价格在10-30万元之间,是轿车或SUV 4月6日晚,雷军在直播中讨论了小米新logo、小米汽车等相关问题。他透露,小米内部做车的呼声很大,“很多员工下了请战书,愿意加入汽车团队。”从微博投票显示,希望小米汽车价格在10万元以内的人数最多,不过雷军的解释是——选择小米第一辆车在10万-30万区间的人数大于选择10万以内的人数……
  • 科技巨头竞相“造车”,唯有Amazon最有希望成功 在特斯拉的带动下,全球造车新势力纷纷推出各种电动车和自动驾驶车辆。国内的蔚来、小鹏和理想电动车都已经上路,就连贾跃亭的Faraday Future也很快上市。全球两大搜索引擎巨头Google和百度早就开始了自动驾驶旅程,Waymo已经从Google独立出来并开始尝试性运营。苹果、华为和小米也宣布了各自的造车计划和策略,唯独Amazon没有高调宣布造车……
  • 千亿级别的暴涨与暴跌的比特币为啥 比特币暴跌20%或有400亿美金资金爆仓,显卡行业也深受波及,而这背后一方面是政府的禁令频发,另一方面金融犯罪的案例被推到了台面上,再加持众多资本狂割韭菜使得整个市场乌烟瘴气。而纵观发展历史,速度快的CPU为何没有用武之地呢,本文来带你一探究竟。
  • EE快讯——华为2021第18届全球分析 2021年4月12日,华为在深圳举办了第18届华为全球分析师大会,会上华为徐文伟提出了未来10年九大技术挑战与研究方向;轮值董事长徐直军表示:6G比5G快50倍,将在2030年左右推出,同时表示要提升软件能力减少芯片依赖,对海思的态度是养得起,也会一直养着,对于业界一直猜测的麒麟9000芯片库存还有多少,徐直军表示:华为的库存可以支撑公司活得更长一点。另一方面,欧菲光的前途终于有了结果...
  • 紫光展锐:大破大立,做数字世界的生态 4月20日,以“构go”为主题的2021紫光展锐创见未来大会在线上举行。会上,展锐重磅发布了5G业务新品牌——唐古拉系列,推出了Cat.1bis新技术特性,并分享了创新业务AR领域的最新商用进展。此外,展锐重申了公司产业定位——数字世界的生态承载者,并公布了对消费电子业务和工业物联网领域的前瞻预见和战略规划。
  • 安谋中国发布全新“山海”S12解决 安谋中国今天发布面向 AIoT 系统的全栈安全解决方案“山海”S12,包含硬件加解密引擎、安全软件和安全服务三大部分,从芯片的安全 IP 层到云端安全应用和安全管理提供全链路的安全保护。“山海”S12可以广泛应用于智能手机、平板、智能电视及安防等行业,为多种安全解决方案如数字版权保护、AI 安全、身份认证等提供基础安全能力。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了