广告

AI从云端转向边缘,新架构应运而生

时间:2018-11-02 作者:Dylan McGrath 阅读:
随着人工智能(AI)能力从云端转向边缘,芯片制造商必然会找到可行的方法,在更小、更高效,且成本更低的设备中实现各种AI功能,比如神经网络处理和语音识别等。
广告

随着人工智能(AI)能力从云端转向边缘,芯片制造商必然会找到可行的方法,在更小、更高效,且成本更低的设备中实现各种AI功能,比如神经网络处理和语音识别等。

在数据中心执行繁重任务的大型昂贵的AI加速器不大可能适合边缘设备。针对特定应用的尺寸、价格和功耗等要求,在边缘设备中实施AI的争夺战已经打响,各种芯片方案竞相登场,包括CPU、GPU、FPGA、DSP,甚至微控制器(MCU)。

在最近举行的Linley处理器研讨会上,Cadence设计系统公司和Flex Logix技术公司分别发布了专门针对边缘AI的设计架构。两种架构都专注于将AI功能引入边缘节点设备,而且重点是减少内存占用。

Semico Research的高级分析师Rich Wawrzyniak表示,“并非一切都在云端,带有AI功能的终端设备将成为主流。”

据Tirias Research首席分析师Jim McGregor称,大多数即将面市的解决方案仍然是“一定程度的混合方案,即大部分处理任务在边缘进行,但必要时还是要在云端处理,除非只想听特定的词语或声音。”

“我们确实看到更多语音处理在边缘完成的发展趋势,”Tirias分析师Kevin Krewell说道。 “将所有语音数据发送到云端会有隐私问题。而且边缘处理还可以减少延迟响应。此外,边缘端的处理能力也越来越强。”

McGregor表示,使用DSP是边缘处理的最有效方式。 “然而,我看到Alexa智能音箱使用的处理器是ST公司的STM32 MCU。”

Cadence的Tensilica HiFi 5 DSP专注于实现语音识别和基于神经网络的处理,而Flex Logix的NMAX架构则专为更复杂的神经网络推理而设计。两家都声称其架构在成本、性能和功耗方面都比现有架构具有显著优势。

根据Wawrzyniak的说法,新的架构代表着IP供应商的升级,他们开始提供专门用于AI的IP。他补充道,目前在AI中使用的大部分IP都是针对通用SoC的IP类型。 “随着应用变得更加专精,IP开发商将会推出更多专为AI而优化的产品。”

NMAX神经推理引擎

Flex Logix是一家成立仅四年的初创公司,以嵌入式FPGA而闻名,宣称其NMAX神经推理引擎可以在模块化、可扩展的架构中达到100万亿次操作/秒(TOPS)的神经推理性能,而所需DRAM带宽只是竞争技术的很小一部分。

Flex Logix首席执行官Geoff Tate表示,其互连技术可有效应对神经网络推理中的最大挑战,即最小化数据移动和功耗。跟该公司的eFPGA一样,NMAX采用平铺方式,可让用户根据需要扩展阵列。他说,NMAX平铺可以按照所需TOPS的配置来排列,可根据需要使用不同数量的SRAM,最高可达100TOPS峰值性能。

181031_NMAX_800-min.png
NMAX512平铺架构。(资料来源:Flex Logix)

这种架构还带有分布式的片上SRAM,可根据需要进行重新配置,这是针对不同数据大小的优势。它还具有互连功能,可以在SRAM输入组、MAC群集和每级激活到SRAM输出组之间重新配置连接。

Tate还表示,NMAX即使在小批量处理中也能迅速执行神经网络推理,这是Nvidia和Habana Labs等推理引擎难以做到的,因为每层加载需要很多时间。他补充说,小批量处理对边缘应用尤为重要,因为需要尽量减少延迟。他还展示了NMAX在28、10和1等不同批量的处理数据,每秒可处理多达19,000个ResNet-50图像。

“通常情况下,现有架构在大批量处理中具有良好的吞吐量,但在较小的批量处理中却不太好,因为加载需要很长时间,”Tate向EE Times解释道。

181031_NMAX_2_800-min.png
ResNet-50在低批量处理中的性能比较。(资料来源:Flex Logix)

Tate强调,Nvidia的Tesla T4和Habana的Goya要比NMAX需要更多的DRAM带宽。 “最根本的是,我们的价格将比其他人便宜10倍,”他说。 “他们需要8个DRAM来获得这个吞吐量,而我们只用一个DRAM就够了。”

NMAX仍处于开发阶段,预计将于2019年下半年开始供货。Flex Logix计划在2019年春季Linley处理器研讨会上展示该技术的进展情况。

再看Cadence,其Tensilica HiFi 5是一种用于音频和语音处理的DSP内核,专门针对远场处理和基于AI的语音识别处理进行了优化。这是流行的Tensilica DSP系列的第五代产品,是获得业界最广泛授权和认可的音频、视频和语音DSP,其年出货量已经超过10亿。据Cadence称,跟其上一代HiFi 4相比,HiFi 5具有两倍的音频处理能力和四倍的神经网络处理性能提升。

181031_highfi5_800-min.png
Tensilica HiFi 5架构。(资料来源:Cadence)

HiFi 5与HiFi系列的其它产品在软件上具有兼容性,包括300多个HiFi优化的音频和语音编解码器,以及音频增强软件包。Cadence还推出了一个新的库,它可提供一组优化的库函数,特别适用于神经网络处理------尤其是语音,可以集成到流行的机器学习框架中。

Cadence宣布,位于德州奥斯汀的亚阈值晶体管微控制器开发商Ambiq Micro是第一家获得HiFi 5授权的客户。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Dylan McGrath
EE Times美国版执行编辑。Dylan McGrath是EE Times的执行编辑。 Dylan在电子和半导体行业拥有20多年的报道经验,专注于消费电子、晶圆代工、EDA、可编程逻辑、存储器和其他专业领域。
  • 探讨最新处理器技术, 共话MCU生态 2021年8月26日,由ASPENCORE举办的一场“全球MCU生态发展大会”汇聚了微控制器领域的技术和应用专家,共同探讨最新处理器技术、边缘AI、新兴应用和生态发展等热门议题。此次大会的主题为“把握'芯'基建,共绘MCU生态”。
  • NVIDIA完成收购DeepMap,或进军自动驾驶 ​​​​​​​自动驾驶已经到了半成熟半应用阶段,往往这个时候,各大巨头都会开始加码投入。最近,NVIDIA就宣布完成了对DeepMap的收购,此举或将加大其进军自动驾驶领域的技术储备。
  • 微型螳螂虾机器人即将面世 ​​​​​​​机器人已经成为未来最受关注的十大科技领域之一,无论是工业机器人还是人形机器人,也不论是中大型机械臂机器人还是小型微型机器人,现在各企业各研究机构均根据自身资源进行重点研发投入。最近,有美国科学研究人员模仿螳螂虾的弹簧铁拳机制正在研发微型螳螂虾机器人,这款微型机器人或许不久将面世。
  • 国产7nm芯片试产,14nm“香山”芯片已完成设计 芯片,其实一直以来就是全球科技产业的核心,只是最近由于贸易与科技的竞争与纷争,导致芯片研发与生产代工成为一个尤为重要的问题,特别是美国对中国的科技芯片压制以来,中国14nm以下的先进制程芯片备受关注。不过,最近有消息显示:中国国产7nm芯片已经试产,14nm“香山”芯片已经完成了设计。
  • 下一代iPad或可以触觉反应,将是电子产品的一大革命 苹果的产品一向以接近人的真实体验而深受消费者喜爱,最近一项专利显示,下一代苹果iPad或可以触觉反馈,即按压屏幕可以得到反应,从而实现一个类似触摸有生命力的生物的感觉,如果这项专利能够实现并应用,将是电子产品的一大进步或者革命。
  • 丰田将推Arene汽车车机操作系统 ​​​​​​​操作系统已经成为世界各大巨头的一个新的竞争赛道,谁能咋某一个领域推行操作系统,谁就可能占据这个领域的市场基础。最近,有报道称丰田将在自己熟悉的汽车领域推出自己的汽车上的车机操作系统:Arene,时间或在五年内。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • ​快人一步,一触即发|芯海科技信号 视频来源:iQOO手机官方微博8月17日晚,iQOO8系列未来电竞旗舰重磅发布,通过屏下双控压感实现更多样的操控体验,双指变四指手速度倍增,在保持机身简洁的同时助你成为自带BUFF的竞技
  • 泰艺电子推出小型化恒温控制晶体振 泰艺电子,频率控制解决方案的领先供货商,推出全新 NN 系列恒温控制晶体振荡器(OCXO),能够满足严格的频率稳定度要求,同时具备优越的相位噪声性能。
  • 闻泰科技半导体业务净利润13.10亿元,同比增长234.52% 点击上方图片直接报名会议8月27日,闻泰科技发布2021年半年报,2021年上半年实现营业收入247.69亿元,同比增长3.91%;归母净利润12.32亿元,同比下降27.56%。其中半导体业务营业收
  • 均衡的秘密之CTLE 黄刚 | 文CTLE是什么?上篇文章也提到了,直白的翻译为连续时间线性均衡。它是在接收端芯片上的一种技术。之前也提到了,它的作用可以在传输损耗较大的链路,有效的改善接收端眼图的性能。对于有过高速串行信
  • 嵌入式单片机产品开发设计框架 你点击蓝字关注,回复“入门资料”获取单片机入门到高级开挂教程文 | 无际(微信:603311638)个人原创 | 第 106 篇全文约2095字,阅读大约需要
  • 探讨电路仿真的未来 今年早些时候,IEEE 微波理论和技术学会 (MTT-S) 授予 Qorvo 研究员 Michael Roberg 博士 2021 年度杰出青年工程师奖。该奖项旨在表彰
  • 欧盟将对英伟达收购ARM案展开正式调查 | ​我国已成为6G专利申请的主要来源国 点击上方蓝字关注我们1 欧盟将对英伟达收购ARM案展开正式调查 8月27日消息,据媒体报道,在监管机构与美国芯片公司进行了数月的非正式讨论后,欧盟将于九月初对英伟达计划收购英国芯片设计商ARM的交易展
  • 半导体精品公众号推荐!  中国半导体论坛 振兴国产半导体产业! 信息爆炸的时代更需要断舍离如何更加高效的获取高质量的信息在碎片化的时代里收获满满?2021年,半导体人只需关注5个公众号半导体技术天地ID:
  • 突发!欧盟将对英伟达收购ARM案展开正式调查 点击上方图片直接报名会议据金融时报报道,在监管机构与美国芯片公司进行了数月的非正式讨论后,欧盟将于下月初对英伟达计划收购英国芯片设计商ARM的交易展开正式竞争调查。 据两位知情人士透露,调查
  • 国内连接器上市公司最新半年战报出炉!爆净利大降五成的业绩地雷 近期,国内连接器上市公司陆续发布2021半年报。 今年上半年,汽车、家用电器、消费电子、通讯等行业延续去年下半年的恢复性增长趋势,国内大部分连接器厂商的营收均出现不同程度增长。 但
  • 最强国产自研CPU公司表态:没人可以“卡我们的脖子” 在国内多家研发处理器的公司中,龙芯中科选择的路线有所不同,现在已经全面转向自己的指令集。龙芯高管表示这条路很难走,但好处也是最大的,那就是没人可以“卡我们的脖子。8月26日,在成都举行的2021成都新
  • Versal ACAP系统和解决方案规划方法指南 赛灵思 Versal™ 自适应计算加速平台 (ACAP) 设计方法论是旨在帮助精简 Versal 器件设计进程的一整套最佳实践。鉴于这些设计的规模与复杂性,因此必须通过执行特定步骤与设计任务才能确保设
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了