广告

你的AI芯片有自己的DNN吗?

时间:2019-10-11 作者:Junko Yoshida 阅读:
为了让AI加速器在最短延迟内达到最佳精准性,特别是在自动驾驶汽车(AV)中,TFLOP(万亿次浮点运算)已经成为许多所谓大脑芯片的关键指标。然而,有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中,DeepScale的首席执行官Forrest Iandola给出了其不可持续的理由,是因为AI硬件设计师所持有的许多常见的假设已经过时。
广告
EETC https://www.eet-china.com

为了让AI加速器在最短延迟内达到最佳精准性,特别是在自动驾驶汽车(AV)中,TFLOP(万亿次浮点运算)已经成为许多所谓大脑芯片的关键指标。这场竞赛的选手包括英伟达的Xavier、Mobileye的EyeQ5、特斯拉的全自动驾驶(FSD)电脑芯片,以及NXP-Kalray芯片。

然而,有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中,DeepScale的首席执行官Forrest Iandola给出了其不可持续的理由,是因为AI硬件设计师所持有的许多常见的假设已经过时。Iandola清楚地认识到,随着AI应用日益增多,AI供应商从中积累更多的经验,这导致不同的AI任务开始需求不同的技术方法。如果事实的确如此,AI用户购买AI技术的方式将会改变,供应商也必将做出回应。


图1

Iandola表示:就拿神经网络架构搜索(NAS)来说吧,其快速发展不仅加快优化深度神经网络(DNN)的搜索过程,并降低这一过程的成本。他相信有一种方法可以“在目标任务和目标计算平台上建立最低延迟、最高精度的DNN”,而不是依赖于更大的芯片来处理所有的AI任务。

Iandola设想未来AI芯片或传感器系统(如计算机视觉、雷达或激光雷达)供应商不仅提供硬件,而且还会提供自己的高速、高效的DNN——为应用而设计的DNN。任何给定的供应商都会为不同的计算平台匹配各自所需的DNN。如果事实真是如此,那AI竞赛中的所有赌注都将失效。

需要明确的是,目前无论是芯片公司还是传感器供应商都没有提出上述前景。甚至很少有人在特定硬件上运行有针对性的AI任务的可能性。

Iandola及其DeepScale团队最近设计了一系列DNN模型,称为“SqueezeNAS”

在最近的一篇论文中,他们声称,当在目标平台上搜索延迟时,squezeNAS“可以建立更快、更准确的模型”。这篇论文推翻了AI社区先前对NAS、乘积累加 (MAC) 运算和将ImageNet精度应用于目标任务时所做的一些假设。

DeepScale于2015年由Iandola和Kurt Keutzer教授共同创立,是一家位于加利福尼亚州山景城的初创公司,致力于开发“微型DNN”。两位联合创始人曾在加州大学伯克利分校共事。DeepScale因其快速高效的DNN研究而在科学界备受推崇。

手工设计

要想真正理解机器学习在计算机视觉方面的最新进展的意义,需要了解一下其发展历史。

还记得AlexNet 网络结构模型在2012年赢得 ImageNet 图像分类赛吗?这为研究人员打开了竞争的大门,让他们专注于ImageNet研究 ,并寻找能够在计算机视觉任务上达到最高精度的DNN,以此开展竞争。

20191011-101.jpg
图2

通常,这些计算机视觉研究人员依靠专家工程师,他们会手工设计快速和高精度DNN架构。

从2012年到2016年,他们提高了计算机视觉的准确性,但都是通过大幅增加运行DNN所需资源来实现这一目标。Iandola解释说,例如,赢得2014年ImageNet比赛冠军的VGGNet,其使用的计算量是AlexNet的10倍,参数是AlexNet的2倍。

到2016年,学术研究届发现通过增加DNN的资源需求来提高准确性是“不可持续的”。 SqueezeNet便是研究人员寻找的众多替代方案之一,由Iandola及其同事在2016年发表,它展示出在微小预算(低于5MB)参数下ImageNet的“合理的准确性”。

Squeezenet引发了两个重大变化。相对于SqueezeNet和其他早期运算而言, MobileNetV1能够大幅度减少乘积累加运算 (MAC)的数量。 Shufflenetv1是为移动端CPU实现低延迟而优化的DNN。

利用机器学习(ML)改进机器学习

如前所述,所有这些先进DNN都是通过人工设计和调整神经网络架构开发而成。由于人工流程需要专业的工程师大量的试错,这很快就成为一个成本太高、耗时太久的提议。

因而基于机器学习,实现人工神经网络设计自动化的理念,即NAS应运而生。NAS是一种搜索最佳神经网络架构的算法。

NAS改变了AI格局。Iandola称,“到2018年,NAS已经开始构建能够以较低延迟运行的DNN,并且比以前手工设计的DNN产生更高的准确性。”。”

强化学习

随后,计算机视觉界开始使用基于机器学习(ML)的强化方法——强化学习(RL)。

换句话说,“机器学习得到反馈来改进机器学习,” Iandola解释说。在基于RN的NAS下,未经训练的RL获得建议,指定层数和参数来训练DNN架构。一旦对DNN进行训练,训练运行的结果将作为反馈,从而推动RL运行更多DNN来开展训练。

经证明,基于RL的NAS是有效的。谷歌MnasNet就是一个很好的例子,它在ImageNet延迟和准确性方面都优于ShuffleNet。但它也有一个关键的弱点: 成本太高。基于RL的搜索通常需要数千个GPU天数(GPU day),以训练数百乃至数千个不同的DNN,才能生成理想的设计。“谷歌负担得起,” Iandola表示,但大多数其它公司负担不起。

现实地说,一个基于RL的NAS要训练一千个DNN,每个DNN通常需要一个GPU天数。考虑到目前亚马逊云服务平台的价格,Iandola估计,一个使用基于RL的NAS搜索所花费的云计算时间可能耗资高达7万美元。

超级网络

在这种情况下,去年年底出现了一种新的NAS类型,称为基于“超级网络”的搜索。它的典型代表包括FBNet (Facebook伯克利网络)和SqueezNet。

20191011-102.jpg
图3

Iandola解释说:“超级网络采用一步到位的方法,而不是培训1000个独立的DNN。”

例如,一个DNN有20个模块,每个模块有13个选项。若为每个模块选择一个最喜欢的选项,“你正在以10个DNN训练运行花费为代价,一次性训练一个汇集了千万亿种DNN设计的DNN,”Iandola解释说。

结果表明,基于超级网络的NAS可以在10个GPU日的搜索时间内建立DNN,其延迟和准确性优于MnasNet。 “这让搜索成本从70,000多美元减少到大约700美元亚马逊云服务GPU时间,”Iandola说道。

“10个GPU天数”的搜索时间相当于在一台如衣柜般大小的8 GPU机器上花费一天的时间,” Iandola解释说。

20191011-103.jpg
图4

过时的假设

机器学习的简短历史向我们展示神经结构搜索的出现如何为计算机视觉研究奠定了基础。但是在这个过程中,它也反驳了研究团体早期的一些假设,Iandola指出。

那么,哪些假设需要纠正呢?

Iandola称,大多数AI系统设计者认为,ImageNet分类中最精确的神经网络可以为目标任务提供最精确的骨干网络。但计算机视觉包括许多AI任务——从目标检测、分割和3D空间到目标跟踪、距离估计和自由空间等。“并非所有任务都是平等的,” Iandola强调。

ImageNet的准确性与目标任务的准确性没有太紧密的关联。“这没法保证,”他说。

看看由Iandola团队创建的SqueezeNet。Iandola解释道,这是一个小型的神经网络,它的ImageNet分类精度明显低于VGG,但在“用于识别一组图像中相似斑块的任务”时,它比VGG更准确。

随着分类任务达到极限,Iandola坚信是时候为不同的任务设计不同的神经网络了。

另一个普遍的假设是“在目标计算平台上减少乘积累加运算(MAC)将产生更低的延迟。”

然而,最近的研究表明,减少MAC与减少延迟并无太大关联。“拥有较少MAC的神经网络并不总是能够实现较低的延迟,”Iandola指出。

在Iandola的SqueezeNAS论文中,他坚持认为,不仅仅是不同的AI任务需要不同的DNN。为目标计算平台(如CPU、GPU或TPU的特定版本)选择合适的DNN也非常重要。

例如,他引用了为不同智能手机优化网络的FBNet作者的话。他们发现DNN在iPhonex上运行得很快,但在三星Galaxy S8上运行得很慢。在论文中,Iandola的团队总结道,“即使MACs的数量保持不变,不同的卷积维数也会根据处理器和内核实现决定运行得更快或更慢。”

对自动驾驶的影响

今天,DeepScale已经与多家汽车供应商建立了合作关系,包括Visteon、Hella Aglaia Mobile Vision GmbH和其它未透露名称的公司。DeepScale一直在开发微型DNN。该公司声称,他们在保证最先进的性能的同时,它们需要的计算量更少。

在SqueezNas的论文中,Iandola和他的同事解释道,其团队使用基于超级网络的NAS来设计一个用于语义分割的DNN,用于识别道路、车道、汽车和其它物体的精确形状等具体任务。“我们对NAS系统进行配置,以优化 Cityscapes语义分割数据集的高精度,同时在小型汽车级计算平台上实现低延迟。”

随着SqueezNAS的发展,DeepScale对自己的定位是:在优化DNN、AI硬件和特定AI任务之间的协同关系方面成为先行者。

随着AI芯片即将席卷市场,Iandola认为系统设计师必须明智地选择加速器。他们应该确切地考虑硬件应该执行哪种AI任务,以及硬件加速器应该在哪种神经网络上运行。

安全摄像头、自动驾驶汽车和智能手机都将使用AI芯片。考虑到每个系统所需的速度、准确性、延迟和应用程序大不相同,确定合适的硬件和NAS就变得至关重要。

Iandola表示:,对于OEM车厂来说,要把一个测试版AV变成一个商业产品,必须把目前存储在AV车后箱中的刀片服务器抽取出来。Iandola预测,汽车制造商可能会要求硬件芯片公司提供适合硬件平台的优化DNN。

对于英伟达这样的公司来说,这可能不成问题,因为它的GPU得到了一个大型软件生态系统的支持。然而,大多数其他AI硬件供应商将会出一身冷汗。

此外,随着一系列新的传感器——摄像头、激光雷达和雷达—被设计成AVs,汽车原始设备制造商将面临一些残酷的现实。例如,每个传感器可能使用不同类型的神经网络。另一个例子是,不同品牌设计的激光雷达使用不同的AI硬件。Iandola指出,“今天,无论是传感器供应商还是AI处理器公司都没有提供针对其硬件进行优化推荐的神经网络。”
Iandola表示,OEM车厂和一级零部件供应商将开始要求优化DNN,以匹配特定硬件和AI任务, 这将无法避免。“我们相信,使用NAS优化目标计算平台上的低延迟变得越来越重要。”

随着基于超级网络的NAS的出现,NAS的成本已经在下降。因此,现在可能是时候让硬件供应商开始寻找自己的优化DNN。当被问及DeepScale是否计划通过合作、授权或为AI硬件公司开发优化DNN来填补这一缺口时,Iandola说道,“我们还没有真正考虑过这个问题。”

本文同步刊登于电子工程专辑杂志2019年10月刊

责编:Yvonne Geng

EETC https://www.eet-china.com
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Junko Yoshida
ASPENCORE全球联席总编辑,首席国际特派记者。曾任把口记者(beat reporter)和EE Times主编的Junko Yoshida现在把更多时间用来报道全球电子行业,尤其关注中国。 她的关注重点一直是新兴技术和商业模式,新一代消费电子产品往往诞生于此。 她现在正在增加对中国半导体制造商的报道,撰写关于晶圆厂和无晶圆厂制造商的规划。 此外,她还为EE Times的Designlines栏目提供汽车、物联网和无线/网络服务相关内容。 自1990年以来,她一直在为EE Times提供内容。
  • 隔空智能:全球首款可探测呼吸的5.8GHz微波雷达存在感应 酒店客人离开客房后未关闭空调等电器,每年带来的电力损耗十分惊人,如何在不侵犯隐私的前提下,确认房间内是否有人,成了节电的关键。当前市面上的人体运动侦测传感器,普遍不能有效检测静态的人体呼吸,因为人体呼吸心跳动作幅度小,雷达信号弱,但很有规律,要实现人体呼吸检测,需要在极弱信号中提取出规律信号……
  • 明皜传感:做MEMS要告别苦力和低价,需在技术和商业模式上 2000年,全球大约4亿人使用互联网,今天这个数字已超过50亿,消费级MEMS传感器芯片已是一片红海。MEMS产业投入大、风险高、产品开发周期长,属于‘苦力’干的活。但有了国家层面在资金上的支持,每年高校也在不断培养的人才,国内优秀MEMS企业会让产业链的不断完善,巨大的市场似乎告诉我们消费级MEMS还是可以“玩”……
  • 华景传感科技:做MEMS麦克风,我们有独家背极板和振膜技术 语音清晰度和真实度矩阵要求,使得产品使用具有多颗粒化特征。Amazon的智能音箱和iPhone手机已用到4-7颗硅麦克风。随着智能语音产业的飞速发展和语音多麦应用趋势,产品市场急速增长,智能手机是MEMS麦克风最大的应用市场,其余为……
  • 大股东南京晶芯申请下,德科码半导体将重整 全国企业破产重整案件信息网发布南京市中级人民法院关于德科码(南京)半导体(以下简称:德科码)重整情况的公告。公告显示,2021年4月29日,本院根据南京晶芯集成电路产业投资中心(有限合伙)的申请裁定德科码公司重整……
  • 用示波器分析汽车传感器SENT信号的技巧 本文将简要介绍使用示波器来分析SENT传感器信号的技巧,这种新的方式利用一系列测量参数和数学运算符,对节气门体传感器和压差传感器进行分析,以实时显示其连续性的变化。
  • Qorvo收购MEMS传感器厂商NextInput(附5年内收购公司名 Qorvo宣布已经收购了总部位于加州山景城的NextInput,后者成立于2012年,为手机、TWS、汽车、物联网、机器人、医疗和工业市场等提供基于微机电系统(MEMS)的传感解决方案。Qorvo近年来为了拓展产品组合、巩固技术优势,进行了多笔收购……
  • Intel 11代酷睿1处理器正式发布:10 今晚,Intel发布的11带酷睿处理器采用10nm制程,面向高性能移动桌面版。同时发布的还有同样架构的至强W-11000系列,面向高性能移动工作站。
  • AMD RX 6600系列或配备8GB显存 MD的RX 6600系列可能配备的不是之前传闻的6或12GB显存,二是8GB。可能包含64MB的内置Infinity Cache。
  • 平头哥发布玄铁907处理器,已向多家 平头哥发布旗下玄铁系列新款处理器—玄铁907,该处理器对开源RISC-V架构进行优化设计,兼顾高性能及低功耗特点,可应用于MPU(微处理器)、智能语音、导航定位、存储控制等领域,据透露,该处理器已向多家企业授权。

  • 动力总成系统集成化推动电动汽车进 在德州仪器 (TI) 努力改进电动汽车动力总成架构后,我们的客户可以将系统设计成本削减一半,同时有效提高功率密度、效率和可靠性,并让更多人都能买得起电动汽车。 
  • 华为中国生态大会,徐直军如是说 5月17日,“华为中国生态大会2021”在深圳会展中心开幕,华为轮值董事长徐直军发布主题演讲,谈及华为HarmonyOS(鸿蒙系统)。他预计到今年年底将有至少3亿台设备搭载鸿蒙系统,其中2亿台为华为自
  • 华为聘:控制算法高级工程师丨薪:80-150万 关注“智电车聘”,找最高薪工作!招最优秀人才!华为技术有限公司招聘控制算法高级工程师年薪:80-150万,经验:3年以上,工作地:上海市、北京、苏州市猎头岗位,请投递邮箱2900728549@qq.c
  • 英特尔PK赛灵思,完美胜出!Agilex™ FPGA迎来大规模量产 英特尔在半导体领域称雄几十年,凭借的就是其x86架构和曾经遥遥领先竞争对手的半导体制造工艺。然而在过去的三四年,英特尔在10纳米工艺上却遇到了阻碍,甚至被曾经望尘莫及的竞争对手完成了弯道超车,并纷纷投
  • 所有原创文章汇总-5月  最后整理时间:2021年5月17日整理的学习Linux的一些原创干货,大家可以根据自己的学习进度,查看对应的文章!彭老师已经开通B站直播间:名字      &
  • 5.9~5.15电子行业新闻周报 文章转载自“TechGuide科技向导” 5.9~5.15|电子行业新闻周报一周电子行业热点1终端手机声称华为P50系列的真实渲染图再见安卓!鸿蒙版京东App上架华为商城:正式版最快6月见公
  • 水分对锂电池性能影响及抑制途径 点击上面↑“电动知家”可以订阅哦!近日精彩阅读:重大信号!中国新能源产业将迎新一轮爆发!刚刚!南北大众停产!中国燃油车全面禁售时间表发布!特斯拉太牛了.....和解了!又一新势力入局!或收购北汽工厂!
  • 从IEEE Cledo Brunetti Award获奖情况看半导体发展 来源:芯思想一个多世纪以来,IEEE及其前身AIEE协会长期以来一直颁发各种奖励,以表彰其会员在关注领域中的各种杰出贡献。IEEE奖励计划分为三种类型:IEEE Medals(奖章)、 Te
  • 大学生入职中芯国际年薪多少?官方回应 做为国内最大最先进的半导体制造公司,中芯国际是明星企业,也是唯一量产14nm的国内公司,近年来也在不断扩充力量,吸引人才加盟。大学毕业生去中芯国际工作,那收入水平如何?对于这个问题,有投资者在互动平台
  • 二极管选型关键要素 1、正向导通压降压降:二极管的电流流过负载以后相对于同一参考点的电势(电位)变化称为电压降,简称压降。导通压降:二极管开始导通时对应的电压。正向特性:在二极管外加正向电压时,在正向特性的起始部分,正向
  • 消息称手机厂下调零部件订单,手机销售下半年恐不如上半年 据媒体报道,近期中国两大手机品牌OPPO、vivo下修部分零部件订单,缺料以及5G手机浮现卖不动的疲态,中国、印度两大市场手机销量显疲软,外资投行下调5%的全年智能手机销量。据悉,零部件缺料、涨价效应
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了