广告

曾被百度开除的工程师在美国成立AI公司

时间:2017-10-18 作者:Junko Yoshida 阅读:
NovuMind打造AI芯片的终极境界在于达到智能物联网(I2oT),即让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。
EETC https://www.eet-china.com

在历经一连串的风波后,曾经是百度(Baidu)人工智能(AI)杰出工程师的吴韧(Ren Wu)黯然离去,不久后在美国加州成立了一家AI新创公司——NovuMind。在日前接受《EE Times》的专访中,吴韧谈到了这家新创公司的发展动向以及他希望达到的目标。
20171017-NovuMind
吴韧,NovuMind创始人暨首席执行官Gz1EETC-电子工程专辑

NovuMind大约在两年前成立,目前共有50名员工,包括在美国的35名工程师,以及北京的15名员工。该公司目前正针对吴韧所描述的深度学习(deep learning)精简途径进行测试。Gz1EETC-电子工程专辑

相较于Nvidia的绘图处理器(GPU)或Cadence的数字信号处理器(DSP)等通用的深度学习芯片设计,吴韧强调,NovuMind专注于开发“能更有效进行推理(interference)”的深度学习加速器芯片。Gz1EETC-电子工程专辑

NovuMind所设计的AI芯片仅使用尺寸极小(3x3)的卷积滤波器。Gz1EETC-电子工程专辑

值此人工智能步伐进展神速至几乎令人晕眩之际,NovuMind的这种设计途径似乎与一般的直觉预期相左。事实上,许多关注于未来AI算法的竞争对手们都将目光投向尽可能进行编程且强大的芯片上。Gz1EETC-电子工程专辑

相形之下,NovuMind则专注于“惟有神经网络的核心不可能改变”的设计理念。吴韧解释说,5x5卷积能透过堆栈2个3x3滤波器以低度运算来完成,而7x7则可堆栈3个。“那么,为什么还要大费周章地使用其他滤波器?”Gz1EETC-电子工程专辑

针对边缘设备上深度学习加速器所采用的DSP和GPU等架构,最大的问题就是“处理器的利用率非常低”。吴韧说,NovuMind“采用独特的张量(tensor)处理架构,解决了这个效率问题。”Gz1EETC-电子工程专辑

他表示,NovuMind的设计想法是相当“主动积极的思考”方式,因为它专注于神经网络中的最小卷积组合;同时,新芯片的使命在于让更具功率效率的AI嵌入任何应用中。Gz1EETC-电子工程专辑

该公司专为原型设计的首款AI芯片预计将在今年圣诞节之前投片。而在明年2月以前,预计就可看到以低于5瓦(W)功耗执行每秒15兆次性能(TFLOPS)的芯片应用出现。此外,第二款芯片设计还将执行于1W以下,预计在2018年中发布。Gz1EETC-电子工程专辑

NovuMind的新芯片将支持Tensorflow、Caffe和Torch等原生的深度学习架构模型。Gz1EETC-电子工程专辑

吴韧认为AI芯片的终极境界在于让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。他将此称为智慧物联网(I2oT)。Gz1EETC-电子工程专辑

对于过去几年来行事较低调的吴韧来说,NovuMind在某种程度上为他带来了补偿的机会。Gz1EETC-电子工程专辑

就在两年前,中国搜寻巨擘——百度在2015年ImageNet大规模视觉识别挑战赛(ILSVRC)中被取消资格后,吴韧也被百度开除了。但吴韧随后否认了这起被称作“机器学习首例作弊丑闻”。Gz1EETC-电子工程专辑

不过,在接受《EE Times》的专访时,吴韧并不愿意再谈到这起事件,而仅表示“我想我应该是被陷害了”。Gz1EETC-电子工程专辑

在当今积极追逐边缘设备深度学习加速器的竞赛中,NovuMind正大步向前迈进。2016年12月才刚获得1,520万的首轮资金,NovuMind如今即将展开第二轮募资行动。吴韧在电话专访中解释:“这就是为什么我目前留在北京。”Gz1EETC-电子工程专辑

3D Tensor运算Gz1EETC-电子工程专辑

正如吴韧所说的,深度学习加速的关键在于使效率最大化,同时让延迟减至最低,特别是针对边缘设备。当然,许多边缘设备还受到成本和电池寿命的限制。而无人机和自动驾驶车辆并不容许任何延迟,因为它们必须能毫无延迟地识别突然出现的危险。Gz1EETC-电子工程专辑

在此背景下,吴韧指出可用于边缘设备深度学习加速的现有解决方案有二:DSP——如CEVA和Tensillica;以及GPU——如Nvidia的TX系列。Gz1EETC-电子工程专辑

他接着解释说,DSP的设计用于数字滤波,使用1D乘积累加运算(MAC)来完成任务。GPU(和Tensor处理单元)运作的本质是2D通用矩阵乘法(GEMM)。
20171017-NovuMind-1、
1D MAC、2D GEMM和3D Tensor运作的比较(来源:NovuMind)Gz1EETC-电子工程专辑

然而,吴韧认为,DSP和GPU都无法有效地实现深度学习加速任务。他解释说,深度学习网络模型运算中的最新技术是3D张量运算。“当然,如果您将3D张量作业转换为1D MAC作业(针对DSP应用)或2D GEMM作业(针对GPU应用),则会失去许多效率。”Gz1EETC-电子工程专辑

吴韧解释说:“这就是为什么即使GPU和DSP声称具有高峰值性能(~1-2TFLOPS),而当执行真正的深度学习网络推理时,其平均性能仅为实时应用峰值性能的20-30%。”Gz1EETC-电子工程专辑

他说有很多的处理能量都浪费在内存存取。平均而言,运算资源的70-80%性能都处于空闲状态,等待来自内存的数据。Gz1EETC-电子工程专辑

NovuMind使用吴韧所谓的“独特的张量处理架构”。NovuMind的芯片架构原生支持3D张量运算。他强调,这将有助于“大幅提高能量和芯片面积的效率。”据吴韧介绍,NovuMind的架构可达到实际应用峰值性能的75~90%。Gz1EETC-电子工程专辑

内存阶层结构Gz1EETC-电子工程专辑

吴韧声称,NovuMind“基于3D张量运算”的设计,为其AI芯片带来了巨大优势。“由于它能直接在3D张量上进行处理,我们不必为了将卷积扩大到2D矩阵而介入中间步骤,因而能够节省大量的内存带宽与内存存取能量。”Gz1EETC-电子工程专辑

但工程技术脱离不了权衡折衷。为了追求嵌入式AI所需的功率效率,NovuMind的AI芯片又必须放弃什么呢?Gz1EETC-电子工程专辑

吴韧表示:“NovuMind的芯片仅支持一些有限的拓扑结构,如VGG、RESNET网络所定义的层级,以及另一小部份我们认为重要且相关的其他网络层。”Gz1EETC-电子工程专辑

他指出:“我们的芯片将非常有效地运算所支持的这些网络层。它当然也可以处理其他分层,但并不是优化的。”Gz1EETC-电子工程专辑

至于其缺点呢?吴韧认为NovuMind的AI芯片的“通用性不足”。如果网络中包含许多无法支持的分层,“其性能就不再具有竞争力”。但吴韧仍有信心“透过NovuMind强大的AI团队和内部训练能力,很快地将会涵盖与现实世界应用相关的所有重要分层。”Gz1EETC-电子工程专辑

不过,NuvoMind为什么深信3x3滤波器是必经之路?吴韧说:“这必须归功于原始的VGG论及其作者。”Gz1EETC-电子工程专辑

VGG是指英国牛津大学(Oxford University)工程科学系视觉几何小组(Visual Geometry Group;VGG)。VGG研究人员在2015年撰写了题为“大规模影像识别的超深度卷积网络”(Very Deep Convolutional Networks for Large-Scale Image Recognition)的论文。Gz1EETC-电子工程专辑

VGG的这篇论文说服了吴韧将其芯片架构映像到硬件。他随即惊讶地发现这是多么友善硬件的途径。“算法设计者能够提出如此优越且友善硬件的设计,这是极其罕见的情况之一。”他认为,我们目前看到其他实际有用的网络拓扑都是以VGG的成果为基础的。Gz1EETC-电子工程专辑

吴韧并补充说:“由于3x3卷积是一个重要的组成部份,我们的设计当然将会尽可能地确保使其具有最高效率。”Gz1EETC-电子工程专辑

延迟比较Gz1EETC-电子工程专辑

吴韧表示,相较于DSP和GPU,NovuMind的架构在延迟方面表现出色。Gz1EETC-电子工程专辑

他观察到,“DSP是专为串流数据处理而设计的,延迟表现不错。”另一方面,“GPU通常需要大量作业,因而延迟较差——在8-64批次大小时约延迟50-300毫秒(ms),”使其难以满足实时的需求。Gz1EETC-电子工程专辑

他解释说,NovuMind架构也使用了串流模式的数据处理(延迟< 3ms)。“我们可以想象,当一辆自动驾驶车以每小时65英哩(mph)的速度行驶而必须立刻煞车时,NovuMind架构比GPU更具有转化4.5-30英呎距离的延迟优势。”他夸耀地说,“这将会对自动驾驶车带来重大影响。”
20171017-NovuMind2
开发蓝图Gz1EETC-电子工程专辑

NovuMind的首款芯片将采用28nm工艺技术,并由代工厂生产。据吴韧介绍,第二款芯片将会采用16nm工艺,预计在2018年中期投片。Gz1EETC-电子工程专辑

吴韧说首款芯片是为了原型设计而生产的,但已可用于几种应用场景。其一是结合NovuMind芯片的USB运算棒,可用于使连网设备(如连网相机)成为AI驱动的系统。其次,该AI芯片由于具备15TFLOPS的效能,因而可用于“自动驾驶车”。第三种应用则是将AI芯片用于进行云端加速。Gz1EETC-电子工程专辑

根据吴韧观察,数据中心所使用的GPU对于机架空间造成了限制。来自GPU的更高功耗(导致额外的热)更是“罪魁祸首”。虽然NovuMind的AI芯片是专为边缘设备而设计的,但将它放在服务器内部的PCI板时,其微型的封装能够有效地执行单一应用程序,例如必须在数据中心处理的语音识别应用。Gz1EETC-电子工程专辑

那么,什么样的AI应用程序最适合采用NovuMind的AI芯片?NovuMind认为其AI芯片可在像自动驾驶中作为搜寻路径的理想应用吗?Gz1EETC-电子工程专辑

吴韧的答案是否定的。他解释说,当今自动驾驶车的密集运算单元“复杂度远超过任何人的想象”。事实上,他预期自动驾驶车中将会有多个AI芯片预先处理数据,并将数据馈送至可作出明智决定的中央单元。他解释说,NovuMind的AI芯片将会是自动驾驶车内的众多AI芯片之一。Gz1EETC-电子工程专辑

吴韧说该公司的AI芯片至今可执行“城市/国家级、多字符串、多目标的人脸识别”等应用。例如,凭借着该芯片支持并处理128个高分辨率(HD)视频串流的能力,可让系统从十万支连网摄影机中识别数百万的目标人群。更重要的是,他强调,“我们可以在边缘设备实现这一点,而无需连网摄影机要求的大量带宽、储存空间与设置。”Gz1EETC-电子工程专辑

传感器添加直觉能力Gz1EETC-电子工程专辑

至于深度学习的未来,吴韧说,“掌握大数据和巨大的运算能力,让我们能够训练神经网络完成许多复杂的任务。”这也正是AI社群目前的目标所在。Gz1EETC-电子工程专辑

但他解释,NovuMind希望能够为传感器增添“直觉”。就像人类和动物都具有五种感官一样,机器也应该能够具备一定的“本能”,协助他们迅速做出反应。Gz1EETC-电子工程专辑

而至于机器的一般智力、推理和长期记忆,“我们还有很长的路要走。”Gz1EETC-电子工程专辑

编译:Susan HongGz1EETC-电子工程专辑

本文授权编译自EE Times,版权所有,谢绝转载Gz1EETC-电子工程专辑

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。
Gz1EETC-电子工程专辑

Gz1EETC-电子工程专辑

EETC https://www.eet-china.com
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Junko Yoshida
ASPENCORE全球联席总编辑,首席国际特派记者。曾任把口记者(beat reporter)和EE Times主编的Junko Yoshida现在把更多时间用来报道全球电子行业,尤其关注中国。 她的关注重点一直是新兴技术和商业模式,新一代消费电子产品往往诞生于此。 她现在正在增加对中国半导体制造商的报道,撰写关于晶圆厂和无晶圆厂制造商的规划。 此外,她还为EE Times的Designlines栏目提供汽车、物联网和无线/网络服务相关内容。 自1990年以来,她一直在为EE Times提供内容。
您可能感兴趣的文章
  • 控制数字化信号的采样率 数字仪器采样模拟波形并对样本进行处理,以确保数据可以恢复为连续的模拟形式。采样定理表明,信号数字化的均匀采样频率若大于最高频率分量的两倍,信号就可以无误差地恢复或重建。但是,你知道还可以改变数字化数据的采样率吗?本篇文章将告诉我们如何控制数字化信号的采样率。处理数字化数据最有用的两个工具是抽取和插值的数学函数。
  • 五种快速精确测量电源完整性的技巧 随着行业的不断发展,电源轨电压和容差越来越小。例如,无论使用何种示波器,都难以测量1V电源轨上2%容差的纹波电压。本文介绍了五种利用示波器精确测量电源完整性的技巧。
  • 适合电动汽车和工业应用的逆变器综合解决方案 在工业运用领域,绝大多电力驱动均采用异步电机,而汽车驱动则使用永磁同步电机。对于汽车和工业应用而言,制造商按照IEC60034-18041标准规定将此类电机在逆变器端的最大允许电压上升率限定为5kV/µs左右。为获得较高的能源效率,逆变器功率半导体运行的开关频率范围为4kHz~15kHz。本文将会介绍适合电动汽车和工业应用的逆变器综合解决方案。
  • 低EMI/EMC开关转换器简化ADAS设计 ADAS在汽车和卡车市场中的推广不会很快结束。同样清楚的是,找到合适的功率转换器件以满足所有必要的性能指标,从而不干扰ADAS,不是一项简单的任务。
  • 乘法DAC如何用于DAC以外的其他应用? 乘法数模转换器的使用不是那么广泛,但其提供了许多可能性。除了高带宽的自制PGA以外,移动应用也是非常合适的应用,因为其功耗要求低于50 μW。
  • 一位年轻应用工程师的高端电流检测实验经历分享 为了稳定性,必须在MOSFET栅极前面放一个100Ω电阻吗?
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告