广告

曾被百度开除的工程师在美国成立AI公司

2017-10-18 Junko Yoshida 阅读:
NovuMind打造AI芯片的终极境界在于达到智能物联网(I2oT),即让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。
ASPENCORE

在历经一连串的风波后,曾经是百度(Baidu)人工智能(AI)杰出工程师的吴韧(Ren Wu)黯然离去,不久后在美国加州成立了一家AI新创公司——NovuMind。在日前接受《EE Times》的专访中,吴韧谈到了这家新创公司的发展动向以及他希望达到的目标。
20171017-NovuMind
吴韧,NovuMind创始人暨首席执行官14yEETC-电子工程专辑

NovuMind大约在两年前成立,目前共有50名员工,包括在美国的35名工程师,以及北京的15名员工。该公司目前正针对吴韧所描述的深度学习(deep learning)精简途径进行测试。14yEETC-电子工程专辑

相较于Nvidia的绘图处理器(GPU)或Cadence的数字信号处理器(DSP)等通用的深度学习芯片设计,吴韧强调,NovuMind专注于开发“能更有效进行推理(interference)”的深度学习加速器芯片。14yEETC-电子工程专辑

NovuMind所设计的AI芯片仅使用尺寸极小(3x3)的卷积滤波器。14yEETC-电子工程专辑

值此人工智能步伐进展神速至几乎令人晕眩之际,NovuMind的这种设计途径似乎与一般的直觉预期相左。事实上,许多关注于未来AI算法的竞争对手们都将目光投向尽可能进行编程且强大的芯片上。14yEETC-电子工程专辑

相形之下,NovuMind则专注于“惟有神经网络的核心不可能改变”的设计理念。吴韧解释说,5x5卷积能透过堆栈2个3x3滤波器以低度运算来完成,而7x7则可堆栈3个。“那么,为什么还要大费周章地使用其他滤波器?”14yEETC-电子工程专辑

针对边缘设备上深度学习加速器所采用的DSP和GPU等架构,最大的问题就是“处理器的利用率非常低”。吴韧说,NovuMind“采用独特的张量(tensor)处理架构,解决了这个效率问题。”14yEETC-电子工程专辑

他表示,NovuMind的设计想法是相当“主动积极的思考”方式,因为它专注于神经网络中的最小卷积组合;同时,新芯片的使命在于让更具功率效率的AI嵌入任何应用中。14yEETC-电子工程专辑

该公司专为原型设计的首款AI芯片预计将在今年圣诞节之前投片。而在明年2月以前,预计就可看到以低于5瓦(W)功耗执行每秒15兆次性能(TFLOPS)的芯片应用出现。此外,第二款芯片设计还将执行于1W以下,预计在2018年中发布。14yEETC-电子工程专辑

NovuMind的新芯片将支持Tensorflow、Caffe和Torch等原生的深度学习架构模型。14yEETC-电子工程专辑

吴韧认为AI芯片的终极境界在于让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。他将此称为智慧物联网(I2oT)。14yEETC-电子工程专辑

对于过去几年来行事较低调的吴韧来说,NovuMind在某种程度上为他带来了补偿的机会。14yEETC-电子工程专辑

就在两年前,中国搜寻巨擘——百度在2015年ImageNet大规模视觉识别挑战赛(ILSVRC)中被取消资格后,吴韧也被百度开除了。但吴韧随后否认了这起被称作“机器学习首例作弊丑闻”。14yEETC-电子工程专辑

不过,在接受《EE Times》的专访时,吴韧并不愿意再谈到这起事件,而仅表示“我想我应该是被陷害了”。14yEETC-电子工程专辑

在当今积极追逐边缘设备深度学习加速器的竞赛中,NovuMind正大步向前迈进。2016年12月才刚获得1,520万的首轮资金,NovuMind如今即将展开第二轮募资行动。吴韧在电话专访中解释:“这就是为什么我目前留在北京。”14yEETC-电子工程专辑

3D Tensor运算14yEETC-电子工程专辑

正如吴韧所说的,深度学习加速的关键在于使效率最大化,同时让延迟减至最低,特别是针对边缘设备。当然,许多边缘设备还受到成本和电池寿命的限制。而无人机和自动驾驶车辆并不容许任何延迟,因为它们必须能毫无延迟地识别突然出现的危险。14yEETC-电子工程专辑

在此背景下,吴韧指出可用于边缘设备深度学习加速的现有解决方案有二:DSP——如CEVA和Tensillica;以及GPU——如Nvidia的TX系列。14yEETC-电子工程专辑

他接着解释说,DSP的设计用于数字滤波,使用1D乘积累加运算(MAC)来完成任务。GPU(和Tensor处理单元)运作的本质是2D通用矩阵乘法(GEMM)。
20171017-NovuMind-1、
1D MAC、2D GEMM和3D Tensor运作的比较(来源:NovuMind)14yEETC-电子工程专辑

然而,吴韧认为,DSP和GPU都无法有效地实现深度学习加速任务。他解释说,深度学习网络模型运算中的最新技术是3D张量运算。“当然,如果您将3D张量作业转换为1D MAC作业(针对DSP应用)或2D GEMM作业(针对GPU应用),则会失去许多效率。”14yEETC-电子工程专辑

吴韧解释说:“这就是为什么即使GPU和DSP声称具有高峰值性能(~1-2TFLOPS),而当执行真正的深度学习网络推理时,其平均性能仅为实时应用峰值性能的20-30%。”14yEETC-电子工程专辑

他说有很多的处理能量都浪费在内存存取。平均而言,运算资源的70-80%性能都处于空闲状态,等待来自内存的数据。14yEETC-电子工程专辑

NovuMind使用吴韧所谓的“独特的张量处理架构”。NovuMind的芯片架构原生支持3D张量运算。他强调,这将有助于“大幅提高能量和芯片面积的效率。”据吴韧介绍,NovuMind的架构可达到实际应用峰值性能的75~90%。14yEETC-电子工程专辑

内存阶层结构14yEETC-电子工程专辑

吴韧声称,NovuMind“基于3D张量运算”的设计,为其AI芯片带来了巨大优势。“由于它能直接在3D张量上进行处理,我们不必为了将卷积扩大到2D矩阵而介入中间步骤,因而能够节省大量的内存带宽与内存存取能量。”14yEETC-电子工程专辑

但工程技术脱离不了权衡折衷。为了追求嵌入式AI所需的功率效率,NovuMind的AI芯片又必须放弃什么呢?14yEETC-电子工程专辑

吴韧表示:“NovuMind的芯片仅支持一些有限的拓扑结构,如VGG、RESNET网络所定义的层级,以及另一小部份我们认为重要且相关的其他网络层。”14yEETC-电子工程专辑

他指出:“我们的芯片将非常有效地运算所支持的这些网络层。它当然也可以处理其他分层,但并不是优化的。”14yEETC-电子工程专辑

至于其缺点呢?吴韧认为NovuMind的AI芯片的“通用性不足”。如果网络中包含许多无法支持的分层,“其性能就不再具有竞争力”。但吴韧仍有信心“透过NovuMind强大的AI团队和内部训练能力,很快地将会涵盖与现实世界应用相关的所有重要分层。”14yEETC-电子工程专辑

不过,NuvoMind为什么深信3x3滤波器是必经之路?吴韧说:“这必须归功于原始的VGG论及其作者。”14yEETC-电子工程专辑

VGG是指英国牛津大学(Oxford University)工程科学系视觉几何小组(Visual Geometry Group;VGG)。VGG研究人员在2015年撰写了题为“大规模影像识别的超深度卷积网络”(Very Deep Convolutional Networks for Large-Scale Image Recognition)的论文。14yEETC-电子工程专辑

VGG的这篇论文说服了吴韧将其芯片架构映像到硬件。他随即惊讶地发现这是多么友善硬件的途径。“算法设计者能够提出如此优越且友善硬件的设计,这是极其罕见的情况之一。”他认为,我们目前看到其他实际有用的网络拓扑都是以VGG的成果为基础的。14yEETC-电子工程专辑

吴韧并补充说:“由于3x3卷积是一个重要的组成部份,我们的设计当然将会尽可能地确保使其具有最高效率。”14yEETC-电子工程专辑

延迟比较14yEETC-电子工程专辑

吴韧表示,相较于DSP和GPU,NovuMind的架构在延迟方面表现出色。14yEETC-电子工程专辑

他观察到,“DSP是专为串流数据处理而设计的,延迟表现不错。”另一方面,“GPU通常需要大量作业,因而延迟较差——在8-64批次大小时约延迟50-300毫秒(ms),”使其难以满足实时的需求。14yEETC-电子工程专辑

他解释说,NovuMind架构也使用了串流模式的数据处理(延迟< 3ms)。“我们可以想象,当一辆自动驾驶车以每小时65英哩(mph)的速度行驶而必须立刻煞车时,NovuMind架构比GPU更具有转化4.5-30英呎距离的延迟优势。”他夸耀地说,“这将会对自动驾驶车带来重大影响。”
20171017-NovuMind2
开发蓝图14yEETC-电子工程专辑

NovuMind的首款芯片将采用28nm工艺技术,并由代工厂生产。据吴韧介绍,第二款芯片将会采用16nm工艺,预计在2018年中期投片。14yEETC-电子工程专辑

吴韧说首款芯片是为了原型设计而生产的,但已可用于几种应用场景。其一是结合NovuMind芯片的USB运算棒,可用于使连网设备(如连网相机)成为AI驱动的系统。其次,该AI芯片由于具备15TFLOPS的效能,因而可用于“自动驾驶车”。第三种应用则是将AI芯片用于进行云端加速。14yEETC-电子工程专辑

根据吴韧观察,数据中心所使用的GPU对于机架空间造成了限制。来自GPU的更高功耗(导致额外的热)更是“罪魁祸首”。虽然NovuMind的AI芯片是专为边缘设备而设计的,但将它放在服务器内部的PCI板时,其微型的封装能够有效地执行单一应用程序,例如必须在数据中心处理的语音识别应用。14yEETC-电子工程专辑

那么,什么样的AI应用程序最适合采用NovuMind的AI芯片?NovuMind认为其AI芯片可在像自动驾驶中作为搜寻路径的理想应用吗?14yEETC-电子工程专辑

吴韧的答案是否定的。他解释说,当今自动驾驶车的密集运算单元“复杂度远超过任何人的想象”。事实上,他预期自动驾驶车中将会有多个AI芯片预先处理数据,并将数据馈送至可作出明智决定的中央单元。他解释说,NovuMind的AI芯片将会是自动驾驶车内的众多AI芯片之一。14yEETC-电子工程专辑

吴韧说该公司的AI芯片至今可执行“城市/国家级、多字符串、多目标的人脸识别”等应用。例如,凭借着该芯片支持并处理128个高分辨率(HD)视频串流的能力,可让系统从十万支连网摄影机中识别数百万的目标人群。更重要的是,他强调,“我们可以在边缘设备实现这一点,而无需连网摄影机要求的大量带宽、储存空间与设置。”14yEETC-电子工程专辑

为传感器添加直觉能力14yEETC-电子工程专辑

至于深度学习的未来,吴韧说,“掌握大数据和巨大的运算能力,让我们能够训练神经网络完成许多复杂的任务。”这也正是AI社群目前的目标所在。14yEETC-电子工程专辑

但他解释,NovuMind希望能够为传感器增添“直觉”。就像人类和动物都具有五种感官一样,机器也应该能够具备一定的“本能”,协助他们迅速做出反应。14yEETC-电子工程专辑

而至于机器的一般智力、推理和长期记忆,“我们还有很长的路要走。”14yEETC-电子工程专辑

编译:Susan Hong14yEETC-电子工程专辑

本文授权编译自EE Times,版权所有,谢绝转载14yEETC-电子工程专辑

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。
14yEETC-电子工程专辑

14yEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Junko Yoshida
ASPENCORE全球联席总编辑,首席国际特派记者。曾任把口记者(beat reporter)和EE Times主编的Junko Yoshida现在把更多时间用来报道全球电子行业,尤其关注中国。 她的关注重点一直是新兴技术和商业模式,新一代消费电子产品往往诞生于此。 她现在正在增加对中国半导体制造商的报道,撰写关于晶圆厂和无晶圆厂制造商的规划。 此外,她还为EE Times的Designlines栏目提供汽车、物联网和无线/网络服务相关内容。 自1990年以来,她一直在为EE Times提供内容。
您可能感兴趣的文章
  • 纳芯微推出基于电容隔离技术的隔离误差放大器NSi3190 高可靠、高性能、低成本,打破模拟电源小型化瓶颈。
  • GaN IC:推动分立式晶体管走向尽头 采用分立式氮化镓器件或分立式MOSFET器件的设计工程师,现在可以改用GaN集成电路以节省时间、占板面积及提升他们的系统性能,从而实现具备更高的功率密度、更高的效率及更具成本效益的先进设计。当氮化镓集成电路开始集成多个驱动器、保护电路、控制电路及功率晶体管于单个芯片上时,设计师会逐渐减少分立式晶体管的使用。这是分立式晶体管走向尽头的开始。
  • 没有电容计,如何测量未知电容? 本文介绍的测量方法与各种SPICE模型的仿真相关。建议在实际电路中采集数据。用户可以根据所需的电容值,自由地创建数学模型;当然还要考虑瞬态等待时间和RC时间常数,因为这些因素可能导致长时间的等待。建议尝试根据需要更改电子元件的值。
  • 手把手教你构建可调线性AC-DC电源 双输出低噪声电源对于电子发烧友来说是一个必不可少的工具。在许多情况下都需要双输出电源,例如设计前置放大器和为功率运算放大器(OPAMP)供电等。在本文中,我们将构建一个可供用户独立调节正负轨的线性电源,在其输入端采用普通的单输出交流变压器即可。
  • 如何轻松稳定带感性开环输出阻抗的运算放大器? 一些运算放大器(运放)具有感性开环输出阻抗,稳定这一类运放可能比阻性输出阻抗的运算放大器更为复杂。最常用的技术之一是使用“断开环路”方法,这涉及到断开闭环电路的反馈环路和查看环路增益以确定相位裕度。一种鲜为人知的方法是使用不需要断开环路的闭环输出阻抗。在本文中,我将讨论如何使用闭环输出阻抗来稳定带阻性或感性开环输出阻抗的运算放大器。
  • 【资料汇总】全方位学习ADC/DAC 许多初步了解模数转换器(ADC)的人想知道如何将ADC代码转换为电压。或者,他们的问题是针对特定应用,例如:如何将ADC代码转换回物理量,如电流、温度、重量或压力……
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了