广告

清华实现完整硬件CNN,忆阻器阵列效能高过GPU两个数量级

时间:2020-02-26 作者:网络整理 阅读:
该成果所研发的基于多个忆阻器阵列的存算一体系统,在处理卷积神经网络(CNN)时的能效比图形处理器芯片(GPU)高两个数量级,大幅提升了计算设备的算力,成功实现了以更小的功耗和更低的硬件成本完成复杂的计算。
广告
ASPENCORE

近日,清华大学微电子所、未来芯片技术高精尖创新中心钱鹤、吴华强教授团队与合作者在《自然》在线发表了题为“Fully hardware-implemented memristor convolutional neural network”的研究论文,报道了基于忆阻器阵列芯片卷积网络的完整硬件实现。该成果所研发的基于多个忆阻器阵列的存算一体系统,在处理卷积神经网络(CNN)时的能效比图形处理器芯片(GPU)高两个数量级,大幅提升了计算设备的算力,成功实现了以更小的功耗和更低的硬件成本完成复杂的计算。Cf7EETC-电子工程专辑

Cf7EETC-电子工程专辑

多个忆阻器阵列芯片协同工作示意图。基于忆阻器阵列可以实现基于物理定律(欧姆定律和基尔霍夫定律)的并行计算,同时实现存储与计算一体化,突破“冯诺依曼瓶颈”对算力的限制。(图自:清华新闻网,下同)Cf7EETC-电子工程专辑

Cf7EETC-电子工程专辑

基于忆阻器芯片的存算一体系统Cf7EETC-电子工程专辑

随着人工智能应用对计算和存储需求的不断提升,集成电路芯片技术面临诸多新的挑战。一方面,随着摩尔定律放缓,通过集成电路工艺微缩的方式获得算力提升越来越难,另一方面,在传统“冯诺依曼”架构中,计算与存储在不同电路单元中完成,会造成大量数据搬运的功耗增加和额外延迟Cf7EETC-电子工程专辑

阿里达摩院在2020年1月发布了《2020十大科技趋势》报告,其中第二大趋势为“计算存储一体化突破AI算力瓶颈”。报告指出:“数据存储单元和计算单元融合为一体,能显著减少数据搬运,极大提高计算并行度和能效。计算存储一体化在硬件架构方面的革新,将突破AI算力瓶颈”。基于忆阻器的新型存算一体架构可以利用欧姆定律和基尔霍夫电流定律的实现基于物理定律的原位计算(Compute on Physics),打破“冯诺依曼”架构中的算力瓶颈问题,满足人工智能等复杂任务对计算硬件的高需求。Cf7EETC-电子工程专辑

什么是忆阻器?

忆阻器,全称记忆电阻器(Memristor),是继电阻、电容、电感之后的第四种电路基本元件,表示磁通与电荷之间的关系,最早由加州大学伯克利分校教授蔡少棠在1971年预言存在,惠普公司在2008年研制成功。Cf7EETC-电子工程专辑

简单来说,这种组件的的电阻会随着通过的电流量而改变,而且就算电流停止了,它的电阻仍然会停留在之前的值,直到接受到反向的电流它才会被推回去,等于说能“记住”之前的电流量。Cf7EETC-电子工程专辑

这种奇妙的效果,其实和神经元突触有相仿之处。再加上忆阻器还具有尺寸小、操作功耗低、可大规模集成(三维集成)等优点,难怪计算机科学家们在忆阻器身上看到了存算一体、低能耗类脑计算的前景。Cf7EETC-电子工程专辑

人工神经网络近年来大放异彩,如果用忆阻器连接成阵列,作为人工神经网络的硬件,会有什么效果?Cf7EETC-电子工程专辑

忆阻器阵列

当前国际上的相关研究还停留在简单网络结构的验证,或者基于少量器件数据进行的仿真,基于忆阻器阵列的完整硬件实现仍然有很多挑战:器件方面,制备高一致、可靠的多值忆阻器阵列仍是挑战;系统方面,受忆阻器的阻变机理制约,器件固有的非理想特性(如器件间波动,器件电导卡滞,电导状态漂移等)会导致计算准确率降低;架构方面,忆阻器阵列实现卷积功能需要以串行滑动的方式连续采样、计算多个输入块,无法匹配全连接结构的计算效率。Cf7EETC-电子工程专辑

钱鹤、吴华强教授团队通过优化材料和器件结构,成功制备出了高性能的忆阻器阵列。2017年5月,该课题组就曾在《自然通讯》报告称,首次实现了基于1024个氧化物忆阻器阵列的类脑计算,将氧化物忆阻器的集成规模提高了一个数量级。这使芯片更加高效地完成人脸识别计算任务,将能耗降低到原来的千分之一以下。Cf7EETC-电子工程专辑

忆阻器神经网络

为解决器件非理想特性造成的系统识别准确率下降问题,他们提出一种新型的混合训练算法,仅需用较少的图像样本训练神经网络,并通过微调最后一层网络的部分权重,使存算一体架构在手写数字集上的识别准确率达到96.19%,与软件的识别准确率相当。与此同时,提出了空间并行的机制,将相同卷积核编程到多组忆阻器阵列中,各组忆阻器阵列可并行处理不同的卷积输入块,提高并行度来加速卷积计算。Cf7EETC-电子工程专辑

在此基础上,该团队搭建了全硬件构成的完整存算一体系统,在系统里集成了8个包括2048个忆阻器的阵列,以提高并行计算的效率,并在该系统上高效运行了卷积神经网络算法,成功验证了图像识别功能,证明了存算一体架构全硬件实现的可行性。Cf7EETC-电子工程专辑

Cf7EETC-电子工程专辑

存算一体系统架构Cf7EETC-电子工程专辑

近年来,钱鹤、吴华强教授团队长期致力于面向人工智能的存算一体技术研究,从器件性能优化、工艺集成、电路设计及架构与算法等多层次实现创新突破,先后在《自然通讯》(Nature Communications)、《自然电子》(Nature Electronics)、《先进材料》(Advanced Materials)等期刊以及国际电子器件会议 (IEDM)、国际固态半导体电路大会(ISSCC)等顶级学术会议上发表多篇论文。 Cf7EETC-电子工程专辑

Cf7EETC-电子工程专辑

团队合影Cf7EETC-电子工程专辑

清华大学微电子所吴华强教授是本论文的通讯作者,清华大学微电子所博士生姚鹏是第一作者。该研究工作得到了国家自然科学基金委、国家重点研发计划、北京市科委、北京信息科学与技术国家研究中心及华为技术有限公司等支持。Cf7EETC-电子工程专辑

论文原文链接:Cf7EETC-电子工程专辑

https://www.nature.com/articles/s41586-020-1942-4Cf7EETC-电子工程专辑

责编:Luffy LiuCf7EETC-电子工程专辑

本文综合自清华新闻网、清华微电子所、Nature、澎湃新闻报道Cf7EETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 没有过不去的槛,5G射频滤波器迎来重大突破 Soitec滤波器业务经理Christophe Didier认为,相对于BAW和TC-SAW滤波器,基于POI衬底的SAW的能源效率、频率和带宽都更高,比TC-SAW的能源损耗更小。此外,如果从系统角度来看,基于POI衬底的SAW工艺流程更简单、成本更低,是在5G滤波器方面取代TC-SAW和BAW的更优的解决方案。
  • 拆解Fitbit Flex手环,窥见内部的隐秘角落 大家都在讨论最新最好的可穿戴设备有哪些,我觉得从历史发展的角度来回顾一下产品的起源也很有意思。本文介绍的是Fitbit公司于2013年推出的其首款腕带式跟踪器Fitbit Flex,我要拆解的则是2018年从eBay上买的一只黑色Fitbit Flex,售价14美元多一点。
  • 将低于1GHz连接用于电网资产监控、保护和控制的优势 电网的发展需要在现有的有线连接基础上增加无线连接,以进行资产监控和控制。
  •  电感零件常见失效模式及分析手法简介 对于硬件工程师来说电子元器件失效是非常麻烦的事情,比如某个半导体器件外表完好但实际上已经半失效或者完全失效会在硬件电路调试上面花费大把的时间,有时甚至炸机。所以掌握各类电子元器件的实效机理与特性是硬件工程师必不可少的知识。
  • 如何为温度传感器选择正确的热敏电阻? 当面对数以千计的热敏电阻类型时,选型可能会造成相当大的困难。在这篇技术文章中,我将为您介绍选择热敏电阻时需牢记的一些重要参数,尤其是当要在两种常用的用于温度传感的热敏电阻类型(负温度系数NTC热敏电阻或硅基线性热敏电阻)之间做出决定时。
  • GaN IC:推动分立式晶体管走向尽头 采用分立式氮化镓器件或分立式MOSFET器件的设计工程师,现在可以改用GaN集成电路以节省时间、占板面积及提升他们的系统性能,从而实现具备更高的功率密度、更高的效率及更具成本效益的先进设计。当氮化镓集成电路开始集成多个驱动器、保护电路、控制电路及功率晶体管于单个芯片上时,设计师会逐渐减少分立式晶体管的使用。这是分立式晶体管走向尽头的开始。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了