向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

ReRAM技术将在边缘AI解决方案扮演要角

时间:2018-11-13 作者:Sylvain Dubois, EDN特约作者 阅读:
所有AI处理器都仰赖于数据集,也就是“学习过的“对象种类模型,用以执行识别功能;每个对象的识别和分类都需要多次存取内存,而当今工程师面临的最大挑战就是如何克服现有架构中的内存访问速度和功耗瓶颈…

机器学习有两个基本阶段:训练和推理。人工神经网络旨在模仿大脑的运作方式,首先要读取大量的已知数据——例如狗和猫的图片——这样才能学会识别每个物体的样子以及它们的不同之处;然后经过训练的神经网络或模型就可以开始工作,根据所学到的知识推断呈现在面前的新数据是什么事物,例如判别影像中的是狗还是猫。qjZEETC-电子工程专辑

目前大多数训练都是在数据中心进行的,但也有少数是在边缘端进行。像Google、Facebook、Amazon、Apple和Microsoft这样的大公司都拥有大量消费者资料,因此可以为他们的“服务器农场”提供足够多的数据进行工业规模的AI训练,以改善其算法。训练阶段需要速度非常高的处理器,例如绘图处理器(GPU)或Google开发的张量处理器(TPU)。qjZEETC-电子工程专辑

当边缘设备收集到数据——例如建筑物或人脸的照片——并传送到推理引擎进行分类时,推理就会发生。以云端为基础的AI因为固有的延迟缺点,对许多应用来说是不可接受的;例如自动驾驶车需要对看到的物体做出实时决策,这以云端AI架构就不可能实现。qjZEETC-电子工程专辑

随着AI功能逐渐向边缘端发展,它们将推动更多的AI应用,而且这些应用会越来越需要更强大的分析能力和智能,好让系统在本地即可做出运作决策,无论是部分还是完全自主的,就像自动驾驶车辆所配备的功能。qjZEETC-电子工程专辑

传统CPU不是很擅长这类任务,而高端GPU则是功耗大、价格昂贵;边缘端推理需要更便宜、功率更低的芯片,可快速透过神经网络识别一种动物、一张脸,锁定一个肿瘤,或将德语翻译成英语。如今有超过30家公司正在研发AI专用的硬件,以提高在智能手机、平板电脑和其他边缘设备中完成这类特殊运算任务的效率。qjZEETC-电子工程专辑

分析师们预测,从2017~2021年,全球AI芯片市场将取得高达54%的年复合成长率(CAGR),其关键成长动力在于能满足机器学习要求的强大硬件。qjZEETC-电子工程专辑

消除内存瓶颈

所有AI处理器都仰赖于数据集,也就是“学习过的”对象种类(如影像、声音等等)模型,用以执行识别功能;每个对象的识别和分类都需要多次存取内存,而当今工程师面临的最大挑战就是如何克服现有架构中的内存访问速度和功耗瓶颈,以实现更快的数据存取,同时降低数据存取消耗的能源成本。qjZEETC-电子工程专辑

透过在尽可能接近AI处理器核心的位置储存训练数据,可获得最快访问速度和最大能效;但是目前的设计所采用之储存架构,都是几年前还没有其他实用解决方案时打造的,仍然是速度快但小容量的嵌入式SRAM与大容量但速度较慢的外部DRAM之传统组合。当训练模型以这种方式储存,嵌入式SRAM、外部DRAM和神经网络之间频繁且大规模的数据交换会增加功耗及传输延迟;此外,SRAM和DRAM都是挥发性内存,限制了在待机状态的省电效果。qjZEETC-电子工程专辑

利用高密度、高速和低功耗的非挥发性内存将整个训练模型直接储存在AI处理器芯片上,就可以实现更高的能效和速度。透过实现以内存为中心的新架构(如图1),整个训练模型或知识库就可以放在芯片上,直接与神经网络链接,这样就有实现大规模节能与性能提升的潜力,并因此能大幅延长电池寿命并提供更好的用户体验。现在已经有几种新一代内存技术正竞相实现此一目标。qjZEETC-电子工程专辑

edgeReRAM2.jpgqjZEETC-电子工程专辑

图1 内存位于AI架构中心。qjZEETC-电子工程专辑

ReRAM的潜力

针对AI应用的理想非易失性嵌入式内存应该具备如下特点:容易制造、容易整合到成熟的CMOS后段工艺、容易微缩到先进工艺节点、可大量供应,并且能够满足各种应用对功耗和速度的要求。qjZEETC-电子工程专辑

在工艺微缩方面,电阻式内存(ReRAM)会比磁性内存(MRAM)或相变化内存(PCM)更具优势,这在考虑14纳米、12纳米甚至是7纳米晶圆工艺时是一个重要因素;其他内存技术都需要比ReRAM更复杂和昂贵的工艺,运作功耗也更高。qjZEETC-电子工程专辑

edgeReRAM1.jpgqjZEETC-电子工程专辑

图2 ReRAM可以填补内存技术的空白。qjZEETC-电子工程专辑

举例来说,美国业者Crossbar的ReRAM所采用之纳米丝(nanofilament)技术,可以在不影响性能的情况下微缩到10纳米以下。ReRAM以简单的组件结构为基础,采用适合CMOS工艺的材料和标准生产流程,可以在现有的CMOS晶圆厂生产;因为是一种低温、后段工艺整合的方案,可以在CMOS逻辑晶圆上整合多层ReRAM数组,以构建3D ReRAM储存架构。qjZEETC-电子工程专辑

AI需要最佳的每瓦性能,尤其对于小功率的边缘设备;ReRAM的能效可达到DRAM的五倍——达到每奈焦(nanojoule) 1,000位的读取—同时表现出比DRAM更好的整体读取性能,高达12.8GB/s,随机延迟小于20ns。qjZEETC-电子工程专辑

以内存为中心的架构

科学家们一直在探索各种新颖的大脑启发典范,试图透过模仿中枢神经系统的神经元和突触(synapses)之交互作用来实现更高的能效。以ReRAM技术为基础的人工神经突触是一种非常有前途的方法,可用于在神经形态结构中实现这些高密度且能终极微缩的突触数组。藉由在边缘端启动AI,ReRAM有可能在现有和全新的AI解决方案中扮演重要角色。qjZEETC-电子工程专辑

本文同步刊登于EDN电子技术设计2018年10月刊杂志 qjZEETC-电子工程专辑

qrcode_EETCwechat_120.jpgqjZEETC-电子工程专辑

关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”qjZEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣的文章
  • 边缘AI大战一触即发 一场边缘AI大战正悄悄展开...每一家处理器供货商都将机器学习视为“金鸡母”,积极地调整自家公司策略,竞相为这个具有最大商机的领域——边缘AI提供加速特定工作负载的解决方案...
  • 人工智能和万物互联将出现指数级的增长 2019 ASPENCORE第二届“全球CEO峰会”于深圳大中华喜来登酒店正式举行,(更多精彩演讲内容可观看现场直播),ASPENCORE VP&总经理David Chivers为我们拉开本次大会的序幕。
  • 你的AI芯片有自己的DNN吗? 为了让AI加速器在最短延迟内达到最佳精准性,特别是在自动驾驶汽车(AV)中,TFLOP(万亿次浮点运算)已经成为许多所谓大脑芯片的关键指标。然而,有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中,DeepScale的首席执行官Forrest Iandola给出了其不可持续的理由,是因为AI硬件设计师所持有的许多常见的假设已经过时。
  • 西门子与AI技术,为Mentor带来了什么? 在提到Mentor的时候,通常就不可避免地需要将其和Synopsys和Cadence这两个竞争对手放到一起,毕竟这三家公司是EDA市场的主要参与者。2016年Mentor开始并入西门子工业软件业务,虽然我们掌握的消息不多,但从Mentor近些年在Mentor Forum技术论坛上公开的一些数据和资料来看,Mentor在被西门子收购以后,其发展方向和业务路线都得到进一步扩展。
  • 理解了大脑的运作方式,AI才能实现真正的智能 现在的人工智能并不是真正的智能,因为它没有应对未知的能力。法国初创公司AnotherBrain首席执行官兼创始人Bruno Maisonnier在接受EE Times Europe采访时多次强调道,“真正的智能是一个能够实时分析和理解我们大脑运作方式的系统,它不需要大量的数据,它以一种非常节俭的方式运行”。
  • 机器也有偏见,AI算法仍须“留校察看” AI决策的公正与否,在很大程度上取决于人工智能训练算法所使用之测试数据集的准确性和完整性,而且取决于算法本身的准确性,以及如何做出“成功”的决定。训练算法的优化策略如果是为了实现整个群体的最大整体精度,实际上会放大偏见(bias)。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告