广告

光学计算有望彻底改变AI性能的游戏规则

时间:2020-10-16 作者:Sally Ward-Foxton 阅读:
初创公司Lightmatter专注于开发针对AI加速的光学计算处理器,在第32届Hot Chips大会上展示了一款测试芯片。该处理器利用硅光子学和MEMS技术,通过毫瓦级激光光源供电,可以光速(在硅片中)执行矩阵矢量乘法。基于此次测试芯片的首个商用产品将于2021年秋季推出, 它是一款带光学计算芯片的PCIe卡,专为数据中心AI推理工作负载而设计。
广告
ASPENCORE

从麻省理工学院(MIT)分离出来的初创公司Lightmatter专注于开发针对AI加速的光学计算处理器,在第32届Hot Chips大会上展示了一款测试芯片。该处理器利用硅光子学和MEMS技术,通过毫瓦级激光光源供电,可以光速(在硅片中)执行矩阵矢量乘法。其计算速度比现今晶体管结构的芯片(包括最新的GPU)要快几个数量级,而且功耗极低。iOyEETC-电子工程专辑

Lightmatter意欲通过展示该测试芯片来证明其处理器设计方法是可靠的。该公司是最早推出专门用于AI推理的光学计算(硅光子学)芯片的公司之一。iOyEETC-电子工程专辑

Lightmatter将于2021年秋季推出其首个商用产品,它是基于此次测试芯片的后继产品,是一款带光学计算芯片的PCIe卡,专为数据中心AI推理工作负载而设计。iOyEETC-电子工程专辑

Lightmatter PCIe卡上的硅光子芯片,光源通过光纤进入(图片来源:Lightmatter)iOyEETC-电子工程专辑

硅光子技术的进步(通过硅芯片传播光)使复杂的片上结构成为可能,而这种结构可以被控制,以一种与传统晶体管电子结构完全不同的方式来执行MAC操作。由于晶体管结构的芯片已到达Dennard缩放定律的极限,其单位面积内的功耗不断增加,而冷却技术的发展却无法满足更大芯片的需求。因此,具有节能优势的其它技术还有很大的发展空间。iOyEETC-电子工程专辑

Lightmatter 的首席执行官 Nick Harris在Hot Chips大会前接受EE Times采访时表示:“iOyEETC-电子工程专辑

“我们通过一种完全不同的物理方法回避了整个能量缩放问题 – 使用光。这意味着我们可以利用一套不同的规则进行扩展,因此光学计算可以更快,而且能耗更低。”iOyEETC-电子工程专辑

那么,光学计算究竟有多快,能耗有多低?iOyEETC-电子工程专辑

Harris说:“我们可以将现有AI数据中心的能耗减少20倍,占板面积减少5倍。而这只是我们正在开发的第一代产品,接下来还有很长的规划路线图。”iOyEETC-电子工程专辑

Harris强调说,这次的测试芯片只是用于演示这项技术,它在基准测试中表现还不算好。不过他坚信,在实际应用中,Lightmatter的量产芯片将击败AI加速器市场领导者Nvidia的Ampere A100。Harris说,在BERT和Resnet-50推理等工作负载上,Lightmatter的芯片能效是A100的20倍,吞吐量至少是其5倍。iOyEETC-电子工程专辑

芯片设计

实际上,Lightmatter的芯片包含两个垂直堆叠的裸片。上面是一个12nm ASIC,用于存储并协调对位于下方的90nm光学计算机芯片的控制。这两颗裸片均由GlobalFoundries采用标准CMOS工艺制造。iOyEETC-电子工程专辑

这种光子处理器具有一个64 x 64光子矩阵矢量乘积计算器;数据可以在不到200皮秒的时间内在整个芯片内传输,比耗费多个时钟周期的晶体管计算要快几个数量级。其计算引擎由50 mW激光器驱动。iOyEETC-电子工程专辑

根据Harris提供的信息,这种低功耗光学计算芯片的优点之一是可以与控制/存储ASIC进行3D堆叠。晶体管结构的计算芯片会散发很多热量。Harris指出,堆叠的芯片缩短了ASIC上操作数存储器与光子芯片上计算元件之间的迹线长度(从数据转换器到光学计算引擎的总路由距离不到1毫米),延迟和功耗也因此得到改善。iOyEETC-电子工程专辑

Harris说:“它具有良好的正反馈环路,低功耗使堆叠成为可能,而堆叠又更加省电。”iOyEETC-电子工程专辑

Lightmatter的“芯片”实际上是两个以3D封装堆叠的裸片。上面是具有存储功能和控制功能的12nm ASIC,下面是充当计算引擎的90nm硅光子器件(图片来源:Lightmatter)iOyEETC-电子工程专辑

DAC接收数字输入信号,将其转换为模拟电压,并采用该电压来驱动激光器(该技术已在光纤发送器中广泛使用)。来自该激光器的光进入计算阵列,其计算单元为马赫曾德尔干涉仪(MZI)。进入MZI的相干光被分为两部分,每部分的相位调整幅度不同。将具有不同相位的信号组合会导致相长或相消干涉,从而有效调制通过MZI的光亮度(该调制可被视为乘法运算)。在波导(承载光的“缆线”)相遇的地方,信号被有效叠加。这就是光学MAC的基本原理。从计算阵列输出的光到达光电二极管,其信号再通过ADC馈送,以便与其余数字电路接口。iOyEETC-电子工程专辑

Lightmatter的光学计算阵列由DAC和ADC模块组成,再与其余数字电路对接(图片来源:Lightmatter)iOyEETC-电子工程专辑

MZI中的关键操作是通过机械方式实现光相位的改变。Lightmatter副总工程师Carl Ramey在Hot Chips演讲中解释到,光子芯片采用了纳米光学机电系统(NOEMS)。与微机电系统(MEMS)器件类似,其波导结构通过下方蚀刻悬挂,然后通过向其上方和下方的电容器板添加电荷来偏转,从而成功地按照所需数量改变光相位。iOyEETC-电子工程专辑

 “NOEMS器件具有一些惊人的特性,”Ramey说。“它们损耗极低,静态功耗几乎为零。简单地加载一些电子在小型电容器上,几乎不会有任何泄漏。因为电容足够小,致动所需的动态功率也非常小。这种结构也可以相对较高的速度驱动,最高可达数百兆赫。”iOyEETC-电子工程专辑

节能

Ramey说,Lightmatter的演示版芯片具有64 x 64个计算单元,而且很容易扩展。iOyEETC-电子工程专辑

他说:“类似于晶体管收缩阵列,计算量随面积线性增长,延迟也随阵列尺寸而变化。在典型的流水线晶体管设计中,从左到右共需要64个时钟周期来执行操作。我们的延迟也会随阵列尺寸而定,但速度要快三个数量级。因此,即使是一千乘一千的阵列,其延迟也远低于1纳秒。”iOyEETC-电子工程专辑

有趣的是,光学计算阵列消耗的功率与面积的平方根成比例。这是因为功耗主要归因于数据转换。iOyEETC-电子工程专辑

 “每添加一个新单元到阵列中,只需付出正常功率的平方根代价,就能获得更高性能。”Ramey说。“因此,我们的芯片越大,实际上效率就会越高。这与电子系统完全不同:遵循线性缩放规律的电子系统性能越高,功耗越大。”iOyEETC-电子工程专辑

除了与计算相关的能量外,还有与在芯片周围移动数据相关的能量(当今大型的晶体管AI芯片在传输数据时可能会消耗50W至100W的功耗)。通过光学计算,以光学方式移动数据意味着不再需要电源,这是巨大的节能。iOyEETC-电子工程专辑

其结果是,计算设备工作功率低于3W,这只是其他计算方法每次推理操作所消耗能量的一小部分。iOyEETC-电子工程专辑

多路复用

光学计算的另一个有趣之处是其多路复用能力。与光通信中使用的技术类似,光学计算可以将多个独立的数据流编码到不同波长的光路上,并同时输入到计算引擎中。这意味着光学计算芯片可以同时执行多个AI推理。iOyEETC-电子工程专辑

 “这是光学计算一个非常独特的特性,”Lightmatter CEO Nick Harris说。“这意味着,只需一个物理资源,即一个处理器,其功效却如同一组处理器。”iOyEETC-电子工程专辑

Harris表示,尽管指定光谱(1310至1600nm)理论上可以支持至少一千个通道,但激光技术的不成熟限制了其目前只能支持8个通道。iOyEETC-电子工程专辑

展示光学计算的可行性

Lightmatter当前的目标客户是数据中心,包括高性能计算等大规模扩展系统,但将来还会扩展到企业领域。自动驾驶也是其远期目标,但Harris承认,进入这一领域所需的可靠性工程将是“一项艰巨的任务”。iOyEETC-电子工程专辑

Lightmatter有一套完整的软件栈,可以与TensorFlow或Pytorch集成。Harris说,他们的目标是在两种机器学习框架中实现即插即用。iOyEETC-电子工程专辑

Lightmatter成立于2017年,目前在马萨诸塞州波士顿市有46位员工,并拥有30项专利。该公司已经从Google Ventures等风投机构筹集了3300万美元的资金。iOyEETC-电子工程专辑

对于这个初创企业而言,首要的挑战可能是让那些持怀疑态度的客户接受光学计算的概念。Harris计划如何做到这一点呢?iOyEETC-电子工程专辑

他说:“这是一项艰巨的挑战。自上世纪60年代以来,计算历史上从没有一种技术取代过电子晶体管,从来没有过。人们做过尝试,但没成功。我想,这将是人们第一次看到它的实现,而我们的推销方式就是展示它能够正常运行。”iOyEETC-电子工程专辑

(参考原文:Optical Compute Promises Game-Changing AI Performance)iOyEETC-电子工程专辑

责编:Amy GuaniOyEETC-电子工程专辑

本文为《电子工程专辑》2020年10月 刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅  iOyEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
  • 安谋中国“周易”Z2 AIPU正式发布,性能翻倍、效率翻番 10月13日,安谋科技(中国)有限公司(“安谋中国”)正式发布“周易”Z2 AIPU(AI Processing Unit),单核算力最高可达4TOPS,较“周易”Z1 AIPU的单核算力提高一倍,同时支持多达32核的可扩展配置,从而能够在单个SoC中实现128TOPS的强大算力。
  • 自连科技的物联网技术如何赋能医疗和工业应用? 正如自连科技的愿景——“自动连接一切”所表达的那样,自连科技致力于为一切物、人、位置、时间等提供自动连接在一起的能力。比如,一张纸、一杯水和一双筷子都可以联网。而在这“一切”连接的数据采集与连接环节,自连的三大产品线——无线网桥、智能数据网关及嵌入式模块可以满足不同状态和规格的设备或连接物之间、局域无线连接协议和广域无线通信的需求。
  • 布局AIoT,芯片/AI/通信技术有标准吗? 2018 年中国物联网连接量约 30 亿,2019 年约 45.7 亿,年复合增长率高达 67%。到2025 年这一数字将达 199 亿,未来数百亿的设备并发联网产生的交互需求、数据分析需求将促使 IoT 与 AI 的更深融合。物联网芯片发展最大的痛点是什么?2G/3G 退网后,哪种物联网连接技术将迎来大规模发展空间?如何在保证安全的前提下,让边缘和终端设备实现分布式计算?
  • AI芯片市场迎接爆炸性成长 MarketsandMarkets预测,全球AI芯片市场规模到2026年将达到578亿美元,随着越来越多机器至少成为半自动化,工业与汽车计算机视觉应用可望取得最高的年成长率。
  • IPU处理器究竟对哪些领域有用?在中国如何发展? 近期Graphcore联合创始人兼首席执行官Nigel Toon,以及Graphcore高级副总裁兼中国区总经理卢涛在中关村论坛上,就IPU产品的市场规划做了进一步的解读,尤其是在中国市场的发展和布局方面。我们期望通过这篇文章,来谈谈IPU的落地——这也是过去我们比较少提到的部分。
  • 百度AI芯片昆仑1已量产,昆仑2采用7nm性能提升3倍 据透露,百度昆仑1已量产,采用三星14nm工艺,已在百度搜索引擎及云计算用户部署2万片,相比T4 GPU 性能在不同模型下提升1.5-3倍。在本次会议上,同时预发布了采用7nm 先进工艺的百度昆仑2……
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了