AI技术越来越成熟,应用越来越广泛。但是训练AI模型需要大量的算力,这对芯片提出了不少的挑战,而在芯片内部,不仅仅存在着性能提升的瓶颈,同时还存在内存访问的大瓶颈,这方面,国际国内各大公司在多年的技术研发过程中不断的进行着探索与研发。发现3D Stacked DRAM存算芯片或许是目前最高效的技术。

AI技术越来越成熟,应用越来越广泛。但是训练AI模型需要大量的算力,这对芯片提出了不少的挑战,而在芯片内部,不仅仅存在着性能提升的瓶颈,同时还存在内存访问的大瓶颈,这方面,国际国内各大公司在多年的技术研发过程中不断的进行着探索与研发。发现3D Stacked DRAM存算芯片或许是目前最高效的技术。

在2023中国IC领袖峰会上,视海芯图创始人许达文博士以“DRAM存算芯片,引领AI大模型算力革命”介绍了存算芯片的技术演变和产品研发等情况。

许达文博士,毕业于中国科学院计算技术研究所,期间赴加州大学圣芭芭拉分校(UCSB)博士联合培养。归国之后,分别在AMD中国研究院工作和高校任教,曾主持和负责国家自然科学基金项目,在Transaction on Computers, TCAD, TVLSI、ICCD、ICCAD等顶级期刊和会议发表多篇论文,具备多次AI流片经验与创业经验,曾从事指纹芯片工作,次年销售额即达到两千万元,获昆山市创业领军人才,19年退出后指纹芯片公司,之后创办视海芯图。

许达文博士分三个部分介绍了存算芯片方面的市场和技术:大模型对现有芯片的挑战、DRAM PIM和PNM历史以及GPT芯片设计和应用。

大模型对现有芯片的挑战

从AI发展与受限制的硬件趋势看到,AI模型每2-3年规模增长1个数量级以上,芯片峰值算力平均每两年提升3倍,落后于AI模型的发展,然而,内存性能方面落后更多,平均每两年内存容量增长80%,在带宽方面提升40%,在延迟方面几乎不变。

从另一个角度看,单位算力所匹配的内存容量以及带宽和延迟是什么样的情况呢?

我们可以看到下降越来越严重,换句话说,存储管墙的问题也越来越严重。

目前火爆的GPT4的模型,(OPENAI)号称,其能力在很多方面已经超过90%人类,而且还在不断迭代增强,它也是目前最受欢迎的AI程序,用户数量飞速增长。同样值得注意的是,GPT计算需要消耗的资源非常庞大。

单个模型需要2600多个服务器,换算成经费大概是3.4亿美金,耗电量是每天大概41万度,OpenAI预计随着模型迭代,计算资源每三四个月要翻倍,也就是到2026年服务器费用每年需要1700亿美金,耗电量需要750亿度,这个消耗量是巨大的,特别是随着通用AI的普及,我们需要特别低的边际成本,越是基础模型,越是得有接近于0的边际成本,这样才能保证通用AI的大规模应用,这就要求硬件在保持高算力的同时,还要实现高能效和低成本。

当前,芯片进入后摩尔时代,在水平方向上的集成密度发展已经放缓了,3D集成提升垂直方向上集成密度,目前AMD、GraphCore发展起来。

进入后摩尔时代,芯片水平方向晶体管scaling放缓,不过,3D集成工艺可以在垂直维度提升芯片密度,被AMD、GraphCore等纷纷采用。架构方面,分析算法和数据的特点,结合工艺,来设计芯片的计算、存储和互联,从算法、工艺和架构上进行跨层次协同优化,也成为了提升性能和能效比的重要方式。

与以CNN为主框架的模型不同,GPT的特点是:访存密集和数据搬运不规则的,数据复用不足,因此,GPT对硬件的内存带宽、片内存储容量,低延迟和运算并行性都有很高要求,DRAM存算的技术把DRAM与逻辑进行3D集成,可以为计算单元与存储提供超大带宽和大容量,还可以降低数据搬运,降低功耗,是加速GPT的不错选择。

DRAM PIMPNM历史

接下来我们介绍一下DRAM 存算(存内计算和近存计算)的过往,相关技术包括几种,Processing-In-Memory存内计算,智能DIMM,HMC、HBM、3D-Stacked DRAM与逻辑。

Processing-In-Memory存内计算有两种方式,一种是存储颗粒里面,采用DRAM器件在存储阵列旁边构建一个逻辑电路,早在1992年多伦多大学就提出了Computational RAM,加速了卷积和Data Mining等程序,后来一个典型工作DIVA,它更进一步,把PIM芯片串联在一起并行工作。另一种同样是在DRAM颗粒内部,但是它是修改存储阵列Ambit & Compute DRAM是这方面工作代表,他们让每个bit存储单元具备存储和计算的功能,提高了硬件并行性,减低了数据搬运。但是,这两种方式都会存在一个问题,采用DRAM来构建逻辑运算,成本比较高,商业化目前来说不太成功。

第二种是智能DIMM,在内存条上面放置一个运算电路,三星提出了AxDIMM,采用fpga来加速推荐系统的应用,facebook也有类似的工作RecNMP加速图神经网络。

但是,这种方式存储的颗粒以及计算芯片是两个不同的芯片,他们被集成在一块PCB板上,通信之间的带宽还不够大,而且成本多增加了一个计算芯片,目前来说这也不是特别广泛。

2011年镁光提出了HMC技术。

它把多个DRAM堆叠在一个逻辑芯片上面,构建HMC芯片,HMC芯片与处理器以serdes互连,HMC可以把内存容量和带宽做的比较大。HMC中逻辑芯片也可以完成一定的运算,曾有人用它完成了数据库的应用。问题是HMC颗粒与处理器是通过PCB板做互连,其实延迟还是比较高的,HMC能完成逻辑功能比较简单,不能很强大,还是会增加一些成本,最后镁光放弃了HMC技术。

HMC之后,三星推出HBM。

类似于HMC,HBM也把DRAM堆叠在逻辑芯片上面,不过,HBM存储颗粒与处理器更进一步做成2.5D集成,这种方式极大的缩短了存储颗粒与处理器之间的距离。它的好处是容量比较大,带宽也会比较高,功耗比HMC好很多,缺点是成本比较高,互连有一些限制,通常来说,一个处理器只能连4个HBM颗粒。

2022年,达摩院与紫光把25纳米DRAM堆叠在55纳米逻辑芯片上,构建了神经网络计算以及推荐系统里的匹配加速等。系统带宽达到1.38TBps,性能上,相比CPU版本,速度提升9倍,能效比超300倍。

对比美中方式的特色和优缺点,可以认为3D堆叠技术已经成熟,国内企业已经具备成熟的实现方案。最近的杀手级应用,譬如Transformer,图计算,图数据库兴起对带宽延迟的刚性需求在兴起,或许预示着3D Stacked DRAM与逻辑的商业化时机已经到来。

GPT芯片设计和应用

由于3D DRAM延迟和带宽逼近于末级缓存,我们的策略是移除面积占比较大的末级缓存,让3D Stacked DRAM保证高带宽和低延迟,芯片会有更多晶体管来构建更多算力。

我们通过3D堆叠技术可以把处理器与DRAM之间的距离做到微米级甚至亚微米级,这种情况下的走线非常短,延迟比较小。通过这种技术,单位平方毫米可以完成数千甚至几十万的互联联线,实现的带宽更高。省去PHY,更短的走线,将带来更低的功耗,更好的性价比。整个芯片是由多个Tile构成的,每个Tile由DRAM和逻辑堆叠而成.DRAM部分主要是提供高存储容量高传输带宽,逻辑部分主要是做高算力和高效互联。Tile之间由NoC来通信,这个NoC是一个in/through NoC的设计,同一平面上与邻近Tile互联,垂直方向与内存通信,内存带宽和容量的可扩展性也可以得到很好的保证。

在去除末级缓存之后,如何保证性能不受影响?

首先在算法上面做模型量化,模型剪枝,模型压缩,同时硬件上会有在线剪枝电路、混合精度的设计,再配上压缩感知DMA,在数据流方面有数据并行,Tensor并行等等。

压缩词元的注意力机制对模型进行压缩,高效地去除了词元序列中的语义特征重复,可以显著地减小模型的计算量。

数据布局方面,DRAM有特别的读写机制,按照数据计算方式,设计数据布局,来尽量避免row conflict之类的问题。结合算法特性,采用数据并行,模型并行以及流水并行,减少核间的数据交互。

容错策略方面,因为是多颗晶圆堆叠,3颗堆叠在一起芯片良率就变成0.9×0.9×0.9,降低到70%左右,这样将很难实现大规模应用。

这时,需要在芯片上和DRAM上堆叠冗余的逻辑,保证错误逻辑之后还可以通过容错手段让芯片正常工作。

视海芯图芯片和应用案例

上图是视海芯图研发的SH9000 GPT算力芯片,是根据客户算法,围绕架构层,电路层,晶体管层,跨层次融合,这套技术在矿机上成功的做到了优秀的成本和能效比。

SH9000芯片设计理论峰值功耗可能略低于A100,实际RTOPS预计达到对手的2倍,这样可以达到更好的能效比。是针对算法优化,所以在跑GPT模型的时候,可以达到更好的性能。实际展现出的性能,在功耗方面可以减少一半。

在游戏领域,GPT算力可以很好的帮助游戏里面的用户生成千人千面NPC的角色,包括刀具等等。同时,根据用户行为随机生成场景的调整,为用户做成开放世界。此外,可以根据提供的场景自动生成图片,节约游戏开发成本。

在智慧教育方面的应用,GPT同样可以带来巨大的帮助,包括人性化助教。系统可以根据小朋友实际情况来做业务解答,也可以实时生成训练题。此外,在作文辅导和编程辅助方面也可以实现比较好的实时性交互。

在虚拟人、主播,GPT算力也可以发挥很好的作用。通过硬件加速的支持,可以让虚拟人的主播可更加人性化,,增强用户的参与感和互动体验,模拟真实情景。

在老年人服务机器人方面,GPT也能发挥很大的作用。GPT一方面作为知识学习系统,帮助老年人存储日常接触当中的记忆片断,还可以给老年人做情感分析,自动与老年人做交流,提升老年人生活品质。

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
在最近举行的中国闪存市场峰会(CFMS 2023)上,江波龙董事长、总经理蔡华波在峰会上发表了题为“构建存储新维度”的演讲,他大致回顾了江波龙如何从存储贸易商发展为存储模组厂商,如何从技术型产品企业往技术型品牌企业转型,并展望了未来10年江波龙往存储综合服务商发展的前景。
NOR闪存已达到了极限,因为它无法兼容在28nm以下的工艺技术,这让用新兴的内存作替代成为为低风险的方式,低功耗应用也很适用于新世代内存。
三星减产也是其同业竞争对手所希望看到的结果。美光科技、海力士这两家三星的竞争对手就强调,复苏的速度将取决于同行削减供应的努力。这明显就是指三星电子,毕竟作为全球最大的存储芯片厂商,以及全球重要的智能手机、电视生产制造商,其一举一动必然会影响到芯片的定价和利润,甚至波及消费电子产业链。
存储器技术和产品是电子系统及应用的重要支撑之一。特别是代码型闪存在二十一世纪的几次电子化浪潮中呈现出与其他电子技术不同的V型发展路径,展现出了旺盛的生命力。当前,5G、AIoT、新能源电动汽车等蓬勃发展,代码型闪存的技术和应用再次迎来了巨大的发展机遇。在2023中国IC领袖峰会上,芯天下副总经理兼首席技术官苏志强先生以“代码型闪存技术和应用创新”为主题,从代码型闪存的定义和分类开始,介绍了它在万物互联时代的机遇,分析了5G+AIoT以及新能源汽车对代码型闪存的需求趋势,并介绍了芯天下代码型闪存产品的五大主要产品系列及产品路线等内容。
现在的半导体存储已经形成标准化,如果要跳出标准化,半导体存储是否会基于此前PC/手机市场的标准进一步催生在智能化新能源汽车市场需求?目前我们在市场上看到存储出货量最大的还是PC、手机和服务器市场,但可预见的下一个主力,会是以大容量存储为主的汽车市场。
从全球厂商排名上看,三星、英特尔、高通、SK海力士(SK Hynix)和美光(Micron)占据了前五的位置。TOP25里面,美国上榜的公司最多,有14家,中国台湾上榜3家公司,无中国大陆厂商上榜。
目前,许多物联网终端制造商已经计划更新现有网关产品来达成 Matter 桥接需求,并将推出可同时支持已部署的 Zigbee、Thread 设备以及更新的 Matter 产品。一些非 Matter 设备也可以通过 OTA 升级以支持 Matter,其余的智能家居产品则可能被排除在 Matter 阵营之外。
ATE(Automatic Test Equipment)主要是用于自动化和简化验证被测物(DUT)的功能和参数性能。ATE设备大量应用于晶圆生产和封装的过程中,比如通过对晶圆上的所有单独集成电路应用特殊测试模式来测试它们是否存在功能缺陷(Probe Test)。
全球领先的边缘AI运算方案厂商耐能今日宣布,近日完成收购台达集团VIVOTEK(晶睿通讯)旗下子公司OTUS(欧特斯股份有限公司)。 OTUS作为一家摄影机及影像解决方案提供商,多年深耕于汽车、虚拟现实以及其他全景场景应用。近两年来,OTUS与耐能紧密合作,共同将诸多汽车应用完成商业化落地。 作为一家汽车解决方案提供商,OTUS在过去几年中经历了大幅的业务增长,由于汽车市场高速增长,客户对其的信任度也很高。OTUS公司为车载市场提供道路物体检测和驾驶员行为监控等ADAS和DMS方案,并为全球客户提供服务,其中大部分来自美国和日本市场。 随着汽车客户对摄像头集成AI功能的要求越来越高,目前OTUS提供的方案已成为多家日本知名汽车制造商的首要选择,并与多家公司建立长期合作伙伴关系。 据OTUS的 CEO邱立诚介绍,“在过去的几年中,OTUS创建了多个具有卓越影像功能的SoC解决方案,以满足我们汽车客户的需求。然而,这些解决方案并未包含AI功能。通过将耐能的边缘AI能力与OTUS的高级影像解决方案集成,我们能够搭建更完整的产品线,从而更好地为我们的汽车客户提供服务。” 在进行收购之前,耐能和OTUS在集成硬件和软件的一栈式解决方案方面进行了密切合作。这些解决方案服务于面向汽车客户的ADAS和DMS功能。 耐能创始人兼CEO刘峻诚表示:“在双方之前的紧密合作中,OTUS向来是耐能宝贵的合作伙伴,并让耐能成功进军日本头部的汽车客户。通过OTUS强大的影像技术和行业渠道,我们将继续深化合作,加速AI应用扩展到更大的全球市场。”
QDPAK和DDPAK表面贴装(SMD)TSC封装设计的成功注册,标志着封装外形将迎来崭新纪元,将推动市场更广泛地采用 TSC 技术以取代 TO247 和 TO220。凭借这一技术优势以及根据MO-354 标准,此项新 JEDEC 注册封装系列将成为高压工业和汽车应用过渡至下一代平台中顶部冷却设计的重要推手。
来源:集微网,谢谢编辑:感知芯视界集微网消息,总部位于旧金山的激光雷达传感器供应商Ouster于当地时间周二在美国特拉华州联邦法院和美国国际贸易委员会起诉中国竞争对手禾赛科技侵犯专利。据路透社报道,O
Mini LED发展迅速,其作为背光技术,近年在电视与显示器市场的热度不断提升,终端龙头企业看好Mini LED的发展,正大力推进Mini LED背光技术不同的应用场景的渗透。目前,虽然Mini LE
4月12日,由香港贸发局主办的香港春季电子产品展(以下简称“香港电子展”)时隔三年在香港盛大开幕。珠海极海半导体有限公司(以下简称“极海”)携多款最新消费电子及工业控制领域的代表性应用方案及开发生态工
‍‍"image" data-miniprogram-servicetype="" _href="">                                               
全球知名半导体制造商ROHM(总部位于日本京都市)的SiC MOSFET和SiC肖特基势垒二极管(以下简称“SiC SBD”)已被成功应用于大功率模拟模块制造商Apex Microtechnology
待定编辑:感知芯视界半导体设备泛指用于生产各类半导体产品所需的生产设备,属于半导体行业产业链的支撑环节,在半导体产业链中的地位至关重要。半导体设备是半导体产业的技术先导者,芯片设计、晶圆制造和封装测试
2023年4月7日,由芯师爷主办的“2023工控MCU技术及应用创新论坛”在深圳福田会展中心如期举办。极海受邀出席参与主题演讲,同与会嘉宾共同探讨交流工业智造新时代下工控MCU的发展趋势。此次论坛以“
河北省唐山市曹妃甸化学工业园区与盈德气体签署了园区石化基地工业气体岛项目的合作框架协议,为双方深入合作,共同推动园区的石化产业发展提供了新的机遇。 据介绍,盈德气体依托其资源优势和技术支持
  实验名称:超声导波针对均匀腐蚀的无基准评定方法   研究方向:超声导波加速腐蚀   测试目的: &e
———— / END / ————● 【国内首款】Dioo车规级5.8GHz超高速模拟开关DIA3000● 为再见一面,他用AI“复活”了奶奶……却引起网友争议……●【航顺案例】HK32ASPIN02