随着大模型的发展,对算力的需求急剧增加。人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。

回顾人工智能(AI)的发展历程,从2012年开始总共经历了三个主要阶段。最初只是关注于一个具体、受限人工智能任务的小模型,比如图像识别、语音识别,泛化能力较差;到2016年至2020年间的过渡期,这个时间段里模型不断向上发展,规模不断增加,但还没有达到今天的程度;再到2019年之后基于Transformer架构的大模型的快速发展,人工智能模型的规模和复杂性不断增加,能够支持多任务学习,有更好的性能和泛化能力,走向通用的模型能够支持多种人工智能的任务,如对话、问答、创作,也包括图像检索、分类,多种形态的任务可以在同一个模型上实现。 

2024年9月26日,2024中国集成电路设计创新大会暨第四届IC应用展(ICDIA 2024)在无锡举行。在大会的高峰论坛上,清华大学集成电路学院副院长尹首一教授发表了题为《晶圆级计算:进展与挑战》的主题演讲。尹教授深入剖析了当前人工智能大模型对算力的巨大需求,以及晶圆级计算作为解决这一问题的新方向的潜力和挑战。

清华大学集成电路学院副院长尹首一教授

算力需求和芯片工艺均面临挑战

随着大模型的发展,对算力的需求急剧增加。尹教授指出,人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。具体来说,算力中心的算力需求需要从芯片算力和系统算力两个方面考虑。系统算力可以分为三个参数层级:芯片算力密度、芯片面积和系统集群的Scaling-out。

  • 芯片算力密度:依赖于制造能力,单位面积内的晶体管数量决定了算力密度。
  • 芯片面积:受制于制造过程中的光刻技术,当前芯片面积的工业极限是光刻机曝光区域的最大858平方毫米。
  • 系统集群的Scaling-out:当前万卡集群已经不够用,OpenAI正在探讨1000万卡集群的构建。

尹教授指出,当前面临的最大挑战是制造工艺进入后摩尔时代,器件的Scaling-down面临瓶颈。传统的制造工艺提升单芯片算力的路径变得难以持续。

此外,系统层面也面临“规模墙”的挑战,主要体现在以下几个方面:

1、互联能力限制:单芯片算力很高,但芯片间的高带宽互联范围有限,以英伟达NVLink通信距离为例,高带宽互联域半径仅为50米。在这之外,互联带宽急剧下降,限制了整个系统的规模持续提升。

2、系统功耗:算力中心是电老虎,OpenAI CEO奥特曼甚至投资了一家核聚变创业企业以解决能源问题。可想而知能源问题有多严峻,以至要在核聚变这样的技术突破还没有完全达成的路线上下注。

3、集成方式限制:传统智算中心的集成方式是芯片到板卡、板卡到整机、整机到机柜,机柜代把它互联起来。今天典型的算力中心,一个机柜里有27台服务器,9个是交换机,导致算力密度仅为67%,集群的算力密度仅为44%。

圆级计算的解决方案

从智算中心来看,算力集群面临Scaling-out“规模墙”的问题急需行业从系统架构角度突破,不仅在单芯片算力上能提升,在系统规模上也要能够提升,才能满足未来大模型再进一步发展对算力的迫切的需求。

“这个问题是今天从学术界到工业界普遍公认的难题,英伟达作为算力发展上的先行者,他们也面临同样的挑战。” 尹教授表示,2024年OFC光纤通信大会上,英伟达CEO黄仁勋讲曾说,未来的数据中心不再是今天理解的数据中心,而是一个基本计算单元,如果能够把所有计算中心里的组件都集成到一个GPU里,才能解决今天面临的问题。“这促使我们去思考,今天芯片发展遵循的是摩尔定律,不断地把芯片做小、密度做高,未来可能需要从计算系统角度考虑,也许会有一个系统集的摩尔定律帮助我们摆脱规模墙制约。”

面对这些挑战,尹教授提出了晶圆级计算作为新的解决方案。“可以把它看作是系统级摩尔定律的探索,这也是算力先行者提出的想法,把一个数据中心做成一颗芯片。”

晶圆级计算的目标是将一个数据中心集成到一个晶圆上,即“一颗晶圆一颗芯片”(One Wafer One Chip)。这需要在芯片面积和单芯片算力上达到极致,同时解决系统层面的互联问题。

目前业界有两个最出名的晶圆级计算项目,产品技术路线稍有不同,分别是:

  • 特斯拉的Dojo系统:发布于2021年,采用数据流计算架构和台积电的InFo-SoW基板集成技术,实现了高密度的计算芯粒互联。特斯拉设计了专门的TTPOEP通信协议,简化了传统TCP/IP协议,提高了芯粒间的通信效率。

  • Cerebras的WSE技术:发布于2019年,采用整晶圆光罩拼接技术,实现了一体成型。通过专门的容错架构设计,大幅降低了晶圆缺陷带来的损失,使得95%以上的晶圆面积可以用于有效计算。

通过对比特斯拉Dojo和传统英伟达集群的例子,可以看到晶圆级计算在算力密度上的数量级提升,以及在成本、功耗和训练时间上的显著优势。

以构建Z级算力中心数据作为目标基准,采用A100 GPU成本是800亿美元,而走晶圆集计算路线的特斯拉Dojo成本是14亿美元。从功耗角度来看,GPU路线是4000兆瓦,晶圆级路线约1100兆瓦。最后看使用效果,以训练一个GPT4尺度的模型为基准,传统GPU路线差不多17.8小时,晶圆级芯片路线是4.4小时。这些数据来自于特斯拉实际的Dojo系统测试和统计,从成本、占地、功耗、训练时间来看,这条技术路线有机会全面颠覆过去传统GPU的路线。

实际应用与前景

尹首一教授提到,晶圆级计算已经不再是概念,而是已经落地并构建了亿级算力中心的实践。目前,特斯拉和Cerebras的晶圆级计算系统已经在实际的智算中心中大规模应用。例如,Cerebras在阿联酋建设的Galaxy-3超算中心提供了8EFlops的算力,而特斯拉在纽约州建立的算力中心也达到了4Eflops的算力。

晶圆级系统可以分解成三部分,一是核心的计算芯粒,通过互联技术被基板承载;中间的互联基板可以是硅,也可以是玻璃等其它材质;下方是垂直供电,或IO、存储组合的系统级模组,上中下三层构成晶圆级计算系统结构。

但它们在设计和制造上都面临挑战。例如,晶圆级计算需要解决多芯片之间的互连问题,以及实现对高算力计算单元的供电和散热。为此,特斯拉等公司采用了先进的基板技术和高密度存储、供电合成模块,实现了对晶圆级计算系统的有效支撑。

尹教授总结道,晶圆级计算是解决当前算力需求的重要方向。从2019年Cerebras发布第一代产品到2024年台积电开放InFo-SoW工艺,这条技术路线已经得到了产业界的广泛认可。尽管面临诸多挑战,但晶圆级计算的前景仍然非常光明。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
目前AI芯片设计人员通常会在系统CPU旁边集成单独的IP模块,以满足AI日益增长的需求。这种方法导致了AI芯片的配置不够理想,因为通常需要依赖三家不同的IP供应商和三套工具链,这不仅使得功率、性能和面积(PPA)指标较差,也增加了适应新算法的难度。
SoC的创建者通常希望从他们的系统中榨取最大的性能。为了达到这一目的,使用高性能的IP内核,包括CPU内核,是一个常见的策略。但是,使用最新的高端CPU内核会带来较高的成本,这可能比中档内核高出5到10倍。
尽管在生态系统建设、软件支持和安全性问题等方面,RISC-V仍需不断努力和完善,但凭借简洁高效、灵活多样的特点,RISC-V目前已经在嵌入式系统、云计算与大数据、人工智能与机器学习、物联网与边缘计算等领域展现出了强大的生命力和广阔的发展前景。
作为安谋科技自研异构计算矩阵中的一员,尽管围绕“玲珑”系列构建的多媒体生态系统日趋完善,但面对不同行业客户复杂多变的需求,持续推动产品技术的演进迭代,不断优化产品间的高效协同,并与本土芯片设计企业深化合作,已经成为当务之急。为此,安谋科技于日前最新推出了旗下首款本土自研的图像显示处理器——“玲珑”D8/D6/D2 DPU,以及新一代高效视频处理器——“玲珑”V510/V710 VPU。
半导体行业似乎还在复苏的路上,但EDA企业这两年似乎都挺赚钱的。来听听Mike Ellow是怎么解释EDA企业眼中的市场逻辑的...
RISC-V开放和自由的特性使其对从嵌入式系统到高性能计算的各种应用都具有吸引力。其生态系统正在迅速扩大,众多公司、研究机构和开源社区都在为其发展做出贡献。
所有智能出行系统产品都需要新的计算、通信和连接芯片的支撑,但是随之而来的是这些芯片的系统级故障或意外行为可能引起的危险。
受全球经济衰退影响,高端显示面板需求下滑,导致大尺寸OLED出货量在2023年同比下降了 25.7%。唯一的例外是OLED显示器……
香港应用科技研究院(应科院)将于10月13至16日参与由香港贸易发展局(香港贸发局)主办的「香港秋季电子产品展」,向全球数以万计的专业买家和业界代表,展示一系列崭新智能出行科技。
启发式排程、模拟排程和优化排程都可以帮助您改善工厂 KPI,每种方法都有其优点和缺点。您应该充分了解这些排程方法的适用性和能力,以确保在您的工厂成功实施。
  在静电纺丝时,需要使用交流电源与直流单元结合辅助,采用高电压波形直接写入来实现高分辨率蛇形图案。外加电压是一个重要的参数,只有当电压超过临界值时,液滴才能被拉伸成为纤维。当电压
功能安全瑞萨在工业自动化功能安全领域的经验瑞萨功能安全解决方案的历史始于2000年初的汽车行业,拥有近20年的经验。自2012年以来,瑞萨一直在开发针对IEC61508的通用MCU工业应用的解决方案。
ADI面向开发者打造全新套件,整合跨设备、跨市场的硬件、软件和服务,CodeFusion Studio™和ADI新推出的开发者门户是该套件中首批亮相的方案。此外还包括ADI Assure™可信边缘安全
  功率放大器是电子设备中常见的重要部件,用于放大电信号的幅度,以便驱动负载如电机或其他设备。然而,在实际使用中,功率放大器常受到各种外部和内部因素的影响,例如过载、过热、短路等问
会议名称:半导体芯片与无线通信测试技术研讨会会议时间:10月15日 9:00~15:15会议地点:合肥乐富强柏悦酒店 5楼8号会议室(安徽省合肥市创新大道 229 号)立即注册,参加会议前50名注册听
汽车芯片设计资料包近日,一起涉及二手汽车交易的纠纷引起了广泛关注。据小莉帮忙报道,河南郑州弓先生在9月7日通过网络平台得知有人出售二手小米SU7,随即决定前往河北石家庄进行购买,并支付了205000元
来源:猛兽财经   作者:猛兽财经 猛兽财经核心观点: (1)小米集团的股价已经上涨到了2022年以来的最高点。 (
 智能汽车网络与数据安全新媒体 (谈思汽车讯)据汽车制造AP 10月7日消息,德国百年家族企业,汽车座椅、车门和小型电机制造商博泽集团首席执行官Philipp Schramm已于10月2日辞去相关职务
一前言随着汽车行业朝着电动趋势发展,摄像头、雷达、传感器等设备的设备使用场景越发广泛,对高速数据传输的需求也愈发依赖。而车载以太网具有低延迟、高带宽的特性,可以满足高速、大容量数据传输,进一步支持高级
▼关注微信公众号:硬件那点事儿▼Part 01前言前两篇文章我们讲述了运算放大器输入偏置电流,输入失调电流,输入失调电压作为运放输入特性参数中比较重要的特性参数之一,当然也是需要重点关注的,我们今天会