回顾人工智能(AI)的发展历程,从2012年开始总共经历了三个主要阶段。最初只是关注于一个具体、受限人工智能任务的小模型,比如图像识别、语音识别,泛化能力较差;到2016年至2020年间的过渡期,这个时间段里模型不断向上发展,规模不断增加,但还没有达到今天的程度;再到2019年之后基于Transformer架构的大模型的快速发展,人工智能模型的规模和复杂性不断增加,能够支持多任务学习,有更好的性能和泛化能力,走向通用的模型能够支持多种人工智能的任务,如对话、问答、创作,也包括图像检索、分类,多种形态的任务可以在同一个模型上实现。
2024年9月26日,2024中国集成电路设计创新大会暨第四届IC应用展(ICDIA 2024)在无锡举行。在大会的高峰论坛上,清华大学集成电路学院副院长尹首一教授发表了题为《晶圆级计算:进展与挑战》的主题演讲。尹教授深入剖析了当前人工智能大模型对算力的巨大需求,以及晶圆级计算作为解决这一问题的新方向的潜力和挑战。
清华大学集成电路学院副院长尹首一教授
算力需求和芯片工艺均面临挑战
随着大模型的发展,对算力的需求急剧增加。尹教授指出,人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。具体来说,算力中心的算力需求需要从芯片算力和系统算力两个方面考虑。系统算力可以分为三个参数层级:芯片算力密度、芯片面积和系统集群的Scaling-out。
- 芯片算力密度:依赖于制造能力,单位面积内的晶体管数量决定了算力密度。
- 芯片面积:受制于制造过程中的光刻技术,当前芯片面积的工业极限是光刻机曝光区域的最大858平方毫米。
- 系统集群的Scaling-out:当前万卡集群已经不够用,OpenAI正在探讨1000万卡集群的构建。
尹教授指出,当前面临的最大挑战是制造工艺进入后摩尔时代,器件的Scaling-down面临瓶颈。传统的制造工艺提升单芯片算力的路径变得难以持续。
此外,系统层面也面临“规模墙”的挑战,主要体现在以下几个方面:
1、互联能力限制:单芯片算力很高,但芯片间的高带宽互联范围有限,以英伟达NVLink通信距离为例,高带宽互联域半径仅为50米。在这之外,互联带宽急剧下降,限制了整个系统的规模持续提升。
2、系统功耗:算力中心是电老虎,OpenAI CEO奥特曼甚至投资了一家核聚变创业企业以解决能源问题。可想而知能源问题有多严峻,以至要在核聚变这样的技术突破还没有完全达成的路线上下注。
3、集成方式限制:传统智算中心的集成方式是芯片到板卡、板卡到整机、整机到机柜,机柜代把它互联起来。今天典型的算力中心,一个机柜里有27台服务器,9个是交换机,导致算力密度仅为67%,集群的算力密度仅为44%。
晶圆级计算的解决方案
从智算中心来看,算力集群面临Scaling-out“规模墙”的问题急需行业从系统架构角度突破,不仅在单芯片算力上能提升,在系统规模上也要能够提升,才能满足未来大模型再进一步发展对算力的迫切的需求。
“这个问题是今天从学术界到工业界普遍公认的难题,英伟达作为算力发展上的先行者,他们也面临同样的挑战。” 尹教授表示,2024年OFC光纤通信大会上,英伟达CEO黄仁勋讲曾说,未来的数据中心不再是今天理解的数据中心,而是一个基本计算单元,如果能够把所有计算中心里的组件都集成到一个GPU里,才能解决今天面临的问题。“这促使我们去思考,今天芯片发展遵循的是摩尔定律,不断地把芯片做小、密度做高,未来可能需要从计算系统角度考虑,也许会有一个系统集的摩尔定律帮助我们摆脱规模墙制约。”
面对这些挑战,尹教授提出了晶圆级计算作为新的解决方案。“可以把它看作是系统级摩尔定律的探索,这也是算力先行者提出的想法,把一个数据中心做成一颗芯片。”
晶圆级计算的目标是将一个数据中心集成到一个晶圆上,即“一颗晶圆一颗芯片”(One Wafer One Chip)。这需要在芯片面积和单芯片算力上达到极致,同时解决系统层面的互联问题。
目前业界有两个最出名的晶圆级计算项目,产品技术路线稍有不同,分别是:
- 特斯拉的Dojo系统:发布于2021年,采用数据流计算架构和台积电的InFo-SoW基板集成技术,实现了高密度的计算芯粒互联。特斯拉设计了专门的TTPOEP通信协议,简化了传统TCP/IP协议,提高了芯粒间的通信效率。
- Cerebras的WSE技术:发布于2019年,采用整晶圆光罩拼接技术,实现了一体成型。通过专门的容错架构设计,大幅降低了晶圆缺陷带来的损失,使得95%以上的晶圆面积可以用于有效计算。
通过对比特斯拉Dojo和传统英伟达集群的例子,可以看到晶圆级计算在算力密度上的数量级提升,以及在成本、功耗和训练时间上的显著优势。
以构建Z级算力中心数据作为目标基准,采用A100 GPU成本是800亿美元,而走晶圆集计算路线的特斯拉Dojo成本是14亿美元。从功耗角度来看,GPU路线是4000兆瓦,晶圆级路线约1100兆瓦。最后看使用效果,以训练一个GPT4尺度的模型为基准,传统GPU路线差不多17.8小时,晶圆级芯片路线是4.4小时。这些数据来自于特斯拉实际的Dojo系统测试和统计,从成本、占地、功耗、训练时间来看,这条技术路线有机会全面颠覆过去传统GPU的路线。
实际应用与前景
尹首一教授提到,晶圆级计算已经不再是概念,而是已经落地并构建了亿级算力中心的实践。目前,特斯拉和Cerebras的晶圆级计算系统已经在实际的智算中心中大规模应用。例如,Cerebras在阿联酋建设的Galaxy-3超算中心提供了8EFlops的算力,而特斯拉在纽约州建立的算力中心也达到了4Eflops的算力。
晶圆级系统可以分解成三部分,一是核心的计算芯粒,通过互联技术被基板承载;中间的互联基板可以是硅,也可以是玻璃等其它材质;下方是垂直供电,或IO、存储组合的系统级模组,上中下三层构成晶圆级计算系统结构。
但它们在设计和制造上都面临挑战。例如,晶圆级计算需要解决多芯片之间的互连问题,以及实现对高算力计算单元的供电和散热。为此,特斯拉等公司采用了先进的基板技术和高密度存储、供电合成模块,实现了对晶圆级计算系统的有效支撑。
尹教授总结道,晶圆级计算是解决当前算力需求的重要方向。从2019年Cerebras发布第一代产品到2024年台积电开放InFo-SoW工艺,这条技术路线已经得到了产业界的广泛认可。尽管面临诸多挑战,但晶圆级计算的前景仍然非常光明。