随着ChatGPT流量激增,作为算力载体的AI服务器将迎来重要发展机遇。预计,全球AI服务器市场将从2020年的122亿美元成长到2025年288亿美元,年复合增长率达到18.8%。从芯片构成来看,AI服务器主要是CPU+加速芯片,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求。

最近,ChatGPT热潮席卷全球。

ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI于2022年11月推出的对话AI模型,仅发布2个月便实现月活突破1亿,成为历史上用户增长最快的消费级应用之一。

图片来源:纽约时报

ChatGPT火出圈背后是“人类反馈强化模型”的应用。在问答模式的基础上,ChatGPT可以进行推理、编写代码、文本创作等等,这样的特殊优势和用户体验使得应用场景流量大幅增加。

随着ChatGPT用户数快速增长,需求量火爆引发宕机。在庞大用户群涌入的情况下,ChatGPT服务器2天宕机5次,火爆程度引人注目的同时也催生了对算力基础设施建设更高的要求,特别是底层芯片。那么,ChatGPT将带动哪些芯片的需求?

短短数月,ChatGPT就像是一股热浪扑面而来,迅速爆火全球科技圈。3月29日,AspenCore将在上海举办国际集成电路展览会暨研讨会(IIC Shanghai 2023)。作为IIC 2023重要论坛活动之一,2023年中国IC领袖峰会将邀请行业代表企业探讨生成式AI技术发展趋势以及发展机遇,同时分享其相关的技术创新成果。欢迎报名:https://m.zhundao.net/event/342548?track=0135

AI服务器需求激增

当前,ChatGPT在问答模式的基础上进行推理、编写代码、文本创作等,用户人数及使用次数均提升,同时在一些新应用场景也产生了较大的流量,比如智能音箱、内容生产、游戏NPC、陪伴机器人等。随着终端用户使用频率提高,数据流量暴涨,对服务器的数据处理能力、可靠性及安全性等要求相应提升。

从技术原理来看,ChatGPT基于Transformer技术,随着模型不断迭代,层数也越来越多,对算力的需求也就越来越大。从运行条件来看,ChatGPT完美运行的三个条件:训练数据+模型算法+算力,需要在基础模型上进行大规模预训练,存储知识的能力来源于1750亿参数,需要大量算力。

资料显示,ChatGPT是基于GPT-3.5优化的一个模型,GPT-3.5是GPT-3.0的微调版本。OpenAI的GPT-3.0模型存储知识的能力来源于1750亿参数,单次训练费用约460万美元,GPT-3.5在微软AzureAI超算基础设施上进行训练,总算力消耗约3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。

可以说,ChatGPT拉动了芯片产业量价齐升,即不仅对人工智能底层芯片数量产生了更大的需求,而且对底层芯片算力也提出了更高的要求,即拉动了高端芯片的需求。据悉,采购一片英伟达顶级GPU成本为8万元,GPU服务器成本通常超过40万元。支撑ChatGPT的算力基础设施至少需要上万颗英伟达GPU A100,高端芯片需求的快速增加会进一步拉高芯片均价。

随着ChatGPT流量激增,作为算力载体的AI服务器将迎来重要发展机遇。预计,全球AI服务器市场将从2020年的122亿美元成长到2025年288亿美元,年复合增长率达到18.8%。

这些芯片将受益

从芯片构成来看,AI服务器主要是CPU+加速芯片,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求。

1.CPU

作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。其优势在于有大量的缓存和复杂的逻辑控制单元,擅长逻辑控制、串行的运算;劣势在于计算量较小,且不擅长复杂算法运算和处理并行重复的操作。因此,CPU在深度学习中可用于推理/预测。

目前,服务器CPU向多核心发展,满足处理能力和速度提升需要,比如AMD EPYC 9004核心数量最多可达96个。不过,系统性能优劣不能只考虑CPU核心数量,还要考虑操作系统、调度算法、应用和驱动程序等。

2.GPU

GPU高度适配AI模型构建,由于具备并行计算能力,可兼容训练和推理,目前GPU被广泛应用于加速芯片。以英伟达A100为例,在训练过程中,GPU帮助高速解决问题:2048个A100 GPU可在一分钟内成规模地处理 BERT之类的训练工作负载。在推理过程中,多实例GPU (MIG)技术允许多个网络同时基于单个A100运行,从而优化计算资源的利用率。在A100其他推理性能增益的基础之上,仅结构稀疏支持一项就能带来高达两倍的性能提升。在BERT等先进的对话式AI模型上,A100可将推理吞吐量提升到高达CPU的249倍。

目前,ChatGPT引发了GPU应用热潮。其中,百度即将推出文心一言(ERNIE Bot)。苹果则引入AI加速器设计的M2系列芯片(M2 pro和M2 max)将被搭载于新款电脑。随着ChatGPT的使用量激增,OpenAI需要更强的计算能力来响应百万级别的用户需求,因此增加了对英伟达GPU的需求。

AMD计划推出与苹果M2系列芯片竞争的台积电4nm工艺“Phoenix”系列芯片,以及使用Chiplet工艺设计的“Alveo V70”AI芯片。这两款芯片均计划在今年推向市场,分别面向消费电子市场以及AI推理领域。

3.FPGA

FPGA具有可编程灵活性高、开发周期短、现场可重编功能、低延时、方便并行计算等特点,可通过深度学习+分布集群数据传输赋能大模型。

4.ASIC

ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点,可进一步优化性能与功耗。随着机器学习、边缘计算、自动驾驶的发展,大量数据处理任务的产生,对于芯片计算效率、计算能力和计能耗比的要求也越来越高,ASIC通过与CPU结合的方式被广泛关注,国内外龙头厂商纷纷布局迎战AI时代的到来。

其中,谷歌最新的TPU v4集群被称为Pod,包含4096个v4芯片,可提供超过1 exaflops的浮点性能。英伟达GPU+CUDA主要面向大型数据密集型HPC和AI应用;基于Grace的系统与NVIDIAGPU紧密结合,性能比NVIDIADGX系统高出10倍。百度昆仑2代AI芯片采用全球领先的7nm 制程,搭载自研的第二代 XPU 架构,相比一代性能提升2-3倍;昆仑芯3代将于2024年初量产。

5.光模块

当前,AI时代模型算力需求已经远超摩尔定律的速度增长,特别是在深度学习、大模型时代之后,预计5-6个月翻倍。然而,数据传输速率成为容易被忽略的算力瓶颈。伴随数据传输量的增长,光模块作为数据中心内设备互联的载体,需求量随之增长。

来源:Google Scholar

未来算力升级路径

最近,ChatGPT的兴起推动着人工智能在应用端的蓬勃发展,这也对计算设备的运算能力提出了前所未有的需求。虽然AI芯片、GPU、CPU+FPGA等芯片已经对现有模型构成底层算力支撑,但面对未来潜在的算力指数增长,短期使用Chiplet异构技术加速各类应用算法落地,长期来看打造存算一体芯片(减少芯片内外的数据搬运),或将成为未来算力升级的潜在方式。

1Chiplet

Chiplet是布局先进制程、加速算力升级的关键技术。Chiplet异构技术不仅可以突破先进制程的封锁,并且可以大幅提升大型芯片的良率、降低设计的复杂程度和设计成本、降低芯片制造成本。不过,虽然Chiplet技术加速了算力升级,但需要牺牲一定的体积和功耗,因此将率先在基站、服务器、智能电车等领域广泛使用。

目前,Chiplet已广泛应用于服务器芯片。AMD是Chiplet服务器芯片的引领者,其基于Chiplet的第一代AMDEPYC处理器中,装载8个“Zen”CPU核,2个DDR4内存通道和32个PCIe通道。2022年AMD正式发布第四代EPYC处理器,拥有高达96颗5nm的Zen4核心,并使用新一代的Chiplet工艺,结合5nm和6nm工艺来降低成本。

英特尔第14代酷睿Meteor Lake首次采用intel 4工艺,首次引入Chiplet小芯片设计,预计将于2023年下半年推出,至少性能功耗比的目标要达到13代 Raptor Lake的1.5倍水平。

2.存算一体

正如上文提到的,AI时代模型算力需求远超摩尔定律的速度增长,单纯靠缩微化制程已经无法满足需求而且成本急速攀升。实际上,从现有芯片架构来看,超过60%时间是花在数据搬运上,超过90%的功耗也损失在数据搬运上,能效非常低。因此,存储墙”成为了数据计算应用的一大障碍。而存算一体是算力需求上升的主要解决技术路线之一。

存内计算的计算原理可以理解成是用存储器做计算,其计算单元不再是逻辑器件、CPU、GPU或者NPU,与这些架构是完全不一样的。存内计算直接运算单元是存储单元本身。存算一体技术通过在存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵运算。

本文参考:浙商证券—计算机行业AIGC算力时代系列报告《ChatGPT芯片算力:研究框架》

责编:Jimmy.zhang
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
全球领先的边缘AI计算解决方案厂商耐能今天宣布将自研的AI Soc芯片KL720集成到高通技术公司用于机器人、无人机和工业 4.0 的 高通®机器人RB1平台和高通®机器人RB2平台中。耐能创立于美国圣迭戈,并获得由红杉资本、维港投资、高通及鸿海集团等投资。
三星2023年的新旗舰机S23,主要将搭载高通的Snapdragon 8 Gen 2处理器,Exynos芯片改用于中端机种。这对三星自身芯片代工而言,也是自打自脸。此前,有消息人士透露,三星认为4纳米是3纳米和5纳米之间的过渡制程,投入的资源极少。不过,三星似乎也在改变此前的做法。
随着人工智能的快速发展,对于相对较低的需求,嵌入式AI解决方案已可实现。但对于需要能够处理高达4kp60的视频帧和图像分辨率而言,依赖于固定平台的传统解决方案已无能为力。本文介绍的将Kinara的加速器和NXP处理器结合在一起,来提供边缘AI性能,能够实现多路智能相机并行处理所需的完美高速性能。
ChatGPT的出现,预示着通用AI时代的来临,人类对于算力的需求正逐渐失控。伴随着摩尔定律失效,大模型时代来临,算力不再“淡定”,每5-6个月就要翻倍,以困兽冲破牢笼之势飞速增长……
RISC-V与Arm、x86之间三足鼎立的关系,将长期以互相渗透、互相补充的形式存在下去。在孟建熠看来,RISC-V是这三者中相对较“草根”的,由于入门门槛低,可以填补很多x86和Arm做不到的领域。而要把“草根”生态做大做强,需要RISC-V技术链上各环节抱着开放的态度做事——可以在商业产品上竞争,但在标准建立上精诚合作。
尽管目前RISC-V架构相对ARM架构仍属“小众”,但RISC-V作为一种开放的架构,未来极具发展前景,将有可能和x86架构/ARM架构“三分天下”,成为全球第三种主流处理器架构。从本次RISC-V生态大会看到,RISC-V对中国半导体行业特别是芯片设计环节将是一次巨大的机会。
德州仪器首席执行官Rich Templeton当选SIA副主席
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
技术先进的CMOS图像传感器供应商思特威,正式推出面向高端智能安防应用的Star Light (SL) Series超星光级系列大靶面8MP图像传感器新品——SC880SL。
移远通信将摩尔斯微电子的业界体积最小、速度最快、功耗最低的IEEE 802.11ah标准SoC集成到新模块中
编码器概述编码器是将信号或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。编码器把角位移或直线位移转换成电信号,前者称为码盘,后者称为码尺。按照读出方式编码器可以分为接触式和非接触式两种;
大家有没有接到过“95” "1069" “00”等开头的电话或短信当心诈骗盯上你了!近期,张女士接到一通“00”开头,自称售后客服的短信,称其在某购物平台上购买的化妆品质量不合格,要做退货赔偿。遵照这
‍‍"image" data-miniprogram-servicetype="" _href="">                                                
1. 现象:高版本导出的ASC文件,再导入到PADS9.5版本后,TOP层铺不了铜,如下提示解决方法:将如下图铺铜的线宽改小后就可以了(原先为5.91mil, 改成1mil)2. 导航窗口里面有测量尺
关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯来源:  焉知智能汽车未来汽车产品最核心的技术是电子电气架构,汽车电子电气架构由分散式、嵌入式逐渐向集中式、
2023年1月10日,英特尔正式向全球数据中心客户推出第四代英特尔®至强®可扩展处理器(代号“Sapphire Rapids”)。得益于在数据中心领域深耕多年,英特尔成功推出这款具备卓越加速性能的至强
随着光学应用领域的扩展及技术迭代速度的加快,光学开发者需要强大且便利的工具帮助其设计出更完美的产品并缩短产品上市周期。为支持光学开发者应对这一挑战,新思科技坚持产品研发,不断优化产品性能,对 RSof
当下,正处于汽车“功能机”向“智能机”变革的关键期,以奔驰为代表的传统汽车厂商,如果不能搭上智能化发展的“快车”,很有可能出现类似诺基亚一样被时代抛弃甚至淘汰的命运。在此背景下,奔驰开展了一系列“自救
【智能汽车电子与软件】专注于汽车电子领域的信息交融平台,涵盖汽车电子行业资讯、市场动态、技术干货、知识见解、行业趋势等资讯深度覆盖。现邀请您添加智能汽车电子与软件的小编——小璇,获取海量福利。福利1:
关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯来源:技术邻汽车学习 一、概述智能网联汽车是《中国制造2025》规划中提出的新概念,是智能汽车与互联网相结合