ChatGPT的出现,预示着通用AI时代的来临,人类对于算力的需求正逐渐失控。伴随着摩尔定律失效,大模型时代来临,算力不再“淡定”,每5-6个月就要翻倍,以困兽冲破牢笼之势飞速增长……

史上用户增速最快消费级应用ChatGPT,自去年11月底发布以来,让全球为其狂欢,各方势力仍持续为此“上火”:用户急着试探ChatGPT是否真的有那么聪明,每天有超过2亿的人都在疯狂抛出各式各样的问题“刁难”ChatGPT,并展现自己的“调教”成果;

(ChatGPT每日点击访问量统计 图源:国盛证券研究所)

国内互联网大厂们基于要“活下去”的心愿和讲更动听的AI故事,急着与ChatGPT扯上关系:一时间百度、腾讯、阿里等纷纷拿出相关技术布局以及底层设施储备,为中国的ChatGPT奋力一战;

近3个月过去,ChatGPT热度丝毫未减,官方机构也开始“急了”:

2月24日,东数西算一体化算力服务平台在宁夏银川正式上线发布。据悉,东数西算一体化算力服务平台将瞄准目前最稀缺、刚需迫切的ChatGPT运算能力,以支撑中国人工智能运算平台急需的大算力服务。  

目前,该平台已吸引曙光、中国电子云、天翼云、阿里云、华为、中兴等大算力头部企业,以及国家信息中心、北京大数据研究院等中国主要大数据机构入驻。

新概念才火热三个月,便让这些大机构下场弥补缺口,此等盛况实属难见。

各方势力蜂拥而至,足以见得,目前的算力怕是填补不了ChatGPT们的肚子,众志成城,才能打赢ChatGPT算力攻坚战。

本文试图探究,ChatGPT到底需要多大的算力?升级算力的路子是什么?

ChatGPT,企图榨干算力

通用AI时代来临,人类对于算力的需求正逐渐失控。

伴随着摩尔定律失效,大模型时代来临,算力不再“淡定”,每5-6个月就要翻倍,以困兽冲破牢笼之势飞速增长:

(模型发布时间及算力变化 图源:浙商证券)

2018年,谷歌带着3亿参数BERT模型,闯进大众视野,开启大规模预训练模型时代;在这之后,OpenAI、英伟达、微软先后推出15亿参数的GPT-2、83亿参数的Megatron-LM、170亿参数的图灵Turing-NLG,各个大厂暗自较劲,参数规模从十亿级别竞争到了百亿级别。

2020年6月,OpenAI又将算力“战场”拔高了一个层级:推出1750亿参数的GPT-3,把参数规模提高到千亿级别。随后一山更比一山高:微软和英伟达在2020年10月联手发布了5300亿参数的Megatron-Turing自然语言生成模型(MT-NLG)。

2021年,国内迎来预训练大模型元年。在这一年里,华为、百度、阿里等中国企业开始发力:

华为云联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿;

百度推出ERNIE 3.0 Titan模型,参数规模达2600亿;

阿里达摩院的M6模型参数达到10万亿,又将大模型参数带到新的高度

······

在这之中表现最为亮眼的,莫过于从GPT-3迭代而来的ChatGPT,2022年底一出世就博得全球目光,无论是在模型预训练阶段,还是模型被访问阶段,ChatGPT对算力提出“史无前例”的要求。

在模型预训练阶段,从GPT-1到GPT-3 ,从GPT-3 Small到GPT-3 175B,对算力的需求呈指数型增长。

在大模型的框架下,每一代 GPT 模型的参数量均高速扩张,参数量从GPT-1的1.17亿个,翻了1029倍至GPT-3 的1750 亿个;

具体来看,在GPT-3历代模型中,短短2年,参数量便从GPT-3 Small的1.25亿个,翻了1399倍至GPT-3的1750亿个,未来GPT-4还要翻倍:根据 Altman 的介绍,预计GPT-4的参数将会达到2800亿个。

与此同时在模型被访问阶段,ChatGPT对算力同样有着“狂热”需求

根据Similarweb数据,ChatGPT官网在2023年1月27日-2月3日一周内吸引的每日访客数量高达2500万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。

如果想要“消化”掉这2.5亿次咨询量,根据国盛证券测算,需要大量的A100 GPU芯片“连夜赶工”:

假设每个问题平均30字,单个字在A100 GPU上约消耗350ms,则一天共需消耗729,167个A100 GPU运行小时,对应每天需要729,167/24=30,382片英伟达A100 GPU。

也就是说,目前每天2.5亿次咨询量,需要30,382片英伟达A100 GPU同时计算,才能把ChatGPT“喂饱”,以下是ChatGPT部分耗费(电费以0.08美元/kwh计算):

而以上图表所显示的,仅仅是2.5亿咨询量需求下,使用英伟达A100 GPU相关设备,ChatGPT所需要的算力成本。

背后对能源的消耗,更是“触目惊心”。

环球零碳研究中心曾粗略合计了ChatGPT全生命周期的碳足迹:自2022年11月30日运行以来,其制造设备的碳排放量超过了33.41吨,模型训练碳排放超过552吨,运行60天碳排放约为229.2吨。

也就是说上线两个月的ChatGPT,全过程碳排放超过了814.61吨,而这,相当于186个丹麦家庭每年消耗的能量。

现阶段ChatGPT背后的大模型仍在迭代,每日访问量仍在递增,未来还会有更多的ChatGPT们涌现。彼时,算力以及其背后的功耗还能顾得过来吗?

对此,苏妈表示了担忧:在ISSCC 2023上,苏妈表示根据目前计算效率每两年提升2.2倍的规律,预计到2035年,如果想要算力达到十万亿亿级,则需要的功率可达500MW,相当于半个核电站能产生的功率,“这是极为离谱、不切合实际的”。

(2010-2040功率发展情况 图源:2023 IEEE international Solid-State Circuits Conference

为了达到这样的效果,我们的计算效率起码要每两年提升2.2倍,才能匹配上2035年的算力需求。苏妈坦言,尽管用上目前最先进的计算技术、最先进的芯片,也满足不了ChatGPT们。

而当ChatGPT吞噬完大量算力、能源,“吃饱喝足”之后,各国打的不再是算力之争,而是“国运之争”:一旦搭载ChatGPT的人形机器人能够大批量地上岗时,吃人口红利的国家不再有显著的优势。

ChatGPT们,包括未来的人形机器人们,正对算力、能源“虎视眈眈”,同时对人类的威胁也不容小觑:往小了看,影响个人职业发展,往大了看,牵扯到国家竞争力。

存算一体承载和释放ChatGPT

而一切的一切,都得从打好算力之争开始。

传统的AI1.0时代的代表企业,例如AMD已经开始探寻新的出路:依靠系统级创新实现更大的突破。系统级创新,即从整体设计的上下游多个环节协同设计来完成性能的提升。

一个经典案例是,在对模型算法层面使用创新数制(例如8位浮点数FP8)的同时,在电路层对算法层面进行优化支持,最终实现计算层面数量级的效率提升:相比传统的32位浮点数(FP32),进行系统级创新的FP8则可以将计算效率提升30倍之多。而如果仅仅是优化FP32计算单元的效率,无论如何也难以实现数量级的效率提升。

于是,为解决“如何用更少的电,输出更高的算力”这一终极命题,业内给出不少技术及方案:量子计算(量子芯片)、光机芯片、芯粒(Chiplet)、3D封装、存算一体……。同时也有团队将这些技术进行结合,以期达到系统级创新。

在这之中,现在能够兼容CMOS工艺又能尽快量产的有芯粒、3D封装、存算一体。而芯粒、存算一体是目前业内普遍认为,能够突破 AI 算力困境,进行架构创新的两条清晰路线。

浙商证券指出,面对未来潜在的算力指数增长,短期使用芯粒异构技术加速各类应用算法落地,长期来看,打造存算一体芯片,或将成为未来算力升级的潜在方式。

(架构创新路线 图源:浙商证券

芯粒异构技术成为“种子”选手的原因是,该技术能够突破先进制程的封锁,且大幅提升大型芯片的良率、降低设计成本、芯片制造成本。

而之所以说是短期,是因为该技术路径需要牺牲一定的体积和功耗,导致其目前只能在基站、服务器、智能电车等领域广泛使用。

为解决这一“小缺陷”,目前在学术界,已有团队选择将芯粒异构技术与存算一体架构相融合,以期达到1+1>2的效果:

在ISSCC 2022上,复旦大学芯片与系统前沿技术研究院刘明院士团队提出多芯粒的存算一体集成芯片——COMB-MCM。

据团队表示,电路上COMB-MCM采用存算一体设计,能够降低功耗、提高系统算力。在存算一体的加持下,该芯片具有精度无损且支持非结构化稀疏的自适应能效调节特点,也就补足了芯粒异构技术的短板。

既是芯粒异构技术的最佳拍档之一,同时也是未来架构创新路径之一,存算一体为何博得多方“欢心”?

这是因为存算一体成功打破了“三堵墙”:

在传统冯·诺伊曼架构之下,芯片的存储、计算区域是分离的。计算时,数据需要在两个区域之间来回搬运,而随着神经网络模型层数、规模以及数据处理量的不断增长,数据已经面临“跑不过来”的境况,成为高效能计算性能和功耗的瓶颈,也就是业内俗称的“存储墙”。

(存储墙限制具体表现 图源:浙商证券

存储墙相应地也带来了能耗墙、编译墙(生态墙)的问题。例如编译墙问题,是由于大量的数据搬运容易发生拥塞,编译器无法在静态可预测的情况下对算子、函数、程序或者网络做整体的优化,只能手动、一个个或者一层层对程序进行优化,耗费了大量时间。

这“三堵墙”会导致算力无谓浪费:据统计,在大算力的AI应用中,数据搬运操作消耗90%的时间和功耗,数据搬运的功耗是运算的650倍。

而存算一体能够将存储和计算融合,彻底消除了访存延迟,并极大降低了功耗。基于此,浙商证券报告指出,存算一体的优势包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超过10-100TOPS/W)、降本增效(可超过一个数量级)······

存算一体,正在冲破三堵墙“解救”ChatGPT,加速算力升级。

大算力芯片需扎好马步

除了架构创新,芯片本身的升级迭代也非常重要。作为基石的底层芯片,需要足够“大”,AI大算力应用才能高楼平地起。

(ChatGPT研究框架 图源:浙商证券

那么AI大算力说的“大”到底是多大?

以2020年发布的GPT3预训练语言模型为例,采用的是2020年最先进的英伟达A100 GPU,算力达到624 TOPS。2023年,随着模型预训练阶段模型迭代,又新增访问阶段井喷的需求,未来模型对于芯片算力的需求起码要破千。

再例如自动驾驶领域,根据财通证券研究所表明,自动驾驶所需单个芯片的算力未来起码1000+TOPS。

目前巨头已开始卷上1000+TOPS的SoC,主要用于自动驾驶领域:在2021年4月,英伟达就已经发布了算力为1000TOPS的DRIVE Atlan芯片。到了今年,英伟达直接推出芯片Thor达到2000TOPS。

(自动驾驶所需算力图谱 图源:财通证券研究所)

故,大算力背景下,大算力芯片起码得是1000+TOPS选手。

而在符合大算力条件下,也需要考虑到“用料”的功耗、造价问题。

目前,在存算一体架构优势下,亿铸科技为当前的算力、能耗困局,给出一条解题思路:选择有着面积更小、微缩性好等特性的RRAM实现“同等能耗,更大算力;同等算力,更低能耗”,为各大数据中心、自动驾驶等应用领域“排忧解难”,在数字经济时代,实现绿色算力。

而在存算一体架构下,传统SRAM、闪存(Flash ) 均有着致命的缺陷,无法实现在大算力赛道的降本增效:

SRAM面积较大,占据了英伟达数据中心级GPU总逻辑面积的约50%。而一个A100 GPU的成本就在1万美元以上,根据测算,成熟产品每GB SRAM内存的成本将在100美元左右,最贵的存储器当属SRAM。

除了成本难压之外,SRAM也存在着不稳定的问题。新型非易失性存储架构研究领域的专家李博士认为,SRAM 的问题在于它的静态电流大,当大量的 SRAM 堆积在芯片上时,会产生一种被称为 DI/DT 的工程性问题(也就是电流在短时间内大量变化),应用落地极具挑战性。

基于这两点考虑,SRAM 并不适合做大算力场景李博士补充道:" 正因如此,采用 SRAM 的这些公司都在基于边缘端做小算力的场景,比如语音识别、智能家居的唤醒、关键命令词的识别等。"

同时,Flash也面临着因微缩性差导致不稳定的问题。传统存储器的局限性让行业逐渐将目光逐渐转向了新型存储器:

比如近期英飞凌宣布其下一代 AURIX ™微控制器 ( MCU ) 将采用新型非易失性存储器 ( NVM ) RRAM ( ReRAM ) ;

亿铸科技自2020成立以来,就专注于研发基于RRAM的全数字存算一体大算力AI芯片。

······

ChatGPT,需要存算一体的“解救”,也需要该架构下,更物美价廉(微缩性好、单位面积小、成本低)的新型存储器RRAM的大力支持。

据笔者获悉,亿铸科技今年将诞生首颗基于RRAM的存算一体AI大算力芯片。届时,或许“ChatGPT们”以及其下游的应用能够基于该芯片,更轻松地吸取算力,更快实现“智力”升维。

责编:Luffy
  • 软件生态才是关键,如果不能发挥存算一体的优势,硬件也没有用武之地。。。。
阅读全文,请先
您可能感兴趣
最近,全国大学生电子设计竞赛下设的信息前沿专题邀请赛颁奖典礼在南京邮电大学举办。我们看到了其中的几个一等奖作品,其中获得“瑞萨杯”的是用AI技术做的餐柜。
在之前的文章中,针对在边缘运行机器学习算法的应用场景,我们确定了FPGA在可重配置性、功耗、尺寸、速度和成本方面超越其它 AI 芯片组的许多方式。此外,还了解了与微架构无关的 RISC-V 指令集(ISA)如何与FPGA 的架构灵活性无缝结合。然而,明显缺乏中端、成本效益的 FPGA 及其不够直接的设计流程是个主要瓶颈——完全定制的硬件描述语言(HDL)实现所需的软件技能很稀缺,且通常伴随陡峭的学习曲线。
在手机和物联网边缘设备上运行高效AI的需求正迅速增长。通过为边缘TinyML添加能模仿人脑感知和学习的神经形态模拟信号处理,将复杂AI算法嵌入到设备或传感器硬件中,使得AI计算和学习不在云或远程服务器上、而在边缘设备本身即可完成,省去与云的交互,原始数据流减少了上千倍,从而使其非常适合工业物联网等广泛用途。
据《纽约时报》报导,几个月来,拜登政府一直在准备限制美国公司在中国的投资,特别是在先进计算等领域。目前,这些措施现在已基本完成,并可能在两个月内发布。报导称,拜登政府的成员在2022年的大部分时间里都在权衡如何广泛地实施投资限制。政府官员们与企业高管接触,了解他们对这种举措可能产生的影响的看法。
这段时间,微软重金投资的ChatGPT突然火爆起来,它到底能干什么,它是怎么发展而来的,它的原理是什么?未来将会进化到什么程度?
本文是对支持 ChatGPT 的机器学习模型的简要介绍,将从大型语言模型开始,探讨使 GPT-3 得到训练的革命性自我注意机制,然后研究人类反馈的强化学习,使 ChatGPT 成为与众不同的新技术。
语音是人类交流的重要方式,但说话人的健康状态(例如神经疾病、癌症、外伤等原因导致的声音障碍)和周围环境(噪音干扰、传播介质)往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度,但会导致更大的设备体积……
随着技术的进步与完善,智能手表的功能日益丰富,在健康监测、运动健身、信息处理、通讯和定位等方面实现了功能加持,与此同时,智能手表的科技感和高颜值为它带来了作为时尚单品使用的又一价值。一是为健康,二是为便利,或者我们也可称之为智能化,附加一个时尚搭配的需求,在手机销量持续走低的今天,全球智能手表市场依然呈现一个增长态势,智能手表成为了数码市场的新宠儿。
在 600 / 750V 这一层次电压功率 FETs 类别中,Qorvo 第四代 (Gen 4) SiC FETs 产品的主要性能:比如导通电阻和输出电容方面领先业界。此外,在 TOLL 封装中,Qorvo 的器件具有最低 5.4 mΩ 的导通电阻,比目前市场同类产品中最好的 Si MOSFETs、SiC MOSFETs 和 GaN 晶体管的导通阻抗还要低上 4-10 倍。
从零到一 如何构建一款先进的数字仿真器
 3 月 20 日消息,华为宣布将于 3 月 23 日 14:30 在上海召开华为春季旗舰新品发布会,届时将发布华为 P60 系列、华为 Mate X3 折叠屏等诸多新品。现在微博博主 @数码闲聊站
汽车行业的跳槽热浪过去了一波之后,平静的朋友圈被一个前同事的咨询打破了。这哥们也是资深BMS软件开发工程师了,前两年混迹了一圈各大主机厂,从传统自主品牌跳到合资品牌再跳到头部新势力企业,拿捏得了算法、
点击上面↑“电动知家”关注,记得加“星标”!电动知家消息,20日晚间,针对蔚来实习生事件,蔚来在内部发布了调查报告。报告显示,该实习生未能留用的原因为所在岗位没有编制,且所在团队在2023年亦没有校招
芯片封装目前逐渐向小型化、多引脚、高集成的方向持续发展,异构集成、2.5D、3D、SIP技术让芯片封装结构更加集成且复杂化。作为后摩尔时代芯片性能提升最佳途径,以Flip-chip等为代表的先进封装技
国际电子电路(上海)展览会即将于3月22—24日在上海国家会展中心拉开序幕,来自全球的700多家电子电路厂商、设备制造商、技术提供商和原材料供应商,纷纷带来新产品和解决方案,聚焦电子电路行业发展。在本
芯片超人是一家中国新型半导体分销平台的领先企业,致力于为终端工厂客户提供紧缺、价格波动大、停产的现货、订货以及库存处理。在深圳设有独立实验室,每颗物料均安排QC质检,服务近万家同行和终端,所有物料确保
点击上面↑“电动知家”关注,记得加“星标”!电动知家消息,据俄新社3月20日报道,下诺夫哥罗德州一仲裁法院查封了大众集团在俄罗斯的所有资产,原因是高尔基汽车厂(以下简称GAZ)要求其索赔155多亿卢布
根据网络信息汇总,如有疑问或错误,烦请指出。芯片超人花姐粉丝福利扫码加好友领取100G半导体产业资料包(内含汽车芯片、芯片设计等文字视频资料)聊行情、买卖芯片、谈合作扫码添加芯片超人花姐推荐阅读:▶ 
3月18日,在广州市南沙区珠江工业园内,一座以电子纸为核心的现代化科技园——奥翼科技园正式开业。该园区由广州奥翼电子科技股份有限公司投资建设,建筑面积约7万平方米。奥翼创始人、总经理陈宇表示,奥翼将以
C&K 的 PTS840 系列微型 SMT 侧面操作开关备有前端 PIP 引线选项, 提供较强的抗剪切力。PTS840 轻触开关可靠耐用, 非常适合个人健康诊断、消费电子产品和远程控制领域的应用。关于