深度丨首个纯国产GPU的万卡集群亮相,试图群体突破

原创 AI芯天下 2024-07-10 20:30

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发






前言
近年来,大语言模型领域取得了显著的发展,随之而来的是对算力资源需求的急剧增加。

然而,在当前的市场环境下,如英伟达A100等高端GPU的供应紧张,成为了行业面临的一大挑战。

尽管如此,这一困境也为众多国产算力厂商带来了寻找新型替代方案的机遇,促使他们积极寻求创新突破。


作者 | 方文三
图片来源 |  网 络 


AI大模型的主战场,万卡已是标配


去年5月,Google正式推出的A3 Virtual Machines超级计算机,配备了高达26,000块Nvidia H100 GPU,并辅以自研芯片构建的TPUv5p 8960卡集群。


至今年3月,Meta公开分享了其最新的两个AI训练集群,两者均集成了24,576个Nvidia Tensor Core H100 GPU,相较于前一代的16,000块,有了显著的增长。


OpenAI所开发的ChatGPT-4则包含16个专家模型,共计1.8万亿参数,其单次训练过程需要在约25,000个A100上持续90至100天。


大模型行业的发展日新月异,客户对于训练速度有着极高的期待,普遍希望能在两周内完成训练,最晚也应在一个月内完成。


以训练一个5000亿参数模型,涉及15TB数据为例,若仅拥有1000P算力,该过程将需要长达三年。


而若将时间限定在两周或一个月内,则至少需要10000P的算力作为保障。


在国际市场上,GPT-4这一拥有1.8万亿参数的庞大模型,其训练过程需消耗25000张A100 GPU并持续100天。


若以H100为基准,这一需求将缩减至1000张。


今年,Meta推出了两个配备24576张H100的集群,以支持Llama 3等新模型的训练。


本周,马斯克透露,新版Grok 3的训练过程使用了高达10万张H100 GPU。


回顾去年,华为昇腾AI集群的规模已扩展至16000卡;随后,科大讯飞在10月宣布启动万卡集群算力平台[飞星一号]。


今年3月,天翼云在上海临港启用了国产万卡算力池;4月,中国移动宣布今年将商用3个自主可控的万卡集群。


各大云计算厂商纷纷加大投入,将大模型训练集群的规模推向了10万卡量级。


综上所述,超万卡集群已成为大模型预训练的标配,对于基础设施厂商而言,是否拥有万卡集群将成为其在AI领域竞争中取得成功的关键要素。



首个纯国产GPU的万卡集群来了


在2024世界人工智能大会即将召开之际,摩尔线程于7月3日宣布,其夸娥(KUAE)智算集群解决方案已实现显著的技术跃升,由原先的千卡规模显著扩展至万卡级别,以支持大规模模型的运算需求。


这一升级旨在为大模型,特别是达到万亿参数级别的模型训练,提供持久、高效、稳定及广泛适用的通用算力支撑。


值得强调的是,摩尔线程作为国内首家接入无问芯穹并进行大模型训练的国产GPU公司,其夸娥智算集群已成为业内首个成功运行并完整支撑国产大模型的集群系统。


目前,包括智谱 AI、智源研究院、北大兔展、滴普科技、师者AI、羽人科技、乐创能源、瑞莱智慧、实在智能、积沙成塔、憨猴集团、亿景智联等在内的多家国内大模型企业,均已成功部署并运行于摩尔线程的夸娥智算集群之上。


夸娥万卡智算集群的三大核心优势在于其卓越的计算效率、高度稳定性和出色的生态兼容性。


该集群采用自研全功能GPU,通过计算加速卡、服务器、超融合一体机等组件的灵活组合,形成了高效能的小集群,进而构建出大集群,其线性加速比超过91%,满足了客户根据自身建设规划进行扩容的需求。


此外,摩尔线程还高度重视软件层面的优化与管理。为了确保万卡集群的高效管理、调试和使用,公司推出了一系列全栈AI软件,包括加速引擎和便捷的管理平台,并支持用户进行7×24小时的远程监控。


除了自研全功能GPU外,摩尔线程还与国内CPU、操作系统厂商紧密合作,共同打造了基于中国自主创新技术的PES完美体验系统联盟。



好用=规模够大+计算通用+生态兼容


这正是最新夸娥(KUAE)万卡集群所具备的五大显著特点。


①夸娥万卡集群展现了万卡万P的超大算力。具体而言,经过升级后,该集群已达到单集群规模超万卡,浮点运算能力高达10Exa-Flops。


②在GPU显存和传输带宽方面,显存容量提升至PB级,卡间互联总带宽和节点互联总带宽同样达到PB级,实现了算力、显存和带宽的系统性协同优化,从而全面提升了集群计算性能。


③有效计算效率(MFU)是夸娥万卡集群的另一大优势。


MFU作为评估大型模型训练效率的关键指标,直观反映了整个集群的训练效率。


夸娥万卡集群通过系统软件、框架和算法等多个层面的深入优化,成功实现了对大型模型的高效训练,MFU值最高可达60%。


在系统软件层面,采用计算与通信效率的极致优化技术,显著提升了集群的执行效率和性能;


在框架和算法层面,该集群支持多种自适应的混合并行策略和高效的显存优化技术,可根据具体需求自动选择并配置最佳并行策略,从而显著提升训练效率和显存利用率。


④夸娥万卡集群在处理超长序列的大型模型时,通过CP并行技术和环形注意力机制等优化手段,有效减少了计算时间和显存使用,进一步提升了集群的训练效率。


⑤夸娥万卡集群在通用性和生态友好性方面表现出色。


该集群专为通用计算场景量身定制,能够为LLM、MoE、多模态和Mamba等多种架构和模态的大型模型提供加速支持。


同时,采用高效且用户友好的MUSA编程语言,并完全兼容CUDA,配合自动化迁移工具Musify,实现新模型的即时[Day0]级迁移,确保了生态系统的即时适配性。



[集群]弥补[单卡]是解决算力荒的路径


随着大模型训练与推理需求呈几何级数爆发,再加上GPU供应存在干扰,算力芯片的供求缺口相当巨大。


[N卡难求]现象已催生抢购与囤货热潮,同时市场上鲜有与国际巨头单卡性能直接对标的产品。


目前,我国智能算力市场面临严重的供需失衡,大模型对算力的需求增长已显著超越单颗AI芯片性能的提升速度。


因此,通过集群互联来弥补单卡性能不足,成为当前亟待探索并解决AI算力匮乏问题的关键途径。


鉴于多重因素的叠加影响,以及国产大模型对构建AI产业商业闭环的迫切需求,构建具有自主创新和本土化特色的集群已刻不容缓。


未来,国内智算中心在搭建集群时将面临两大选择。


①采用国内外芯片[混搭]的集群模式,这对系统优化提出了高要求,[最短的木板]可能制约整体算力效率的充分发挥,预计需要长时间的优化与磨合才能找到最佳路径;


②采用国产化的集群模式,在保障[能用]的基础上,不断追求[好用],以实际成果推动自主创新的深入发展。


过去一年,我国千P级智算中心的智算基建布局已呈爆发式增长。


当前,国内万卡智算中心尚处于发展初期,面临诸多挑战。


因此,国产AI算力的发展机遇主要在于千卡以上的集群及其背后的软件生态。



万卡集群建设还面临五重挑战


目前,超万卡集群的建设尚处于初始阶段,其核心构建主要依托于英伟达GPU及其相关配套设施。


作为全球GPU市场的佼佼者,英伟达的产品在大规模模型训练领域展现出了显著的优势。


在政策和市场需求的双重推动下,国产AI芯片在近两年来取得了显著的进步。


然而,从整体性能和生态系统构建的角度来看,国产芯片仍存在一定的差距。


因此,在构建基于国产技术生态、具备技术领先地位的超万卡集群方面,我们仍面临诸多挑战与困难。


①极致算力挑战:集群规模提升不等于算力线性提升,关键在于互联网络和软硬件适配调优。需运用系统工程方法,精细化设计网络和软硬件整合优化。


②海量数据处理挑战:未来模型训练对数据处理性能有极高要求,需通过协议融合、自动分级等技术手段提升数据共享和处理能力。


③超大规模互联挑战:模型规模扩大要求高性能互联网络支持大模型的数据吞吐和计算需求。


④高稳定性与高效率挑战:大模型训练中稳定性和效率至关重要,需优化以缩短故障恢复时间,确保稳定高效训练。


国产软件生态挑战:国内已有多家公司推出国产AI芯片,但软件生态不佳,需加强关键软件的研发和完善,提高生态繁荣度。




结尾:


随着从千卡集群到万卡集群的演进,以及从[模型]竞争转向[应用]竞争的趋势,业界对高效、可持续的算力需求日益迫切,以满足多样化的新计算任务。


在这些新需求的驱动下,新型万卡智算中心,即芯片系统的组合体,已成为推动大模型产业落地的关键力量,并已成为大国间AI竞争的基础设施标配。


部分资料参考:量子位:《首个国产全功能GPU的万卡集群来了》,通信产业网:《万卡集群:从"打群架"到"群体突破"还有多远?》,半导体产业纵横:《摩尔线程CEO张建中:万卡集群是AI主战场上的标配》,AI云原生智能算力架构:《智能算力中心万卡GPU集群架构深度分析 2024》,钛媒体国际智库:《砸钱建设万卡集群,中国企业在追赶》


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:


商务合作请加微信勾搭:

18948782064

请务必注明:

「姓名 + 公司 + 合作需求」


AI芯天下 聚焦人工智能,AI芯片,5G通讯等行业动态
评论 (0)
  • SysConfig支持lp_MSPM0C1104。SysConfig是德州仪器(Texas Instruments)提供的一款用于配置和开发微处理器系统的工具。它允许用户通过图形界面对系统进行配置,如引脚、外设、软件堆栈等,并能够自动生成代码。由于SysConfig是为了简化软件开发流程而设计的,它通常支持多种设备,包括lp_MSPM0C1104这样的微处理器。 lp_MSPM0C1104是TI公司的一个微处理器产品线上的型号,属于MSP microcontroller系列。这个系列的微控制器
    丙丁先生 2024-07-19 19:06 135浏览
  • 非常荣欣参加了这次《混合式数字与全数字电源控制实战》试读体验活动,同时非常感谢面包板论坛举办此活动。本书印刷还是非常新颖,具有精美漫画。下图为图书正面。本书专注于补偿控制器理论与计算并实现完整控制环路设计过程,并且书中处处藏有设计小技巧或经验,可让读者避开一些坑洞,顺利开发电源。本书以 Buck转换器为主要论述基础,因为Buck尤其适合作为人门架构,已被广泛使用与延伸,包含半桥、全桥、推挽式等;其补偿控制器原理皆相同,DC/AC Inverter亦为 Buck&nb
    shenwen2007_656583087 2024-07-21 19:43 41浏览
  • 如图1所示,一个电阻连接在运算放大器的输入端与地之间,从而为输入偏置电流提供了一个回路。在使用双极性运放的时候,为最小化输入偏置电流导致的失调电压,考虑到运放两个输入端的匹配问题,通常将R1设为R2和R3的并联值。但要注意的是,该电阻始终会给电路带来一定噪声,因而需在电路输入阻抗、所需输入耦合电容大小与电阻引进的约翰逊噪声之间进行权衡,典型电阻值一般在100,000 Ω至 1 MΩ之间。图1  双电源供电运算放大器输入端交流耦合的正确方法图2  利用运算放大器的低阻
    丙丁先生 2024-07-21 10:12 28浏览
  • 概述 前期直接上LYSO晶体模块能谱测试结果不理想,为了找寻原因回测了PMT系统,并进行了对比。为了找到原因,将测试分解,本文将分解后的测试进行记录,注意本文注意关注能谱测试。使用单晶体在二代SiPM读出测试系统中测试能谱 放置单晶体后,继续使用后级数字采集系统对二代SiPM读出系统的输出信号进行数字化转换,然后对采集到的数据进行合理分析,也即对X、Y坐标及能E进行分析,能量E即可用来分析能谱。如图1所示,左右区别则是是否放置辐射源(Cs-137),此时能谱结果似乎又基本符合预期。图1:初步采集
    coyoo 2024-07-20 08:38 143浏览
  • 随着科技的飞速发展,2024年对于国产光电耦合器行业来说,无疑是充满机遇与挑战的一年。本文将深入探讨该行业在技术创新、市场竞争、5G时代、新兴应用领域和国际市场拓展方面的现状及未来前景。技术创新的黄金期物联网和人工智能技术的迅猛发展,对光电耦合器的性能提出了更高的要求。国产光电耦合器正迎来技术创新的黄金期,通过不断提升传输速率、稳定性和适应性,国产光电耦合器能更好地满足市场需求。这不仅为国内企业提供了广阔的发展空间,也为提升其国际竞争力奠定了坚实基础。激烈的市场竞争尽管机遇众多,但全球市场竞争日
    克里雅半导体科技 2024-07-19 16:31 165浏览
  •   读报见文《新疆:现代化产业体系在改革中构建、近5000家定点医药机构开通职工医保门诊统筹结算 (qq.com)》兵团零距离 2024年07月18日 08:10 新疆  刚刚结束的第八届中国—亚欧博览会上,新疆各地展示新产业、新项目、新产品,体现着积极建设“八大产业集群”、延链补链强链新成效……  怎么?新疆现在要构建产业?怎么一直以来不建呢?土地都摆在那儿的呀?  什么是“延链补链强链”?  不禁想到产业不就是制造?不就是工厂?不就是要有工人?  自然想到这些年来的就业难!不是因为工厂少了吗
    自做自受 2024-07-20 15:32 139浏览
  • Flash BSL是指通过Bootloader(引导加载程序)对MSP430单片机的闪存进行擦除和编程的过程。这项技术尤其用于那些通过常规编程接口(如JTAG或SWD)无法正常访问的情况,例如由于固件损坏、保护位设置错误或其他编程问题导致的锁定情况。针对MSP430系列单片机,BSL提供了一种通过串口(UART)或I2C接口进行通信的备用编程方法。 要理解Flash BSL的工作方式和应用场景,需要了解MSP430单片机及其BSL功能的基本工作原理和操作步骤。MSP430单片机是德州仪器(Te
    丙丁先生 2024-07-21 15:32 83浏览
  • 运放电路环路稳定性设计——原理分析、仿真计算、样机测试本书利用“原理分析、仿真计算、样机测试”三步学习法对运放电路环路进行稳定性设计,使读者能够对已有电路CD理解,并且通过计算和仿真分析对原有电路进行改进,以便设计出符合实际要求的运放电路,达到实际应用的目的。1先,进行简单运放电路分析,运用反馈控制理论和稳定性判定准则进行时域/频域计算和仿真,D计算结果和仿真结果一致时再进行实际电路测试,使三者有机统一;然后,改变主要元器件参数,使电路工作于振荡或超调状态,此时测试稳定裕度,应该与稳定判据相符合
    Jack陈 2024-07-19 21:05 22浏览
  •   国产光电耦合器作为电子设备中重要的元器件之一,广泛应用于电路隔离、信号传输等领域。近年来,随着科技的不断进步,国产光电耦合器在技术水平和市场应用方面取得了显著发展。本文将探讨国产光电耦合器的现状、技术创新、市场环境及未来发展前景。  现状分析  目前,国产光电耦合器产业正在迅速发展,已形成较为完整的产业链。国内企业在产品研发、制造工艺和市场推广等方面积累了丰富的经验。国产光电耦合器在恶劣的设备环境场景下也是取得不错的成绩,元件适应恶劣环境的水准要求也在不断精益求
    克里雅半导体科技 2024-07-19 16:26 136浏览
  • F28P55x 是德州仪器(Texas Instruments)公司生产的一款数字信号处理器(DSP)芯片的型号。这款芯片属于该公司的TMS320F28xxx系列,这一系列的处理器通常被用于工业控制系统,如电机控制、功率转换等应用中。它们通常具有高度集成的外设配套,能够处理高速计算任务,并且可以提供多种通信接口。 具体到F28P55x,虽然我无法提供详细的数据表或技术规格(因为知识截止日期在2023年4月,且无法访问实时数据库),但根据以往的型号和产品系列,这个型号可能具备以下特点: 1.
    丙丁先生 2024-07-19 18:37 128浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦