超万卡集群的核心设计原则和总体架构

智能计算芯世界 2024-05-26 07:22

当前,超万卡集群的建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。

随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU实现多计算能力融合以及追求极致算力能效比,具体参阅文章“超万卡训练集群互联关键技术”。

1、超万卡集群核心设计原则

在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转,超万卡集群的总体设计应遵循以下五大原则:

●坚持打造极致集群算力:基于Scale-up互联打造单节点算力峰值,基于Scale-out互联将单集群规模推高至万卡以上,两者叠加构建超万卡集群的大算力基座;

●坚持构建协同调优系统:依托超大规模的算力集群,通过DP/PP/TP/EP等各种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比,最大化模型开发效率;

●坚持实现长稳可靠训练:具备自动检测和修复软硬件故障的能力,面向千万器件满负荷运行系统,持续提升MTBF和降低MTTR并实现自动断点续训能力,支持千亿稠密、万亿稀疏大模型百天长稳训练,保证系统稳定性和鲁棒性;

●坚持提供灵活算力供给:支持集群算力调度,提供灵活弹性的算力供给和隔离手段,实现训练和推理资源的按需调配,保持单集群大作业和多租户多任务并行训练性能持平;

●坚持推进绿色低碳发展:持续推进全套液冷解决方案在超万卡集群的应用,追求极致绿色算力能效比(FLOPs/W)和极低液冷PUE至1.10以下。

2、超万卡集群整体架构设计

超万卡集群的总体架构由四层一域构成(如图1),四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。

●机房配套层:匹配超万卡集群高密集约的建设模式,机房配套设施需重点考虑高效供电、制冷设计、楼板承重和走线架设计等。

●基础设施层:算、网、存三大硬件资源有机配合,达成集群算力最优。面向算力,CPU、GPU、DPU三大芯片协同,最大化发挥集群计算能力;面向网络,参数面、数据面、业务面、管理面独立组网,参数面/数据面采用大带宽RoCE交换和二层无阻塞CLOS组网满足大象流,支持参数面负载均衡和多租安全隔离;面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。

●智算平台层:采用K8s,对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳管的基础上,进一步实现大规模集群的自动化精准故障管理,以达成高效训练、长稳运行的目标。面向未来,考虑集群中引入异厂家GPU芯片,为避免智算碎片化问题,引入算力原生,实现应用跨架构迁移和异构混训等平台能力。

●应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源框架能力,进行分布式训练调优,面向未来开展自动分布式训练框架设计,积累经验,实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优;另一方面,研发沉淀数据服务、模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。

●智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度,支持多任务并行训练。

下载链接:
《大模型技术在行业应用实践合集(1)》
1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云:大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践
《大模型技术在行业应用实践合集(2)》
1、大模型数据安全:从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速
《大模型技术在行业应用实践合集(3)》
1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型,说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道:合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量
《大模型技术在行业应用实践合集(4)》
1、MoonBit 月兔:大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps,研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索
《超大模型训练技术合集》
1、超大规模多模态预训练模型M6的关键技术突破及产业应用 2、高效训练百万亿参数预训练模型的系统挑战和对策
量子科技专题系列一:逐梦量子,星辰大海(2024)
《半导体行业深度报告合集(2024)》
大模型时代:生成式AI发展与科技创新范式
OpenAI的飞轮:AI新产品、巨量融资、需求和算力
大语言模型:LLM技术报告
《先进计算技术专题》
1、先进计算应用创新白皮书(2023) 2、算力时代:先进计算十大趋势 3、先进计算技术路线图(2023年)
AI系列:光是通信的必由之路,OCS成功应用
人形机器人报告:AI超预期产业落地,核心零部件配套星辰大海
AI的内存瓶颈,高壁垒高增速(2024)
500+份重磅ChatGPT专业报告
2023年AIGC移动市场洞察报告
虚拟数字人研究报告:溯源、应用、发展(2024)
AI服务器催化HBM需求爆发,核心工艺变化带来供给端增量(2024)
《AI算力芯片产业链及全景图》
1、AI算力产业链梳理(2023) 2、国产AI算力芯片全景图
智能时代的计算架构发展趋势
《半导体行业系列报告合集》
1、半导体行业系列报告(一):道阻且长,行则将至 2、半导体行业系列报告(二)碳化硅:衬底产能持续扩充,渗透加速国产化 3、半导体行业系列报告(三)先进封装:先进封装大有可为,上下游产业链将受益
芯片未来可期:数据中心、国产化浪潮和先进封装(精华)
智算时代的容器技术演进与实践
半导体存储行业深度研究(2023)
CPU生态、价值与机遇研究(2021)
信创研究专题框架
异构芯片研究框架合集
行业研究:国产6大CPU全对比
龙芯LoongArch指令集全集
RISC-V芯片产业指令集架构研究
服务器研究框架合集
异构芯片研究框架合集
芯片技术设计和应用汇总
CPU和GPU研究框架合集

《70+篇半导体行业“研究框架”合集》

500+份重磅ChatGPT专业报告
《人工智能AI大模型技术合集》
《56份GPU技术及白皮书汇总》


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • OTA即空中下载技术(Over-the-Air Technology),它指的是通过网络从远程云服务器下载软件更新包,对终端系统进行更新升级的一种技术。 OTA技术在汽车领域被广泛应用,它能够远程升级车辆的软件和固件,从而优化车辆性能、修复系统漏洞、增加新功能,提升消费者的用车体验。同时,OTA技术也存在于智能手机、物联网设备等多个领域,为各种设备的持续升级和维护提供了极大的便利性。Sub-G OTA 是面向Sub-G Mesh协议产品开发的一种空中下载技术(Over-the-Air Tech
    丙丁先生 2024-06-19 11:06 39浏览
  • 一 . 引言在当今快速发展的汽车行业中,车载以太网正逐步成为推动汽车智能化、网联化浪潮的核心技术之一。作为传统以太网技术在汽车领域的创新应用,车载以太网不仅继承了以太网的开放性、成熟性和互操作性,还针对车辆特有的环境和需求进行了优化与定制,为车载内部的复杂数据传输提供了高速、可靠、低延迟的通信平台。在复杂的车载网络拓扑中,主机间通信最初只知道目标设备的IP地址,那如何获取目标设备的MAC地址呢,这就不得不提到一个关键协议——ARP协议。二.ARP概念ARP协议(Address Resoluti
    北汇信息 2024-06-18 10:29 83浏览
  • 方式2:SDKAPI 接口兼容 OpenAI 的 Python SDK,只需要简单配置即可使用。安装 OpenAI SDK。请确保使用的 Python 版本至少为 3.7.1,OpenAI SDK 版本不低于 1.0.0。以下是我花了一天终于调通的:PS D:\> python - vPython 3.12.4 (tags/v3.12.4:8e8a4ba, Jun  6 2024, 19:30:16) [MSC v.1940 64 bit (AMD64)] on win32Type "
    丙丁先生 2024-06-17 21:12 108浏览
  •    作者介绍在上期文章中我们介绍了ADC静态参数测试的“测试适用性”和“硬件准备”,今天将为您介绍测试的“软件配置”以及“开始测试和查看结果”的内容。阅读完本文,您将深入了解德思特ATX测试系统的强大功能和简便操作,确保您的ADC性能测试既准确又高效。一、软件配置软件配置分为上位机与下位机两个部分。下位机软件已经预装在德思特ATX测试系统的嵌入式计算机内,确保了即开即用的便利性。用户仅需连接电源线和网线,按下开机按钮,系统便会自动执行程序的启动、硬件上电自检和初始
    虹科测试测量TM 2024-06-17 17:47 113浏览
  • 激光激发3D视觉感知,细腻勾画工业自动化版图的智能经纬,引领科技与效率的和谐共鸣。在现代智能化的浪潮中,工业机器人已成为推动产业升级、提升作业效率的关键力量。它们穿梭于繁忙的生产线乃至复杂的仓储空间,执行着从精密装配到大规模物流搬运的多样化任务。然而,这些无人勇士在追求高效运作的同时,面临着一个核心挑战——如何在纷繁复杂的环境中精准识别并有效规避障碍物,确保任务的顺利完成及周边安全。这就凸显了机器人避障技术的重要性:它是机器人自主导航的灵魂,是决定机器人能否在真实世界中安全、灵活作业的基石。1、
    艾迈斯欧司朗 2024-06-18 17:35 52浏览
  • 二代SiPM测试板的能谱及2Dmap测试1概述 二代SiPM板子经过硬件检测后,电子信号基本达到要求,接下来一项很关键的测试任务就是2Dmap测试。该测试在验证硬件电路功能外,还可以验证后级FPGA逻辑功能,尽管逻辑功能继承于上一代PMT系统,但是SiPM系统相关逻辑功能需要进行调整,已完成的逻辑是否符合要求需要进行实测。实测逻辑功能外,还需要将对应的Labview以及C++测试程序进行验证。二代SiPM读出测试系统验证能谱 后级数字系统对SiPM读出测试板输出的模拟进行数字化转换,然后对采集到
    coyoo 2024-06-19 10:46 51浏览
  • “我们自己就是自己人生的记者”这句话,是对个体在人生历程中的主动性与创造性的一种肯定。它意味着每个人都是自己人生故事的记录者和叙述者,强调了个人在塑造自己的人生经历中的主导作用。下面通过几点来探讨这句话的深意及其对个人发展的启示: 一、主动记录与反思 - 自我观察:作为自己人生的记者,我们可以通过日记、社交媒体等形式记录下每天的生活点滴和心情变化。 - 反思总结:定期回顾和反思这些记录,有助于我们从经验中学习,对自己的行为和决策进行评价。 二、构建人生叙事 - 故事化表达:将个人经历编织
    丙丁先生 2024-06-19 05:25 57浏览
  • 2024年6月18日 调研咨询机构环洋市场咨询出版的《2024年全球市场18650锂电池总体规模、主要生产商、主要地区、产品和应用细分研究报告》只要分析全球18650锂电池总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2019至2023年,预测数据为2024至2030年。 据GIR (Global I
    GIRtina 2024-06-18 10:53 72浏览
  • 有人说,2024年是全球经济的“分化年”,也是中国经济突围的“关键年”。当前,我国经济恢复仍处在关键阶段,长期向好的基本趋势没有改变,但也需要克服一些挑战,而巩固和增强经济复苏的良好势头,离不开政策的有效衔接、接续发力。近期,财政政策和货币政策相继实施,其中两项备受关注。一是,超长期特别国债发行,一经上市就被抢购,可谓“一券难求”。5月13日,财政部公布了2024年一般国债、超长期特别国债发行有关安排。截至6月17日,超长期特别国债已完成两期发行,共发行800亿元。二是,央行在二级市场开展国债买
    刘旷 2024-06-18 10:27 68浏览
  • /python-3.8.6-embed-amd64.zip是一个Python的嵌入版本,通常以压缩包形式提供,用户需要手动解压并配置环境,而镜像则通常是指用于部署或存储的完整系统或应用的副本,它们在用途、安装过程以及配置方式等方面存在区别。以下是具体分析: 1. 用途   - /python-3.8.6-embed-amd64.zip:这个嵌入版本的Python主要用于轻量级的应用或集成到其他系统中,无需安装直接解压即可使用,常用于携带式应用或嵌入式系统开发。  
    丙丁先生 2024-06-17 12:40 117浏览
  • 注意事项 ☆:请使用原装配件,请不要尝试打开仪表或进行改装。分选仪供电工作电压是DC:5V:严禁输入高于5.5V电压!分选仪量程:0.5-9.999V:请 勿 超 量 程 测 试!如果需要打开底部的支架,请先按住支架上半部分固定部位再打开。分选仪测试时区分正负极,正负极接反不会开启测试。一:概述VT-10S+ 电压分选仪是一款专门测试电压的仪表,其测试速度超快、精度高、并能设置范围,声光报警提示。通过测得电压值来快速判断和筛选电池的优劣状态。测试效率高,操作简便,大大节省了人工和生产成
    hongda123 2024-06-18 20:04 56浏览
  • 一、设计思想设计一个交流信号的检测装置,对输入进行前期处理,经过A/D采样后数模转换,将测量结果显示出来,并具有一定的测量辅助及扩展功能。设计分别采用了LM324运算放大器进行信号放大,把被测输入正弦波信号最小幅度为有效值10毫伏,频率为100HZ~10KHZ的正弦信号通过两级放大,放大成接近2伏但不超过2伏的正弦信号。然后,分为两支。一支接LM2903比较器以地为零点进行过零比较,输出数字信号接相应的FPGA用以测量频率。另一支接峰值保持电路用来保证采样到波形的最大值,再接数模转换器转换成模拟
    wonharvey 2024-06-19 10:06 62浏览
  • 目前常用的微波、毫米波EDA软件有Microwave Office, ANSYS HFSS, Keysight ADS, Cadence, Sonnet。国外这几款主要的EDA软件也没有内置强大的实景负载 牵引测试及优化功能。但是通用EDA仿真软件有一定的局限性,在研制微波毫米波芯片、模块及系统过程中, 如仅采用通用EDA软件,则存在一些问题,具体难点有以下几点;难点一、最优点的确定输入、输出阻抗均为复数,无法在Smith圆图上的成千上万个复数点中找到产品需要的最优点,传统方法均借助软件仿真或有
    Bluetecmws 2024-06-18 15:44 90浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦