Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等,通过自动化管理和部分容错机制,仍然保持了较高的训练效率,达到90%以上的有效训练时间。

尽管AI大模型参数量不断增加,其性能也在不断提升,但AI训练过程中的故障率随之大幅增长。近日,Meta发布的一份研究报告显示,其在训练其4050亿参数的Llama 3模型过程中遇到了频繁的故障。而这些故障主要发生在其使用的16384个英伟达H100显卡集群上。

在为期54天的预训练中,共出现了466次工作中断,其中47次是计划中断,419次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。GPU问题是导致故障的主要原因,占意外中断的58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。

数据显示,用于训练Llama 3的16384个英伟达H100显卡集群在54天内出现了419次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

在这419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVlink故障)引起的,而72个(17.2%)是由GPU的HBM3内存故障引起的。54天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

尽管这些问题对整个训练过程产生了显著影响,但通过自动化管理和部分容错机制,仍然保持了较高的训练效率,达到90%以上的有效训练时间。

具体而言,Meta团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用PyTorch的NCCL飞行记录器诊断性能问题、识别拖后显卡等。同时,Meta还重视环境因素的影响,如午间温度波动对GPU性能的轻微影响,以及巨量GPU同时运行对数据中心电网的巨大压力。

据悉,Llama 3模型在代码生成、长文本处理、以及特定的基准测试(如MMLU、HumanEval和GSM-8K)中表现优异,并且通过其架构优化和对效率及可访问性的重视,在与GPT-4的竞争中展现出独特的优势。

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
新成立的人工智能(AI)部门的软件工程师平均总薪酬高达377,611美元(年薪,下同),约合人民币269.3万元,这一数字至少比其他部门的平均水平高出12万美元。
这些员工在权限被关闭前仍在正常工作,甚至有人处于加班状态。突然之间,他们就被从通讯软件的产品群组中移除,无法通过 VPN登录公司内网……
在强化人工智能基础设施建设方面,哈尔滨建设绿色低成本人工智能超算中心,具有明显的地理位置和天然气候优势。目前,黑龙江省及哈尔滨市出台了多项政策,支持数字经济的发展,并给予新建或扩建智算中心的算力基础设施补贴。
黄仁勋、Mark Zuckerberg在前不久的SIGGRAPH上大谈了一番AI技术的价值。似乎SIGGRAPH已经很大程度被AI给占领了,这可是个图形技术顶会,这种趋势从去年就开始了...
据报道,被亚马逊投资了40亿美元的人工智能初创公司Anthropic,在加州联邦法院遭到集体诉讼,被指控侵犯版权。
这次收购将有助于加速AMD Instinct系列AI数据中心芯片的采用,并进一步强化其在云计算和人工智能硬件方面的布局。
在2024年RISC-V中国峰会上,Imagination Technologies展示了其RISC-V CPU+GPU集成优化平台,并就如何利用系统性创新加速RISC-V CPU的采用和普及、借助GPU在智能化时代加速RISC-V CPU的落地和产业化、以及在汽车应用中发挥RISC-V架构的优势等话题发表了演讲。
本篇文章是SmartDV数字芯片设计经验分享系列文章的第三篇,将继续分享第五、第六主题,包括确保在FPGA上实现所需的性能和时钟两个方面的考量因素。
2024年8月19日,德国黑森州新伊森堡报道——艾睿电子开发并推出了全新资源中心,目标旨在推动电动汽车充电技术的发展。艾睿电子进一步扩充其技术资源库,助力工程师开发下一代电动汽车充电器以及相应的软件生态系统。资源中心为三种电动汽车充电器提供设计和技术上的支持:车载充电器、交流充电器和直流(或快速)充电器。
贸泽电子 (Mouser Electronics)宣布将于8月28-30日首次亮相IOTE 2024第二十二届国际物联网展(展位号:10号馆 10B9号展位)。届时,贸泽电子将联合国际知名厂商Amphenol, Silicon Labs等聚焦AI、智能家居、可穿戴、物联网、边缘计算、智慧城市建设、电源管理等一系列热门技术与应用话题。
点击上方蓝字谈思实验室获取更多汽车网络安全资讯8月26日,第一财经记者从IBM中国方面确认,IBM将彻底关闭中国研发部门,涉及员工数量超过1000人。此次研发部门关闭涉及的业务线主要有两条,一个是 I
点击上方蓝字谈思实验室获取更多汽车网络安全资讯AutoSec 2024第八届中国汽车网络安全周9月3日-4日9月3日-4日,「AutoSec 2024第八届中国汽车网络安全周暨第五届智能汽车数据安全展
 今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----class Pers
尊敬的储能领域精英们: 在能源转型的浪潮中,储能技术作为连接可再生能源与稳定供应的桥梁,正以前所未有的速度发展。第三届EESA储能展,作为汇聚全球储能智慧与创新成果的高端平台,将于2024
本文来源:司南导航~END~一键三连,这次一定!
8 月 26 日消息,众泰汽车股份有限公司 8 月 22 日发布关于副总裁辞职公告。公告显示,众泰汽车董事会于近日收到公司副总裁王磊提交的书面辞职报告,王磊因个人原因申请辞去公司副总裁职务,其辞职报告
 今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:光行天下申明:
要奋斗,也要远方要工作,也要享受今年八月,炎热酷暑凡亿邀你一起开启漂流、烧烤的回忆来开启2024年凡亿团建之旅吧!2024年凡亿集团旅行记录     为丰富员工业余生活,开拓员工视野,增强团队的凝聚力
第二届安富利汽车生态圈峰会(AAES2024)首站苏州站将于明日(8月27日)在苏州凯悦酒店举办。安富利将携手多家合作伙伴,并特邀上技国际作为协办单位,发挥其在跨境技术交易方面的功能优势,共同围绕“驭
点击蓝字 关注我们SUBSCRIBE to USISTOCK人工神经网络(https://spectrum.ieee.org/what-is-deep-learning)——受生物大脑启发的算法——是