华为此次开源行动不仅体现了其在推动人工智能技术发展方面的承诺,也展示了其对构建开放、协作的AI生态系统的重视。

6月30日,华为宣布正式开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及基于昇腾的模型推理技术。此次开源覆盖 “模型架构 - 推理引擎 - 硬件适配” 全链条,是华为践行昇腾生态战略的关键一步,旨在推动大模型技术的研究与创新,加速人工智能在各行各业的应用与价值创造。

根据华为官网信息,盘古Pro MoE 72B模型的权重和基础推理代码已正式在开源平台上线。该模型采用分组混合专家(MoGE)架构,通过分组均衡路由技术,确保跨设备的计算负载均衡,解决了传统混合专家模型(MoE)中专家激活频次不均衡的问题。

在昇腾300I Duo和800I A2硬件平台上,盘古Pro MoE 72B模型实现了更优的专家负载分布与计算效率,推理速度分别达到321 tokens/s和1528 tokens/s。此外,该模型在SuperCLUE等权威评测中表现出色,以72B参数量达到了59分,与千亿参数级别的模型并列国内第一,展现出强大的综合能力。

华为还开源了基于昇腾的超大规模MoE模型推理代码。昇腾平台专为人工智能计算设计,具备强大的并行计算能力和高效的能源利用率,能够为大规模模型的推理提供强大的支持。通过深度融合昇腾硬件的特性,盘古模型在推理效率和性能方面得到了显著提升。

盘古模型的技术背景与研究进展

华为诺亚方舟实验室在大模型领域不断探索创新。此前,该团队成功开发了基于昇腾算力训练的千亿级通用语言大模型Pangu Ultra,并在多个领域和评测中取得了优异的成绩。

在模型架构、训练策略、系统优化等方面,华为的研究团队提出了一系列创新技术,如Depth-scaled Sandwich-Norm(DSSN)、TinyInit初始化方法等,有效提升了模型的训练稳定性和性能。

在模型训练方面,Pangu Ultra采用分阶段预训练策略,涵盖了通用能力训练、推理能力增训和退火阶段,确保模型能够全面学习和掌握不同类型的知识和技能。此外,针对长序列训练和后训练优化,研究团队也进行了深入的研究和实践,进一步提升了模型的能力。

开源的意义

据悉,盘古7B模型的相关权重与推理代码也将于近期上线开源平台。这款模型以其较小的参数规模和高效的推理能力,适用于多种应用场景,能够为开发者和企业提供灵活的选择。

华为此次开源行动不仅体现了其在推动人工智能技术发展方面的承诺,也展示了其对构建开放、协作的AI生态系统的重视。通过开源盘古模型及其相关技术,华为诚邀全球开发者、企业伙伴及研究人员下载使用,并反馈使用意见,共同完善模型,推动技术进步。

相关内容可访问:https://gitcode.com/ascend-tribe

责编:Luffy
阅读全文,请先
您可能感兴趣
作为一种基于硅桥的2.5D封装技术,EMIB是颇具代表性的;最近Intel也更新了迭代版的EMIB-T,适配HBM4/4e。这次我们尝试更细致地看看这项技术。
北京大学研究团队日前宣布在智能计算硬件方面取得领先突破——国际上首次实现了基于存算一体技术的高效排序硬件架构,解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题。
未来,英特尔能否通过14A工艺赢得大客户的订单,并在AI和数据中心市场与英伟达等竞争对手抗衡,将是其战略调整成功与否的关键。
SEMI预测到2030年,全球半导体行业将需要额外招聘约100万名具备专业技能的员工,其中至少需要补充10万名中层管理者和1万名高层领导人。
特斯拉此次无人驾驶交付的实现,标志着其在自动驾驶技术上的重要进展,但同时也面临着技术、法律和市场接受度等多方面的挑战。
机器人、Physical AI是现在科技领域的大热点,但它的落地似乎始终缺块拼图…
当传统生产工艺与智能数据采集相结合时,AI 与全维度数字孪生技术将成为实现下一代数据驱动型制造的核心推动力。
能量收集并不是一个时兴的名词,但是物联网技术的进步以及诸如Silicon Labs的物联网产品以及开发套件,使能量收集技术的应用也变得更加的实际和广阔。
人工智能(AI)已不再仅仅是一项高性能计算任务,它已成为推动边缘AI片上系统(SoC)设计的主要动力。从智能手机和摄像头,到工业自动化与自动驾驶汽车,AI正在日益塑造现代SoC的架构。这
用于电动汽车供电网络(PDN)的高压母线转换器 48 V电源模块
《中国电化学储能产业传感器发展蓝皮书》(下文简称“蓝皮书”)是我国唯一一部专业和系统化梳理传感器产品技术在电化学储能领域应用和发展的蓝皮书。本书由中国传感器与物联网产业联盟主导编写,汇集了一批储能产业
点击上方“泰克科技” 关注我们!将脉冲技术引入先进CMOS技术的可靠性测试在氮化镓和碳化硅之后,氧化镓(Ga₂O₃)正以超高击穿电压与低成本潜力,推动超宽禁带功率器件进入大规模落地阶段。但在
01直接驱动首先说一下电源IC直接驱动,下图是我们最常用的直接驱动方式,在这类方式中,我们由于驱动电路未做过多处理,因此我们进行PCB   LAYOUT时要尽量进行优化。如缩短IC至MOSF
在PCB设计中,导入叠层模板能够确保设计的标准化和规范化,避免因手动设置叠层参数而可能出现的错误或不一致情况。通过使用预先定义好的叠层模板,设计人员可以快速地应用经过验证的叠层结构,从而节省大量的时间
(广告分割线)7月4日,博敏电子在投资者互动平台表示,公司深耕汽车电子领域多年,拥有丰富的汽车PCB产品线,产品主要应用于信息采集、娱乐互联、智能驾驶、电子传感、智能座舱、动力电驱、车身电子等模块,覆
本文来源:智能通信定位圈去年年底,蓝牙技术联盟(SIG)宣布推出蓝牙6.0版本,引入了一项名为蓝牙信道探测(Channel Sounding,CS)的新功能。该功能通过精确计算两个设备之间的距离,实现
扫描文末二维码,加入半导体交流群今日,北京屹唐半导体科技股份有限公司(以下简称“屹唐股份”)正式在科创板挂牌上市,股票代码为 688729.SH。作为国内半导体设备行业的领军企业,屹唐股份的
限时狂欢:7月9日 - 7月18日这个暑假,不虚度!凡亿教育开启【暑假技能充电季】超级活动——降价+赠礼+满减券,助你技能满格,职场领先一步!凡亿教育暑期专属福利正式开启!福利1:满减神券,立减更划算
来源:传感器专家网编辑:感知芯视界 Link随着汽车电子、工业电子和消费电子等产业的快速发展,对各类传感器的设计和优化提出了越来越高的要求。传感器日益呈现微型化、智能化和集成化趋势,使得工程人员必须全
(广告分割线)美国对等关税政策即将出炉细节与后续,台湾电路板协会(TPCA)理事长暨燿华董事长张元铭7月7日受访时强调,这项政策对景气影响很大,从产业来看,目前第3季初步看来仍是旺季,预期低轨卫星、服