昇腾910AI芯片技术全面概述

原创 智能计算芯世界 2025-05-19 07:53
图片
本文所有资料都已上传至智能计算芯知识”星球。如《60+份AI Agent技术报告合集》”,“《清华大学:DeepSeek报告13部曲合集》”,“浙江大学:DeepSeek技术20篇(合集)”,“300+份DeepSeek技术报告合集”,“《100+份AI芯片技术修炼合集》”,“800+份重磅ChatGPT专业报告”,“《12+份Manus技术报告合集》,加入星球获取严选精华技术报告。

华为昇腾910(Ascend 910)是华为基于自研达芬奇(Da Vinci)架构开发的高性能AI处理器,采用7nm+ EUV先进制程工艺,专为人工智能训练场景设计。作为Ascend-Max系列旗舰产品,昇腾910在半精度(FP16)下提供256 Tera-FLOPS算力,整数精度(INT8)算力高达512 Tera-OPS,同时功耗控制在310W,能效比显著优于业界同类产品

本文介绍昇腾910的技术架构、关键参数、性能表现及配套软件生态,为AI开发者提供参考。

1. 产品概述

1.1 产品定位

昇腾910是华为全栈全场景AI解决方案的核心算力基础,主要面向:

  • 数据中心AI训练场景

  • 大规模分布式训练系统

  • 高性能计算(HPC)与深度学习融合应用

  • 云服务AI加速平台

1.2 关键特性

  • 超高计算密度:单芯片集成32个达芬奇核心,FP16算力256 TFLOPS

  • 卓越能效比:实测功耗310W,低于设计规格350W

  • 全场景支持:与MindSpore框架深度协同,支持端-边-云统一架构

  • 先进制程:7nm+ EUV工艺实现更高晶体管密度

  • 安全可信:内置模型保护机制,支持隐私计算

2. 技术规格

2.1 硬件参数

参数类别规格详情
架构
达芬奇架构(Da Vinci)
制程工艺
7nm+ EUV
计算精度
FP16: 256 TFLOPS / INT8: 512 TOPS
核心数量
32个达芬奇核心
功耗
设计值350W,实测310W
视频解码
128通道全高清(H.264/265)解码器
互联接口
HCCS(240Gbps)、PCIe、RoCE
封装尺寸
待补充

表:昇腾910关键硬件规格

2.2 计算架构

昇腾910采用创新的达芬奇3D Cube架构,核心计算单元包括:

  1. 3D Cube矩阵乘法单元

  • 单周期完成4096次乘加运算

  • 相比CPU/GPU有两个数量级的提升

  • 32个Cube引擎并行工作,提供256TFLOPS算力

  • 向量计算单元(Vector)

    • 支持丰富的定制计算指令

    • 处理非矩阵类运算任务

    • 覆盖各种基本计算类型

  • 标量计算单元(Scalar)

    • 功能相当于精简CPU核

    • 负责程序流控制、分支判断

    • 处理基础算术运算

    这种异构计算架构实现了计算任务的高效分工,使昇腾910能够自主完成整个AI训练流程,最小化与Host的交互

    3. 性能表现

    3.1 基准测试

    在典型AI训练任务中,昇腾910表现出色:

    • ResNet50训练:与主流训练单卡+TensorFlow相比,性能提升近2倍(图片处理从965张/秒提升至1802张/秒)

    • 算力效率:实际算力完全达到设计规格,功耗低于预期

    • 计算密度:远超NVIDIA Tesla V100和Google TPU v3

    3.2 集群性能

    华为基于昇腾910构建的Ascend集群

    • 单集群包含1024颗昇腾910

    • 总算力达到256P(Peta-FLOPS)

    • 大幅超越NVIDIA DGX2和Google TPU集群性能

    4. 软件生态

    4.1 全场景AI框架

    昇腾910与华为自研的MindSpore框架深度协同,提供:

    • 开发效率提升:核心代码量减少20%,整体效率提升50%

    • 自动微分:采用Source 2 Source方式实现,优于传统图优化方法

    • 分布式训练:自动实现多机混合并行,无需手动切分模型

    • 隐私保护:通过梯度/模型信息协同而非原始数据传递

    4.2 算子库与工具链

    • CANN算子库:提供高性能AI算子,开发效率提升3倍

    • TensorEngine:统一DSL接口,支持自动算子优化与生成

    • ModelArts:机器学习PaaS平台,日均训练作业超4000个

    5. 应用场景

    昇腾910适用于多种AI计算场景:

    1. 大规模模型训练

    • 支持千亿参数级模型训练

    • 适合NLP、CV等前沿AI研究

  • 云端AI服务

    • 华为云EI服务基础算力

    • 提供59种AI服务、159项功能

  • 行业智能

    • 医疗影像分析

    • 金融风控建模

    • 工业质检等专业领域

  • 科学计算

    • 分子动力学模拟

    • 气候预测等HPC场景

    6. 产品路线图

    1. 第一代昇腾(2018-2020)

    • 昇腾310:面向边缘推理场景,采用12nm工艺,INT8算力16 TOPS,功耗8W,主打低延迟推理(如摄像头、车载设备)

    • 昇腾910:首款数据中心级训练芯片,7nm工艺,FP16算力256 TFLOPS,功耗310W,支持华为全栈AI生态(MindSpore、ModelArts)

    2. 第二代昇腾(2021-2023)

    • 昇腾910B:7nm+ EUV工艺优化,FP16算力提升至376 TFLOPS,支持更高效的大模型训练,适配华为云昇腾AI云服务

    • 昇腾310B:边缘端升级版,支持多模态推理(视觉、语音),集成轻量级MindSpore Lite框架。

    3. 第三代昇腾(2024-2025)

    • 昇腾910C:用于CloudMatrix 384超节点集群,单节点集成384颗芯片,支持万亿参数大模型训练,显存带宽优化至3TB/s以上

    • 昇腾320:面向边缘计算的下一代芯片,5nm工艺,能效比提升50%,支持端-边-云协同推理

    4. 未来规划(2026+)

    • 昇腾920:预计采用3nm工艺,FP16算力目标突破1 PFLOPS,支持FP8精度和动态稀疏计算,适配MoE架构大模型

    2025年推出CloudMatrix 384超节点集群,基于昇腾910C芯片,单集群算力达百P级(Peta-FLOPS),支持30天不间断训练,故障恢复时间<10分钟;用于DeepSeek等千亿级大模型训练、多模态长序列处理。

    7. 技术优势总结

    1. 算力领先:FP16算力256 TFLOPS,超越同期竞品50-100%

    2. 能效优异:310W实际功耗,能效比达业界最佳水平两倍

    3. 架构创新:3D Cube设计实现超高计算密度

    4. 全栈协同:与MindSpore深度优化,发挥硬件最大潜能

    5. 场景覆盖:支持从云端到边缘的全场景AI部署

    8. 术语介绍&解释

    8.1 术语表

    • 达芬奇架构:华为自研的异构AI计算架构

    • 3D Cube:专为矩阵运算优化的三维计算单元

    • MindSpore:华为全场景AI计算框架

    • CANN:华为AI算子库

    8.2 测试环境

    • 测试平台:华为Atlas 900 AI训练集群

    • 对比系统:NVIDIA DGX-2 with Tesla V100

    • 基准模型:ResNet50、Transformer等

    下载链接:

    重磅合集
    1、《70+篇半导体行业“研究框架”合集》
    2、《56+份智能网卡和DPU合集
    3、《14份半导体“AI的iPhone时刻”系列合集》
    4、《21份走进“芯”时代系列深度报告合集》
    5、800+份重磅ChatGPT专业报告
    6、《92份GPU技术及白皮书汇总》
    7、《11+份AI的裂变时刻系列报告》

    8、《3+份技术系列基础知识详解(星球版)》

    9、《12+份Manus技术报告合集》

    10、《100+份AI芯片修炼合集》

    11、《60+份AI Agent技术报告合集》 

    《100+份AI芯片技术修炼合集》

    《300+份DeepSeek技术报告合集》

    《42篇半导体行业深度报告&图谱(合集)

    亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势

    SSD闪存技术基础知识全解(知识星球版)
    服务器基础知识全解(知识星球版)
    存储系统基础知识全解(知识星球版)
    2025新技术前瞻专题系列合集
    《科技龙头巡礼专题:华为技术合集》

    本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。


    图片

    免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



    温馨提示:

    请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


    图片
    图片

    智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
    评论
    • 中国汽车市场以年均超 3000 万辆的销量规模(占全球 1/3以上),正推动安全标准从被动防护向主动预防转型。2024 年 7 月实施的 C-NCAP ( China New Car Assessment Program)修订版首次将驾驶员监控系统(DMS)、道路特征识别(RFR)纳入评分体系,其中 DMS 占主动安全分值 40%(总分 2 分),检测准确率需≥90%。这一变革不仅响应工信部 GB/T 41796-2022 等三项国家标准要求,更标志着中国
      康谋 2025-06-18 10:25 998浏览
    • 一、应用背景:为什么需要图像批量加水印?在电商、媒体和内容创作领域,加水印是保护图片版权的基本手段。防止盗图、转载、抄袭给公司 logo、作者信息、网址打标识批量图片一次性处理,提升效率如果每天需要对几十、上百张图片加水印,使用 PS 或手工拖拽会非常繁琐。Python 可以:✅ 一键批量加水印✅ 支持透明度、字体、颜色设置✅ 自定义水印位置与旋转角度✅ 批量输出为 JPEG、PNG 等格式二、准备工作与开发环境1. 安装核心图像处理库 Pillowbash复制编辑pip install pil
      小菜菜编程 2025-06-19 07:26 2463浏览
    • 作为自然界最敏锐的“通用语言”之一,从破土而出的植物新芽到钢铁熔炉中的炽热火焰,温度一直都在无声地影响着万物运行的节奏,它不仅是农业播种与收获、牧业养殖与繁育、工业材料加工与产品制造等领域的关键生产因素之一,更是所有地球生物赖以生存的重要气候参数。因此,如何更好地“读懂”温度已成为各行各业实现提质增效的重要突破点之一,而数字温度传感器就是人类通过发展物联网技术让温度实现快速“说话”的重要途径。数字温度传感器是一种能直接输出数字信号的传感器,具有微型化、易集成、低功耗与高精度等优势,已被广泛应用于
      华普微HOPERF 2025-06-19 09:39 2987浏览
    • Micro-OLED显示技术具有高刷新率、高亮度低功耗、小体积等特点,是微显示领域的优选方案。针对Micro-OLED CVBS显示驱动需求,上海冠显(TDO)设计的驱动方案,实现CVBS信号到Micro-OLED显示屏的稳定转换和显示控制,将满足行业对高质量、高性能显示解决方案的迫切需求,为XR、军工、工业及医疗等应用领域提供更优质的视觉体验。方案架构 显示屏驱动板TV103F1CSFS01 是TDO自主开发的单目硅基 OLED 显示屏驱动板,以 SH1.0连接器为 CVB
      冠显光电MicroOLED代理视涯 2025-06-18 16:32 2437浏览
    • 在竞争白热化的智能汽车赛道,深蓝汽车近期因一系列“迷之操作”,被舆论的熊熊烈火炙烤得焦头烂额。事情起因是,大量深蓝汽车老车主公开吐槽称,深蓝汽车在没经过车主同意的情况下在车机大屏幕投放广告。为此,深蓝汽车及其CEO邓承浩发文道歉,并表示:内部已进行了流程优化,未来将不再通过车机通道给用户推送权益提醒。不过,道歉后深蓝汽车对用户隐私条例进行了更新,主要新增了用户数据采集,如果用户不同意更新,则只能以游客身份访问App。所以又有网友辣评,“这是要强行让大家同意看广告?”对此,深蓝汽车法务部发文回应:
      用户1742991715177 2025-06-17 18:21 921浏览
    • 在RoCE v2协议中,RoCE v2队列是数据传输的最底层控制机制,其由工作队列(WQ)和完成队列(CQ)共同组成。其中工作队列采用双向通道设计,包含用于存储即将发送数据的发送队列(SQ)和用于存储已接收到的数据的接收队列(RQ),二者共同组成了端到端的数据传输管道(Pipeline)每一个SQ与RQ绑定起来称为队列对(QP),每个队列对中包含有若干个工作队列元素(WQE)和一些其他元素如本地接收队列指针、本地发送队列指针、远程接收队列指针、远程发送队列指针等。同样的,每一个CQ中也存在着若干
      zzbwx_326664406 2025-06-18 11:49 852浏览
    • 概述在工业自动化领域,PLC(可编程逻辑控制器)是生产过程的核心,其性能直接影响系统的稳定性和效率。然而,在多主站应用场景下,传统PLC往往面临诸多挑战,如协议兼容性不足、扩展性受限以及高昂的License费用,这些都增加了系统部署的复杂性和成本。宏集Berghof PLC基于CODESYS平台,凭借其强大的多主站支持能力和灵活的License选项,为工业控制提供了高效、灵活且经济的解决方案,助力企业优化自动化系统架构。传统PLC多主站应用的挑战在许多自动化应用中,设备需要同时支持多个通信主站,
      宏集科技 2025-06-19 10:58 1429浏览
    • 概述相关API函数举例:定时发送一个事件总结概述ESP32有一组外设--定时器组。它可以选择不同的时钟源和分配系数。该定时器应用灵活,超时报警可以自动更新计数值。相关API函数1.定时器配置结构体typedefstruct { gptimer_clock_source_tclk_src; /* 定时器时钟源,在clk_tree_defs.h中有个枚举soc_periph_gptimer_clk_src_t */ gptimer_count_direction_tdirection;
      二月半 2025-06-17 16:39 14922浏览
    • 文/Leon编辑/cc孙聪颖6月9日,美团在北京美团总部恒电大厦举行股东周年大会,美团创始人、CEO王兴携一众高管出席。在回答股东问题的环节,王兴谈及与京东、淘宝闪购的竞争时表示:“第一,我们非常欢迎更多参与者入场的;第二,再次重申美团是坚决反对内卷的;第三,我们对长期是很有信心的。”然而,据自媒体《划重点》公开报道称,有参会股东透露,疑似提前安排好的问题和管理层全程读稿式的回答令部分现场股东感到不满。在会议结束后,现场股东将负责市场和投资的副总裁徐思嘉围了起来,在小会议室继续沟通了半个小时。不
      华尔街科技眼 2025-06-17 19:11 1053浏览
    • 随着智慧居家中与智能家电快速发展,各类产品纷纷透过无线技术和行动软件(APP)实现更智能的服务,让原本单一功能的产品,逐步进化变身为多功能且提供人性化功能的智能家电。本篇的主角-智慧居家门铃(Doorbell),正是其中具代表的应用之一。智能门铃整合了传统门铃与对讲机功能,再加上摄影机的功能,进而成为新世代的智能产品!用户可以透过镜头,立即看到来访者并进行对话。更进阶的应用则是结合高分辨率的摄影机、无线连线与APP整合,让用户不再经由传统有线线路,即可远程实时了解门外的一切状况。实测案例本次案例
      百佳泰测试实验室 2025-06-19 13:42 1635浏览
    • 当数千伏工业电机快速启停时、当高速充电桩断电恢复时、当光伏逆变器遭遇雷击时,高压侧电路可能会因电感电流突变或浪涌耦合,产生幅值达母线电压数倍的电压尖峰。而在缺乏有效电气隔离措施或在寄生电容耦合作用的情况下,这些电压尖峰会迅速传导至低压侧电路,瞬间击穿MCU、传感器等敏感元器件,严重时还会威胁到操作人员的生命安全。因此,在现代电力电子系统的高低压电路之间引入隔离芯片,建立安全可靠的电气隔离屏障,已成多项安全标准与通用规范中的明确要求与刚性规定。其不仅能防止高压浪涌、短路漏电等不良现象损坏敏感元器件
      华普微HOPERF 2025-06-18 15:52 2498浏览
    • 一、项目背景与应用场景文件重命名在日常办公与设计领域极为常见:批量图片重命名(IMG001 → 产品01)批量 Word、PDF 改名(合同_张三 → 合同_2024张三)视频、音频素材整理命名规范化手工处理耗时、容易出错,而 Python 可助力一键处理,还能提供可视化界面!因此本篇文章将手把手带你使用 Python 的 Tkinter 模块开发一个功能完整的“批量重命名”桌面工具,附图演示界面效果。二、项目准备1. 安装环境Tkinter 是 Python 标准库,无需单独安装:bash复制
      小菜菜编程 2025-06-18 05:58 15581浏览
    我要评论
    0
    点击右上角,分享到朋友圈 我知道啦
    请使用浏览器分享功能 我知道啦