一文了解NPU

电子工程世界 2024-08-13 07:01

▲ 点击上方蓝字关注我们,不错过任何一篇干货文章!


2024年上半年,PC市场迎来了难得的回暖。根据IDC的数据,包括台式机、笔记本电脑和工作站在内的设备,第二季度总出货量达到了6490万台,同比增长3%,增速为第一季度的两倍,实现回暖的其中一个关键因素就是AI PC的大热。
何为AI PC?英特尔CEO帕特 基辛格给出的答案是:能够玩转AI功能的PC,可通过云与PC的紧密协作,或在电脑端独立运行大语言模型,进而从根本上改变、重塑PC的用户体验,释放人们的生产力和创造力。
在当前AI PC浪潮下,NPU成为重要关键字,NPU与CPU、GPU有哪些不同?各科技大厂目前在NPU领域发展如何?
在挑选电脑时,一些消费者会比较各机种的CPU拥有多少个核心,对于电玩游戏较讲究的,则偏好搭载GPU的机型,以追求更精致的视觉效果、更流畅的操作体验。

随着今年迈入“AI PC元年”,各笔记本电脑厂相继推出自家的AI PC,而厂商在介绍产品效能时,不时会提到“NPU”一词。究竟NPU是什么,和CPU、GPU有哪些不同?各科技厂目前在NPU发展又是如何?

 都是处理器,到底差在哪?


用比喻来解释CPU、GPU、NPU的差别,可以想像CPU是能力高强的“博士生”,可解决复杂且多样的任务,但只能照顺序一次解决一个问题;GPU是一群“数学系大学生” ,擅长加减乘除,可以同时处理大量的运算工作(平行运算);NPU则是专攻AI运算一技之长的“技职生”,遍布在AI PC、AI手机、智能穿戴等各种装置中。

以下针对CPU、GPU、NPU分别来介绍:

CPU 中央处理器(Central Processing Unit)

CPU被视为是电脑的“大脑”,负责执行作业系统、应用程序运作所需的命令与程序,也是决定程序执行速度的关键,不论是浏览网页或处理文书作业,都会受到CPU效能的影响。

英特尔(Intel)及AMD是生产CPU的领导厂商,根据市调机构Jon Peddie Research报告指出,2024年第一季内建显卡的PC CPU市场,英特尔维持领先地位拿下82%市占率,AMD则是18%。

GPU 图形处理器(Graphics Processing Unit)

自1990年代电玩游戏兴起,由于游戏画面同时要显示成千上万个像素,每个像素又都有自己的色彩、光线强度及移动变化,原为通用运算设计的CPU在运算上变得难以负荷。于是,专长于绘图运算的GPU应运而生。

在硬件架构上,GPU具有数百至数千个算数逻辑单元(Arithmetic Logic Unit,ALU),得以处理众多平行执行的数学运算,加快绘图渲染、影片编码解码等处理,也格外适合执行AI的深度学习演算法,GPU因而在AI浪潮下大放异彩。

NVIDIA是GPU领域的开创者及龙头,1999年发售的“GeForce 256”被誉为“世界上第一款GPU”。2007年,英伟达推出便于GPU加速运算的CUDA软件架构。据研调公司TechInsights分析,英伟达2023年的资料中心GPU出货量市占率高达98%,远超英特尔、AMD等对手。

NPU 神经网络处理器(Neural-network Processing Unit)

GPU扮演资料中心、AI服务器不可或缺的要角,不过边缘运算浪潮下日趋火红的NPU,则是专门为加速服务器的AI运算所打造。

NPU具有两大技术特点:第一个是模拟人类神经网络的运作方式,同样擅长平行运算处理,并适当地分配芯片内的“任务流”,减少闲置的运算资源。

第二个是经由“近存储器运算”(将处理器尽量靠近DRAM,以减少资料的传输延迟以及功率消耗)或“存内运算”(将简单的逻辑运算移至存储器阵列中),实现储存及运算的一体化,降低运算过程的能耗、加快存取速度,从而提升AI运算的执行速度和效率。

相较于CPU及GPU,低功耗、高效能的NPU格外适合处理AI推论任务,包括影像辨识、自然语言处理、物件侦测等应用。

近年,各大PC及手机芯片厂为提升AI运算能力,纷纷在芯片设计中纳入NPU。
 NPU是如何优化神经网络计算的? 

硬件定制化

  • 专用核心:NPU设计有专门为神经网络计算定制的核心,这些核心可以直接执行神经网络中的常见操作,如卷积、矩阵乘法和激活函数。

  • 数据流架构:NPU采用数据流架构,允许数据在网络中流动而不需要CPU介入,减少了数据移动和处理的开销。


并行处理

  • 多核并行:NPU通常具有多个核心,可以同时处理多个数据点或操作,显著提高了计算效率。

  • 向量化和SIMD:NPU利用单指令多数据(SIMD)技术,可以在一个指令周期内处理多个数据,加速了向量和矩阵操作。


存储和带宽优化

  • 高带宽内存:NPU使用高带宽内存来减少数据传输的延迟。

  • 层次化存储:NPU采用层次化存储结构,包括片上缓存和外部存储,以优化数据访问速度。


精度调整

  • 低精度计算:NPU使用低精度(如16位、8位甚至二值)计算,减少数据大小和存储需求,同时加快计算速度。

  • 量化:通过量化技术,将浮点数转换为固定点数,减少计算复杂度和功耗。


算法优化

  • 算法硬化:将神经网络算法的关键部分硬化到硬件中,减少软件层面的计算需求。

  • 剪枝和稀疏性:利用神经网络中的稀疏性,通过剪枝移除不重要的连接,减少计算量。


能效优化

  • 能效比:NPU设计注重能效比,减少能耗,特别适合移动和嵌入式设备。

  • 动态电源管理:NPU可以根据计算需求动态调整电源,进一步降低能耗。


编程和软件支持

  • 专用编译器:NPU通常配备有专用编译器,能够将高级神经网络模型转换为高效的硬件指令。

  • 软件堆栈:提供易于使用的软件堆栈,支持多种神经网络框架和模型。

通过这些优化,NPU能够显著提高神经网络模型的运算速度和效率,降低能耗,尤其适合在资源受限的设备上运行复杂的深度学习算法。

 如何决定要使用CPU、GPU或NPU? 


CPU、GPU、NPU各有所长,并且相辅相成,对于AI PC、AI手机芯片,通常藉由将三者整合为系统单芯片(SoC)的方式,提高能源效率及效能。

英特尔去年发表Core Ultra芯片(代号“Meteor Lake”)时,便直言“这是40年来PC处理器架构上最大的跃进”,因为这是该公司首次将NPU整合到系统单芯片设计中。NPU专门处理特定的AI工作负载,便可将CPU及GPU用于执行其他任务。

芯片大厂高通一篇针对NPU的专文介绍则提到,CPU适合用于低延迟、顺序性的小型模型运算,GPU擅长高精准度的图像处理平行运算,NPU则可透过低功耗达到稳定的高性能AI运算,持续运行LLM(大型语言模型)、LVM(大型视觉模型)等模型。

 主要PC、手机芯片厂NPU发展最新动态 


如果说NPU是AI的专用引擎,TOPS便是衡量这个引擎马力的单位,根据微软对“Copilot+PC”的规格要求,需符合NPU算力不少于40TOPS的规格,掀起了新一波PC处理器效能大战,这也将成为消费者选购AI PC的一大指标。

英特尔

英特尔即将在今年9月上市的Lunar Lake,NPU算力达到48 TOPS,相较前一代Meteor Lake处理器的11.5TOPS提升3倍。

AMD

AMD执行长苏姿丰在2024中国台湾国际电脑展上,展示第3代Ryzen AI处理器,NPU算力高达50 TOPS,在目前的NPU算力竞争暂居领先。根据AMD秀出的数据,其性能表现超越高通Snapdragon X Elite、英特尔Lunar Lake以及苹果的M4芯片。

高通

至于在Copilot+PC最早鸣枪起跑、推出首波产品的高通,Snapdragon X Elite的NPU算力则是45 TOPS。

高通资深副总裁暨营销长麦奎尔(Don McGuire)先前接受《数位时代》专访指出,即使竞争对手未来推出TOPS更强的NPU,高通仍有产品领先的优势,将会持续跟微软合作,提升定制化程度。

联发科

联发科于2023年底推出的天玑9300,其NPU效能已达到48 TOPS,而今年10月即将发布的新一代天玑9400,预期将会更进一步推升NPU算力。

苹果

苹果于今年5月的发布会中,出乎外界预料地将新一代M4芯片,首发于最新的iPad Pro,NPU算力为38 TOPS,尚未达微软Copilot+PC的40 TOPS门槛。

在MacBook笔记本电脑方面,业界预期,苹果将在2024年内将MacBook Pro更新到M4系列芯片,至于MacBook Air则因为刚升级至M3芯片不久,预计需留待明年春季才会更新。
来源:数位时代等网络内容综合

· END ·


欢迎将我们设为“星标”,这样才能第一时间收到推送消息。
扫码关注:汽车开发圈,回复“驾驶

领取自动驾驶、辅助驾驶等方面免费资料包!



扫码添加小助手回复“进群”

和电子工程师们面对面交流经验

电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论 (0)
  • 2024-9-14调研咨询机构环洋市场咨询出版的【全球氢气循环泵和引射器行业总体规模、主要厂商及IPO上市调研报告,2024-2030】只要调研全球氢气循环泵和引射器总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2019至2023年,预测数据为2024至2030年。 调研机构:Global Info
    GIRtina 2024-09-14 11:48 71浏览
  • 蓝牙模块是一种集成了蓝牙功能的 PCBA 板,主要用于短距离无线通讯。依据功能的不同,它被分为蓝牙数据模块和蓝牙语音模块等。实际上,蓝牙模块指的是集成蓝牙功能的芯片基本电路集合,用于无线网络通讯,大致能划分为数据传输模块、蓝牙音频模块、蓝牙音频与数据二合一模块等类别。通常来说,模块具有半成品的特点,是在芯片基础上进行加工处理,旨在让后续的应用变得更为简便。作为替代数据电缆的短距离无线通信技术,蓝牙支持点对点以及点对多点的通信方式,能够以无线形式将家庭或办公室里的各种数据和语音设备连接成一个微微网
    压电侠piezoman 2024-09-14 11:46 76浏览
  •  电容位移传感器将继续向更高精度、更高灵敏度、更小型化的方向发展。随着物联网、大数据等技术的不断普及,电容位移传感器将与更多领域相结合,为人类创造更加美好的未来。 一、电容位移传感器的构成 电容位移传感器通常由两个平行极板构成,其中一个极板固定不动,另一个极板与被测物体相连,随被测物体的位移而移动。当被测物体发生位移时,两个极板之间的距离会发生变化,从而导致电容值的变化。通过测量这一变化,就可以准确地知道被测物体的位移量。 二、电容位移传感器的优势 1.高精度:具有极高的测量精度,能够满足各种高
    博扬智能 2024-09-14 15:35 132浏览
  • 随着物联网(IoT)、工业自动化、医疗设备等领域对嵌入式系统的需求不断增加。嵌入式核心板(SOM)作为嵌入式系统的核心组件,其市场需求也随之增长。在快速发展的同时,也面临一定的挑战:如进口芯片供应链不可控、单一平台受地域政策限制、多平台产品开发周期长、开发难度高等问题,米尔电子设计开发了纯FPGA 开发平台,支持一款平台,双芯设计,支持同款底板可换国产和进口芯片,推出MYIR 7A100T和PG2L100H核心板,解决客户对国内国际市场的不同需求。国产开发维护与进口主流出货痛点痛点一 政策受限,
    米尔电子嵌入式 2024-09-14 14:56 109浏览
  •  电机转速传感器是一种将电机旋转速度转换为可测量电信号的装置,它不仅是电机控制系统中的重要组成部分,更是实现设备精准控制、提高生产效率的关键。无论是风力发电、汽车制造还是工业自动化领域,电机转速传感器都发挥着不可替代的作用。 一、揭秘电机转速传感器的工作原理电机转速传感器的工作原理多种多样,但核心思想都是通过感知电机的旋转运动,并将其转换为电信号输出。以下介绍几种常见的转速传感器类型及其工作原理: (1)磁电式转速传感器 磁电式转速传感器以其结构简单、抗干扰性强而广受青睐。它主要由铁芯、磁钢和感
    博扬智能 2024-09-14 15:59 146浏览
  •  电机转速传感器是工业自动化和控制系统中的重要元件,它们能够实时、准确地测量电机或其他旋转设备的转速,确保系统运行的稳定性和可靠性。随着技术的发展,电机转速传感器的种类和类型日益丰富,以满足不同应用场合的需求。 电机转速传感器是用于测量电机转速的设备,广泛应用于工业自动化、车辆、家电等领域。根据工作原理和应用场景,电机转速传感器主要可以分为以下几种类型: 1、光电传感器: (1)光电编码器:通过光学原理测量转速,通常由一个旋转的编码盘和光源组成。编码盘上有透明和不透明的区域,光源通过编码盘产生脉
    博扬智能 2024-09-14 17:26 195浏览
  • 最近,巴黎奥运会将全球人民的心捆绑在一起,奥林匹克精神的魅力也让低沉已久的大众情绪再度昂扬。在这样一场场顶尖运动员大展身手的体育盛事中,你可能会好奇,运动员们如何在激烈的比赛中保持最佳状态呢?特别是对于耐力运动员?这就不得不提到一个关键因素——体温管理。比如游泳。当地时间8月4日,在巴黎奥运会男子4×100米混合泳接力决赛中,由徐嘉余、覃海洋、孙佳俊、潘展乐组成的中国队夺得金牌。这是中国游泳队首次获得该项目的奥运金牌,更是打破了美国队在该项目奥运会历史上长达40年的金牌垄断。在全民感慨游泳健儿拼
    艾迈斯欧司朗 2024-09-14 17:35 182浏览
  •  电容位移传感器作为一种重要的精密测量工具,在科研、教学和生产中发挥着不可替代的作用。通过了解不同类型的电容位移传感器及其特点和应用领域,可以更好地选择和使用这些传感器,为科技进步和工业发展贡献力量! 一、平行板电容传感器 平行板电容传感器是最常见的电容位移传感器类型之一,它由两个平行的电极板构成,当被测物体发生位移时,两个电极板之间的距离会发生变化,从而导致电容值的变化。通过测量这种电容值的变化,我们可以准确地得到物体的位移量。结构简单、易于制造,广泛应用于各种需要精确测量的场合。 二、圆柱电
    博扬智能 2024-09-14 11:55 70浏览
  • 2024年9月14日  Global Info Research行业调研机构发布的《全球人工智能实验室行业总体规模、主要厂商及IPO上市调研报告,2024-2030》分析了全球人工智能实验室总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模等。统计维度包括收入和市场份额等。不仅全面分析全球范围内主要企业竞争态势,收入和市场份额等。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、收入、毛利率及市场份额、及发展动态。历史数据为2019至2023年,预测
    GIRtina 2024-09-14 13:41 158浏览
  • 作者介绍 一、Skydel与NI USRP软件定义架构(Software Defined Architecture)是一种新型的架构模式,它是一种基于软件的架构,通过软件来定义系统的功能,从而提高系统的运行效率和能量效率。软件定义架构可以将硬件资源抽象化,从而使得应用程序可以更好地利用硬件资源,提高系统的性能和可靠性。Skydel GNSS仿真引擎是创新型的软件定义GNSS模拟仿真引擎,它利用PC的GPU的计算能力并借助Nvidia GPU极快的数学计算能力处理星座、频率与轨迹信息,并
    虹科测试测量TM 2024-09-14 15:33 134浏览
  • 2024年9月14日 调研咨询机构环洋市场咨询出版的《全球特厚止裂钢板行业总体规模、主要厂商及IPO上市调研报告,2024-2030》只要调研全球特厚止裂钢板总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2019至2023年,预测数据为2024至2030。 调研机构:Global Info Resea
    GIRtina 2024-09-14 11:57 119浏览
  • 在信息安全的诸多领域之中,密码的安全存储无疑已然成为最为核心的问题之一。随着攻击技术的不断演进,传统的密码存储方法已无法抵御现代复杂的威胁。更为安全、健壮的密码存储机制也成为当代信息安全从业者的关注点。本篇文章将引入并介绍密码存储中的基石,关于密码哈希、盐加密(Salting)、密钥派生函数(KDF)的原理及其应用,揭示密码存储中的常见误区,并分享一系列安全实践。一、为什么不能使用明文存储密码直接将密码以明文存储在数据库中无异于为攻击者打开了方便之门。一旦数据库遭遇泄露,攻击者将轻而易举地获得所
    艾体宝IT 2024-09-14 17:40 181浏览
  • 2024年9月14日,调研咨询机构环洋市场咨询出版的《全球D级全动飞行模拟机行业总体规模、主要厂商及IPO上市调研报告,2024-2030》,主要调研全球D级全动飞行模拟机总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模以及未来发展前景预测。统计维度包括销量、价格、收入,和市场份额。同时也重点分析全球市场主要厂商(品牌)产品特点、产品规格、价格、销量、销售收入及发展动态。历史数据为2019至2023年,预测数据为2024至2030年。 调研机构:Global In
    GIRtina 2024-09-14 11:59 123浏览
  •     近日看到《对人类意识的重视回归网络安全视野》一文,来自于IEEE电气电子工程师学会IEEE Transmitte 8月7日的文章。看完后颇有些感想。作为一名工程人员做了那么多工程,维护了那么多的设备和系统,我对非法黑客是深恶痛绝,同时也深深感到网络安全的重要性。试想一下,一个完整的医疗设备开发耗资巨大,大量人力,消耗时间数年,还要做大量测试和验证,能为人类健康带来福音。无奈道高一尺魔高一丈,非法的黑客组织硬生生将救人机器变成了害人的工具(国内外既有案例)。他们不需要耗
    广州铁金刚 2024-09-14 11:53 115浏览
  • 采用快速紧凑的 Raspberry Pi 计算模块3(Raspberry Pi Compute Module 3)的简易设置,为Korg备受推崇的高端乐器提供了一种经济高效的解决方案。解决方案:Compute Module 3企业规模:大型企业行业:音乐技术标志性的乐器制造商Korg起源于20世纪60年代的日本,最初将鼓机推向市场,随后是日本第一台合成器和世界上第一台针式调音器。随着20世纪70年代和80年代电子音乐的兴起,Korg在国际上声名鹊起。随着对功能更强大且更实惠的合成器的需求不断增长
    树莓派开发者 2024-09-14 14:54 138浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦