这次Intel Innovation(英特尔on技术创新大会)上,Intel发布的Meteor Lake处理器里面有一个AI推理加速单元:NPU。这东西对PC究竟有什么用?

这次Intel Innovation(英特尔on技术创新大会)上,Intel发布的Meteor Lake处理器里面有一个AI推理加速单元:NPU。这东西对PC究竟有什么用?

这篇文章,我们来聊聊Meteor Lake的NPU(Neural Processing Unit)。此系列文章另外包含Meteor Lake的关键技术点介绍,以及Intel 4制造工艺和Foveros封装技术介绍

其实在代号为Meteor Lake的酷睿Ultra第1代处理器技术要点介绍里,Intel就明确突出了这代PC处理器在SoC tile部分搭载了NPU单元,用于AI本地推理加速。这算是相当符合潮流的设定吧,一方面在于主流PC处理器供应商普遍开始这么做,另一方面则是今年Intel正在宣导对于端侧设备而言,AI技术的重大价值。

 

XPU的一个组成部分

其实有关Meteor Lake跑AI的消息,最初是在今年年中就做了预告的。不过当时Intel提的是CPU、GPU、VPU。而且早在Raptor Lake(13代酷睿)时期,Movidius VPU也作为独立芯片,成为13代酷睿笔记本的可选项。

Intel Innovation(英特尔on技术创新大会)前夕的媒体分享会上,Intel提及的这枚NPU可能就是此前所说的VPU。原因很简单。Intel在分享会上,再度提到了用Meteor Lake跑Stable Diffusion的例子,用以体现当前Intel XPU的实践。

这个过程是这样的:Stable Diffusion本身的网络结构分成了几个部分,前端是个文本编码器——文生图首先要输入prompt提示词,例如“带着粉色蝴蝶结的可爱小猫”,则提示文字首先要通过CLIP模型转换到“一个隐藏空间”。

第二步则有两个Unet参与。Intel解释说:“Unet网络结构一个做正向提示词,一个做负向提示词,完成所谓扩散的步骤。这个步骤是比较重载的,在Stable Diffusion的整个处理流程中,是计算量较高的步骤。”“重复大概20步,就能得到质量还不错的图。”

最后一步“还是在隐藏空间,通过图像编码器VAE,还原到像素空间,成为输出的图像”。

这样一套流程,如果都跑在CPU上,Unet+/-迭代20次,大约需要43秒,功耗40W——设定此能效值为单位1。而如果改由GPU来跑,耗时仅需14.5秒,功耗37W。

若将Unet+/-都跑在NPU上(猜测GPU可能参与了编码器工作),则全流程需要20.7秒——虽然速度相比完全由GPU来跑稍慢,但功耗仅10W,能效达成了7.8倍。另外若考虑让GPU跑Unet+,NPU跑Unet-,流程耗时更短,但能效会不及第三种方案。

这个例子Intel前几个月就提过,调度工作由OpenVINO完成,实现在不同处理器上的深度学习部署。可见Meteor Lake上的NPU有可能就是此前宣传中的VPU了。

基于Intel此前一直在宣导XPU的策略,就端侧AI推理这一特性,Intel对于CPU、GPU和NPU的定位分别是下面这样的:

在Intel看来,做AI推理这活儿,三颗U都得参与:要么分工合作,要么选出最适合自己的工作。上个月我们才刚刚报道过,就生成式AI生态构建上,Intel为让CPU去跑生成式AI在做的各种工作。

GPU适合高并发、高吞吐需求的AI工作;顺带给一张GPU支持DP4a指令,每个周期执行64次Int8运算的介绍图(下图)。从Meteor Lake关键技术一文介绍里,应该能预设Meteor Lake核显的AI性能——毕竟这次的矢量引擎相比上一代还是增加了不少的。

而NPU是个低功耗的AI引擎,用于持续性的AI负载,比如说视频会议时,需求AI实现眼神矫正、画面超分或语音降噪之类的工作,则NPU更合适;CPU的特点是响应快,则对于轻量级、低延迟需求的推理工作,就很适用。

 

有关NPU架构

这次媒体分享会上,Intel还是比较罕见地给出了NPU架构的,只是不知道具体规模如何。NPU首先位于SoC tile之上。既然SoC tile又被Intel称作低功耗岛,那么这片区块的设计必然是冲着低功耗和高能效去的。

NPU这类加速器通常就包括MAC、精度转换之类。其算力主体部分由两个Neural Compute Engine(神经计算引擎)构成;这类专注于并行能力的加速器往往都能相对方便地做模块弹性缩放。

这两个引擎支持Int8, FP16运算,配有专门的data conversion数据转换单元,“支持量化网络的数据类型转换和融合操作”“支持输出数据的重新布局”;硬件层面“支持FP精度下的多种激活函数(avtiviation function)”,如ReLU。

MAC阵列用以支持矩阵乘法和卷积运算,“支持最佳数据重用,以降低功耗”,单个引擎算力2048 MAC/周期。每个引擎配一个DSP,用于更多精度数据的支持。

其余部分包括MMU访问系统内存、DMA直接内存读取、片内存储资源(Scrachpad RAM)。针对类似Resnet50网络达成卷积→ReLU→量化,是个AI加速的标准流程了。

就软件堆栈部分,比较值得一提的是Intel的NPU驱动符合微软MCDM框架(Microsoft Compute Device Manager)。则故此,从Windows的资源管理器里,就能直接看到NPU作为一个计算设备存在,包括其负载情况。

据说特别针对XPU的AI Benchmark基准测试工具已经在路上。未来的PC处理器也要开始卷AI推理能力了。

 

AI软件堆栈与PC上的实际应用

这里再花点篇幅谈谈Intel于端侧AI生态的软件堆栈。在Windows上做AI应用开发,可选的API算是比较多样,包括了微软的WinML,以及更低层级的DirectML;也可以选择开源的ONNX RT,还有Intel的OpenVINO。

中间层相关的库,以及驱动程序层具体如图。谈个应用案例,Intel和微软合作,在偏上层应用层出了个Windows Studio Effects——相当于一个虚拟摄像头,对原始摄像头的视频做AI处理,可用于背景替换、模糊、人脸追踪等。Windows Studio Effects下层本身是基于OpenVINO的。

对于应用开发者而言,只需要调用Windows Studio Effects,就能直接获得这些效果。比如像微软的Teams就是直接调用Windows Studio Effects,那么这些AI特效实现就能跑在NPU上。其软件栈路径大致如下:

其他开发者,比如Adobe倾向于选择DirectML去做各种内容创作的AI实现。Intel说部分视频分析类、图像类应用开始大量基于OpenVINO去做了。上面这些,应该能够给到各位技术爱好者,或开发者以参考;这些也是构建AI生态的重要组成部分。

更多开发生态相关的构成,此前我们谈得也挺多了,这里就不再赘述了。但能看得出来,在Meteor Lake加入NPU以后,配合其他XPU,Intel是期望在端侧将AI技术真正实现普及的,即便这个生态的建设工作现在还算是早期。

“我们现在有超过100多家合作伙伴在做各种各样的终端侧AI应用,丰富PC用户的使用体验。”就CCG业务的生态,主要还是Intel和微软合作构建。

NPU已经支持的神经网络和应用包含如下这些:

“我们感觉终端侧AI目前的发展还是非常快的。我们借助于Meteor Lake引入XPU的能力,让产品能够更好地支撑起整个生态系统;让开发者将一些AI workload在PC端引入,提升用户体验。”

感觉端侧NPU的应用命题并不易解,连苹果做了这么久的NPU,Mac端的AI生态也相当得不丰满。不过Intel这次考虑构建的AI生态是走开放开源路线的,目前等待的大概是开发者真正能够基于酷睿处理器资源所做的爆款,并令其足够成为PC用户的刚需了。

责编:Illumi
阅读全文,请先
您可能感兴趣
发言人表示,中方注意到,美国商务部近日发布指南,以所谓推定违反美出口管制为由,企图在全球禁用中国先进计算芯片,包括特定的华为昇腾芯片……
通过“硬件+软件+课程”三位一体的解决方案g4il,英特尔与火山引擎为开发者搭建了一条从入门到进阶的大模型应用开发“高速公路”。
此次剥离后,AMD将继续控制ZT Systems的机架级AI解决方案设计业务。而Sanmina将成为AMD云机架和集群规模AI解决方案的“首选”新产品导入制造合作伙伴。
苹果内部员工甚至将现状比作“一艘即将沉没的船”,从高层决策分歧到技术架构积弊,从团队士气低迷到品牌信誉危机......
RTX PRO服务器的目标是推动企业IT数据中心向AI工厂的转型,为设计师、开发者、工程师和科学家提供强大的计算支持。它不仅适用于数据中心GPU融合加速,还能通过远程技术实现随时随地的高性能AI任务。
目前,中国传感器企业越来越多地将目光投向新兴技术和应用,以寻求新的增长点。
在本文中,我们将探讨SiC半导体产品如何实现高质量和高可靠性,以及SiC制造商为确保其解决方案能够投放市场所付出的巨大努力,这些努力不仅提升了产品性能,还确保了卓越的可靠性。
随着诸如无人机、智能驾驶汽车、无人农机、各种专用和消费机器人等智能无人设备广泛进入我们的工作和生活,这些设备的功能安全问题成为了一个值得关注的重要话题。
在台北国际电脑展期间,英特尔携手亦心科技及亿道集团旗下亿境虚拟与亿道数码,推出全球首款AI眼镜与AI PC协同解决方案,首次实现AI眼镜与AI PC的深度算力融合,标志着AI眼镜正式进化成为智能终端,智能沉浸交互新纪元已然来临。
5月20日,iQOO Neo10 Pro+新品发布,以“超配双芯战神”的性能旗舰定位,在游戏性能、屏幕显示、续航充电等维度实现全面突破,带来了骁龙8至尊版、自研电竞芯片Q2、2K Q10珠峰屏、6800mAh超大蓝海电池、120W超级闪充等旗舰配置……
在先进制程的赛道上,3nm制程的热度还未完全消退,2nm制程的角逐已正式开启,在苹果、高通、联发科这三大巨头里,联发科的动作相对更快。据媒体报道,联发科首席执行官蔡力行今天在COMPUTEX上发表主题
大联大控股宣布,凭借卓越的市场表现和强大的品牌影响力,成功跻身英国品牌评估机构Brand Finance 5月9日发布的“2025中国品牌价值500强”榜单并位列第218位,较去年再进一步。品牌价值排
2025年汽车行业报告汇总(点击进入)近日,据国际汽车资讯平台Carscoops的报道,捷豹路虎集团正酝酿一项针对中国市场的重大战略调整。据悉,从2026年开始,该集团将不再在中国境内生产自有品牌车型
点击蓝字 关注我们ENTERPRISE关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯5月21日消息,现代汽车蔚山第一工厂将于5月27日至30日暂停生产电动
点击蓝字 关注我们ENTERPRISE关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯20世纪90年代中期开始,巴西被视为世界上最有潜力的汽车市场之一,德国
5月20日,西门子发布公告,宣布西门子数字工业软件公司将收购美国 EDA 软件开发商 Excellicon。西门子表示,该交易预计将在几周内完成,具体条款尚未披露。西门子表示,此次收购将使 Excel
杰西卡 发自 副驾寺智能车参考 | 公众号 AI4AutoRobotaxi的全球决赛圈竞速,到哪一步了?就在这两天,马斯克明确特斯拉Robotaxi蓄势待发即将落地,Waymo联手Uber开启美国多城
来源:长阳科技公告5月19日,长阳科技公告,公司拟使用自有资金2990万元认购宁波惠之星新材料科技股份有限公司发行的92.34万股股份,认购价格为每股32.38元,本次认购投资完成后,公司将持有惠之星
会议推介第三届中国国际Mini/Micro-LED产业生态大会 主办单位:JM Insights 指导单位:合肥市新型显示产业协会      &nbs
官方信息显示,雷鸟创新将在5月27日,正式发布全彩MicroLED AR眼镜雷鸟X3 Pro。此前信息显示,雷鸟X3 Pro搭载了萤火光引擎和RayNeo光波导,在显示亮度、色彩还原度、彩虹纹抑制等方