Intel近两年在显卡产品上的认真态度还是有目共睹的:面向PC、工作站、边缘、汽车、数据中心都在推Arc显卡产品。实际上Intel前两年在发布初代Alchemist显卡,宣布大举进军PC游戏显卡市场之时,也面向媒体捎带提过面向专业市场的Arc Pro系列,只不过相对轻描淡写。
而最近正在举行的Computex展上,Intel倒是在Battlemage这代显卡产品上,相对高调地宣布了Arc Pro新品的发布。
且相较初代Arc Pro显卡有所不同的是,这次的新一代Arc Pro不仅有面向专业图形工作者的型号,也有特别面向AI推理工作站的新品——尤其主打这两年Intel特别擅长的大显存、多卡互联,以及相比绿厂明显更高的性价比。
本次发布的两款新品为Arc Pro B50和B60,分别面向图形工作站(graphics workstation)和AI推理工作站(inference workstation)。我们的关注点,更在于Intel打算如何在专业GPU市场上打开局面——这也是高性能游戏PC、数据中心市场之外的另一个GPU重地。
堆大显存,性价比是竞品2倍
遥想Arc A750上市后没多久,Intel就开始强调A750在PC市场上的性价比了:以明显低于竞品的价格,堆出比竞品更多的料。当然你可以认为这能够表现Intel显卡产品的竞争力,但另一方面可能也是激烈竞争市场下的无奈之举。
新发布的Arc Pro B50和B60,走的路线也有些相似,尤其在显存堆料上。Arc Pro B50相较上代A50仅6GB显存,直接把容量扩展至16GB;而面向推理工作站的Arc Pro B60更是把显存堆到了24GB——Intel在媒体会上说,是“主流价位段最高配置”。对标的NVIDIA RTX A1000和RTX 2000 Ada的显存容量分别是8GB和16GB。
以上是Arc Pro B50的大致规格:除16GB显存、224GB/s带宽外,核心die采用16个Xe核心,128个XMX引擎——峰值AI算力170 TOPS(INT8);TBP功耗70W,采用PCIe Gen 5 x8连接规格;
对这些数据没有概念的读者可以回顾一下去年底发布、面向消费显卡市场的Arc B580(20 Xe核心,160矢量与XMX引擎,233TOPS INT8算力,190W TBP)。目前暂未有其他更详细的规格信息,核心die尺寸、cache容量、是否为典型Xe2核心架构、媒体引擎用料等均未知。
虽说和Arc消费游戏显卡的产品定位有差别,但还是能够从PCIe Gen 5规格看出B50在同代产品中的专业市场定位的。与此同时,面向专业工作站市场自然有专门的Pro版驱动支持,以及专业图形用户看重的ISV软件供应商认证;为Windows和Linux操作系统同时提供支持也是标配。
据说基于Pro版驱动,相比于Intel自家的标准图形驱动,Arc Pro B50在SPECviewperf测试中,有着10%到2.6倍的性能领先;而PCIe Gen 5相比PCIe Gen 4则带来了10%-20%的性能优势。
相较Intel上代Arc Pro A50,B50的图形性能有着1.1-3.4倍的性能领先;相比对家的RTX A1000(白色柱状条)也有相当的性能优势。细看测试项,这里的“图形”测试囊括了Adobe全家桶多媒体创作性能测试、HandBrake媒体编解码测试,也不乏Blender, 3ds Max渲染及各类工业应用的系统测试。
虽说Arc Pro B50主打的是图形工作站市场,但这里也公布了AI性能成绩。此处AI推理测试部分的子项有MLPerf Client,以及UL Procyon的AI CV, 生文, 生图等测试内容。更大的显存也让B50相比上代优势扩大到1.9-3.5倍。
总的来说,Intel的第一方数据为B50相比A50性能领先2.3倍,效率提升2.4倍(每瓦性能);图像与视频性能提升1.2倍,CAD性能提升2.1倍(涵盖SolidWorks, CATIA, PTC Creo),实时视觉化性能提升2.7倍(Chaos Enscape, Epic Twinmotion),以及3.1倍的AI推理性能。
值得一提的是,除了AIC/AIB板卡厂商很快会推对应显卡,Intel也亲自下场做了个半高半宽的小尺寸Arc Pro B50公版卡——上面那张规格图中出现的即是。
Intel官方给出的Arc Pro B50零售价是299美元。所以Arc Pro B50是在性能相比前代和RTX A1000竞品更强的前提下,达成了2倍的性价比(Perf/$)水平。这实际上也是近两年Intel针对Arc显卡一直以来的宣传立足点。
新增面向AI专业显卡,可扩展8张卡
另外一款Arc Pro B60,如前所述是显存容量和带宽都更大(24GB 456GB/s)、AI性能也更强(160个XMX引擎,197 TOPS INT8算力)的显卡,故而特别面向“推理工作站”;官方标定这款显卡TBP在120-200W区间。
同样基于PCIe Gen 5,有Pro版驱动、ISV认证;而且更重要的是具备企业应用所需的SRIOV虚拟化(单物理GPU在多虚拟机间共享)特性和可管理性(manageability)。
Intel将这款Arc Pro B60与隔壁的RTX 2000 Ada、GeForce RTX 5060 Ti做了主流LLM推理性能上的比较。Intel方面表示,除了在显存大小都足够容纳模型的情况下,在DeepSeek R1 14B - INT4推理时,Arc Pro B60会略输RTX 5060 Ti,“但在持续软件优化后,我们还有机会赶上”;更多的测试项目中,B60都能以24GB显存容量获得推理性能上的显著优势,性能领先2-3倍左右。
在此,Intel特别强调了当代大模型,在更大参数量、更高数据精度时,对GPU显存的需求越来越大——比如DeepSeek R1蒸馏的7B模型,基于FP16精度跑需要至少16GB显存;而在达到70B参数量之时,即便是INT4精度,也超过30GB显存需求;70B参数量+FP16精度推理,更是需要大约140GB的内存大小。
另一方面,LLM面对超长文本输入或大量上下文时(如几万token的context window——context window是指AI模型每次可处理的token量,它决定了AI模型能够记住的前文对话信息量);或者在企业应用场景中,企业AI服务面向多员工时要求并发;这类场景都对更大的显存提出了要求。
比如Intel在媒体会上举例提到,对于DeepSeek-R1-Distill-Qwen-32B FP8推理而言,单张Arc Pro B60无法满足运行要求;而两张B60能“跑到20k(tokens)左右的上下文窗口”,“4张B60的上下文窗口支持到10万(tokens)以上”——“长篇论文,就可以直接扔给LLM推理了”;
再比如以上述模型与精度,在固定8K tokens的context window推理时,两张卡支持5-6个并发——即5、6个人同时使用该AI服务;而加到4张卡,总共96GB显存,就可以支持50+并发,Intel认为这足够某些中小企业的AI使用需求。
去年的Intel新质生产力技术生态大会上,我们就见过几张Arc显卡互联方案。这次Intel似乎是直接把多GPU方案推到了用户面前,这种至强CPU+Arc Pro多卡推理工作站的平台代号名为Project Battlematrix:最多支持8张Arc Pro B60显卡,192GB VRAM。
Intel在问答环节还提到,对于8卡解决方案,“我们也在底层做了不少软件方面的工作”,比如“直接的GPU-to-GPU, peer to peer通信,GPU间拷贝数据不需要CPU参与”(听起来与NVIDIA GPUDirect异曲同工);还有像是“Tensor Parallism的算法,将模型平均切分成几份,放到几张卡上推理”等等。
Intel也有在会上列举自己基于Arc Pro B60用AI辅助解决,在开发Lunar Lake处理器过程中,VVC解码遭遇的bug问题。据说原本需要好几天完成的工作(包括定位数万行log的问题所在、找到根因、修复代码并测试等),基于AI辅助方案只需要大约1小时——当然全流程用到了多个AI agent,以及基于RAG的Intel内部私有数据,借助4个Arc Pro B60+至强处理器,就解决了问题——这应该算是个典型的企业AI生产力用例了。
总的来说,Intel总结自家的推理工作站系统,具备安全部署、易于安装、可扩展、可访问(高性价比、高成本效益)的特点。这套多卡扩展方案整体还是基于传统PCIe互联——也符合Intel在AI生态上,倡导标准化、开放的思路;虽然可能在互联性能方面不及做封闭生态的绿厂,但的确也胜在部署的便捷与低得多的成本。
软件特性与解决方案交付时间线
在面向企业和组织时,为了体现Project Battlematrix部署的“易于安装”特点,物理层面光是依托PCIe扩展多卡还是不够的——尤其在涉及到AI的问题时,软件显得尤为重要。就好像隔壁绿厂,这些年推向企业用户的大量产品,本质都是打包软件和方案,比如NIM,乃至大量完整的参考工作流。
Intel针对Project Battlematrix这种多卡系统在软件层面采用“容器化的解决方案(containerized solution)”——这是个常规思路,“这个容器做了大量LLM的优化,Linux软件栈的完整支持和验证”。下面这张图展示了交付给客户的整体软件栈。
“我们将所有工具与软件版本做好匹配、在一个容器内验证完成,为客户提供一键部署。”Intel在媒体会上说,“比如这个例子中,面向上层提供vLLM的API,客户就可以把精力都放在业务层了。”
关注Intel企业AI架构及生态系统的读者对此应该不会陌生。底层Linux kernel之上,有驱动以及很多人已经熟知的OneAPI(Intel主导的一套开放编程框架,层级和角色类似于绿厂的CUDA)和XPU Manager(也是Intel的开源硬件管理工具,主要着眼管理Intel数据中心GPU)。
再往上层涵盖Intel对PyTorch的支持,以及在LLM推理与服务引擎方面“目前我们用vLLM Serving”,“未来我们也可能会支持SGLang等其他的LLM Serving软件”。“我们将各层级软件都做好完整的验证和优化,再通过docker的形式提供给客户,便于客户部署。”
具体到不同软件特性完成的时间,Intel给出了上面这张时间表:当前已经完成基础的Windows与Linux驱动;“工作站软件的认证也基本上完成”。开场时Intel宣布的认证、验证与支持的ISV有50+,典型包括Adobe、Ansys、Autodesk、西门子、D5 Render、Maxon、达索Solidworks、Blender、Unreal Engine等...
“Q3初会实现首个container部署——客户可以从Intel拿到经过了完整验证的、产品化的container”;完成vLLM staging预部署(应该是指完整部署vLLM推理前的准备和测试阶段);以及“一些基本的telemetry功能”;
Q3后半程则开始不断优化性能、提升vLLM serving的效率;并在Q4之时,完成SRIOV虚拟化特性、VDI(虚拟桌面基础设施),和可管理性特性等。
新卡将至,据说得到了生态的大力支持
Arc Pro B50/B60的上市计划为:目前已经在进行客户送样;Q3显卡上市——据说其中B50可以通过零售渠道购买(Intel在问答环节说Arc Pro新品,即便与消费级显卡PK也“很有优势”),B60则主要是toB渠道采购(Intel说后续会公开OEM合作伙伴名单);Q4则如前文所述,实现完整的软件特性支持。
本次在Computex亮相的显卡厂商主要有上图这7家。其中有不少显卡产品形态还是挺有趣的,比如说华擎同样有推一款半宽半长的小尺寸卡;铭瑄所推的,目前据说还在pre-production阶段的、板子上用了两颗芯片的显卡——用到了PCIe bifurcation的方法,通过切分PCIe插槽上的data lane,达成一张卡当两张用的效果——其上VRAM也翻倍到48GB。
照例,Intel也在媒体会上给出了不少客户或合作伙伴对于Arc Pro B系列显卡的反馈——看起来现有市场参与者普遍是期望有人结束目前显卡市场一家独大的局面的。这是生态层面,Intel目前可把握的市场机会,尤其在具备性价比优势时。
与此同时,Intel也认为,推理工作站市场很大。“AI模型迭代速度非常快,每个季度都会有能力更强的模型出现,更智能、更小型。”“将这样的模型部署在企业边缘,就能解决企业的问题。”在Intel看来,“这个市场会发展得很快。”
如果要我们总结Intel当前在GPU市场、面对既有寡头的打法,抛开技术先进性、产品质量这些必然因素不谈,那么无疑一方面是GPU产品本身的性价比——这一点是现在每次GPU产品的媒体活动上,Intel必然提到的,“消费、商业、专业用途的GPU,我们都希望做到很好的性价比。”
其次在于软件与开发生态的开放性上,这一点电子工程专辑不止一次撰文提过。这是与绿厂完全相对、也符合直觉的打法——这次的Arc Pro B50/B60新品发布也有所体现。只不过我们认为,Intel在面向企业客户时,软件解决方案的推进速度还需要加快。
最后就是持续在GPU市场的投入,Intel这次在媒体会总结之时提到,期望所有人看到Intel对于GPU坚持的投入,以及Intel所能看到的市场机会。这在加速与异构计算时代,几乎也算得上是种必然。据说今年底面向消费显卡市场,Intel还准备推出Arc新品,不知道会不会是我们期盼已久可冲击消费显卡市场的高端产品线呢?
