Intel面向PC的独立显卡发布也有一段时间了,高层级的体验内容看多了,或许我们应该关注一下Intel Arc显卡微观层面的细节表现。上个月,Chips and Cheese对Arc A770做了个microbenchmarking,我们援引其中的部分数据,来更具体地看看Intel的Arc初代独显,究竟做得怎么样。

Intel面向PC的独立显卡发布也有一段时间了,Arc两个定位的3、7系列都已经有产品上市。Intel这次推独显的决心还是相当大的,对于Arc显卡各方面的宣传都显得不遗余力,从技术到市场。

不过桌面显卡市场发展了这么多年,双寡头局面形成已经有些年份——就桌面端的主流图形应用来看,这个市场已经高度成熟。后来者要想在这样的市场上分一杯羹,通常需要付出相当于现有市场参与者数倍的努力,才可能真正有所斩获。

而且这种努力绝不仅是市场宣传上的成倍投入,因为GPU这种形态的处理器发展到现在,生态建设和软件相关的工作早就是重中之重。这就涉及到技术与生态积累的考验,也进一步加大了步入这个赛道并混出一片天的难度。

目前已有的Arc A380、A770/A750相关评测内容也已经不少,Arc GPU的先期口碑并不能说有多好。前不久在13代酷处理器的体验文章中,我也顺带谈到了入门级Arc A380显卡。其实际表现算是符合我们对于新入市者的初代产品预期的:存在问题,但未来可期。

高层级的体验内容看多了,或许我们应该关注一下Intel Arc显卡微观层面的细节表现。上个月,Chips and Cheese对Arc A770做了个microbenchmarking,我们援引其中的部分数据,来更具体地看看Intel的Arc初代独显,究竟做得怎么样。

 

前期好像在走性价比路线

虽说按照Arc 3、5、7数字划分低中高端,理论上A750/A770应该算作高端定位。不过市场似乎将Intel Arc A770定位在英伟达GeForce RTX 3060相似的水平上。这两款显卡目前的市场零售价也差不多,后者比前者稍高一些。

而GeForce RTX 3060其实只是英伟达PC游戏显卡家族中的“甜品卡”;则至少就Intel对于Arc GPU的现有布局来看,PC市场上,Intel还没有真正的游戏旗舰GPU。

但值得一提的是,Arc A770/A750显卡之上的那颗ACM-G10 die,尺寸达到了406mm²,基于台积电N6工艺,晶体管数量217亿个。单就晶体管堆料参数来看,它相比于英伟达GA104,无论工艺先进程度、晶体管密度还是die size,都要更甚。而GA104这片die的完全体其实是GeForce RTX 3070/3070 Ti在用的。

用着高于3070的料,却卖着比3060还便宜的价格,Intel对此应该也是比较无奈的,毕竟其性能表现好像没有达到堆了217亿晶体管所应当达到的水平。

来源:Linus Tech Tips

其实作为一张DirectX 12/Vulkan显卡,Arc A770对于最新的DirectX 12游戏支持情况还不错,在1080p分辨率、高画质下的游戏性能与GeForce RTX 3060差不多;2k分辨率下还能做到反超。当然,即便是这样,基于Arc A770的硬件堆料,猜想其图形渲染性能也并未达到Intel的预期。

而更悲剧的是,Arc对老游戏(或更早DirectX版本游戏)的支持一言难尽。在《古墓丽影:暗影》的DirectX 11模式下,画面帧率立刻腰斩。像《CS:GO》这种更老DX版本的游戏,Arc A770连RTX 3050都打不过...原因在于Arc跑DirectX 9游戏,是用DirectX 12→DirectX 9的中间转义层来实现兼容的。加上没有专门优化,以及CPU需要额外开销做转义工作,老游戏的效率是可想而知的。

但如果说性价比,其实Arc A750/A770这种卡又不大可能把价格降到太低的程度,毕竟die size和晶体管数量就是实打实的成本。而且这些die size不光是用在了传统的图形计算单元上,Arc A770还在AI单元、解码器、图形光线追踪方面堆了不少料,这就令其在某些方面显得很偏科;其光追、AI超分和视频编解码性能都还是挺不错的。

 

为什么更高分辨率下,性能会更好?

高层级、应用层面的体验内容,网上已经有不少分享了,上面这个段落也算做个总结。有关初代Arc显卡Xe-HPG的架构,此前我们也详细撰文谈过,这里也不多费笔墨。

Arc A770的纸面数字配置主要包括有32个Xe核心,8个render slices,32个RTU(光追单元),512个XMX引擎(AI加速单元),512个矢量引擎,PCIe 4.0 x16连接,256bit 16GB GDDR6显存,TBP 225W。我们主要来看看Chips and Cheese做的相关存储与计算方面的一些“microbenchmarking”核心数据。

首先是存储,在GPU核心上Intel也采用了两个层级的cache存储方案,英伟达也是如此。Intel在架构策略上,选择了比竞品更大容量的cache(Chips and Cheese测试结果是每个Xe核心192KB)。更大的cache也会带来更高的延迟,不过在GPU高利用率的情况下,小幅延迟增加是可以被隐藏的;而且更高的L1命中率本身也能够一定程度提高平均访问延迟。

Arc A770的L2 cache也比较大,达到了16MB,至少比英伟达Ampere和AMD RDNA 2大。从测试结果来看,Arc A770的L2 cache虽然容量更大,但延迟表现很不错,比RTX 3060 Ti还略快,介于AMD RDNA 2的L2 cache和Infinity Cache之间(如下图)。对比中英伟达和AMD显卡的L2 cache容量要小得多。

显存访问延迟方面,Intel会比AMD和英伟达高不少:而且用Chips and Cheese的话来说,这个延迟数字达到了10年前显卡的水平。不过在GPU高占用率(线程数尽可能填满)的情况下,显存延迟的影响并不会太大。

存储带宽测试,首先是dispatch一个workgroup,则GPU的一个模块或者说一个核心就会开始工作——所谓的GPU基础模块构成,对于Intel而言是Xe核心,对英伟达而言是SM、对AMD而言是WGP(RDNA)/CU(GCN)。

从测试结果来看,一个Xe核心在不同存储层级——包括cache和显存上都无法获得很高的带宽。尤其当数据深入到显存部分的时候,情况相当不乐观:AMD一个WGP从显存拿到的带宽就能有63GB/s,而英伟达一个SM则有34.4GB/s,Intel的一个Xe核心只有8GB/s的带宽。片内cache的情况也没好到哪里去,就这个结果来看,Intel的Xe核心的存储级并行能力(MLP)不大行。

一般GPU能够执行的workgroup size是256线程,而Arc支持的workgroup size最多有512线程,这对于隐藏延迟是有帮助的。所以基于这个size做测试,测试结果会有显著提升(蓝色虚线,Local Size = 512):L2 cache带宽将近能够达到英伟达Ampere的水平,但显存带宽仍然比较悲惨。

Chips and Cheese评价说,Arc A770单个workgroup执行的存储带宽表现和古老的AMD Radeon HD 5850差不多....

不过一般GPU跑真实负载的时候,不会只用上GPU的一个核心。上面这样的测试也就作为某种参考。随测试增加workgroup或者说并行度,存储带宽利用会增加 - 当然更低并行度下达成越高的带宽一般也更理想。

即便增加workgroup,无论是共享cache(包括L2 cache),还是显存,Arc A770的情况看来和其他竞品都完全不在一个水平线上。AMD和英伟达这边都能快速达成带宽利用增长或满载。

就共享cache来看,AMD这边的Infinity Cache容量还更大,情况都比Arc A770的L2 cache好。而在显存方面,即便Arc A770的所有32个Xe核心都处在工作状态,显存带宽似乎都没有填满。看起来Intel在Arc显卡存储系统的带宽利用率方面还有很多工作要做。

值得一提的是,Chips and Cheese的测试流程也可能存在问题,抑或测试用的这一版Intel驱动存在问题,尤其在测试反复分配、释放存储资源的过程里,Chips and Cheese提到OpenCL runtime还会报错。

这几个月Intel应当有在频繁做驱动的bug修正工作,这也是新入市者前期会遭遇的问题——我在A380的体验中也提到过,即现在的每次驱动更新都能发现不少问题被解决。

上面这个测试是跑512个workgroup,以期达成全部GPU单元模块的满载。在GPU资源高占用的情况下,Arc A770的存储性能表现就会比较理想,在不同存储层级全周期内,都能表现出很不错的带宽吞吐,包括cache和显存。

不过配合真实测试来看,Arc A770真的需要高占用、高并行度才能表现出比较理想的存储性能——某些游戏由于各种原因无法做到GPU的高利用率,不管是游戏类型需要、CPU瓶颈还是软件优化,则实际表现可能会比竞争对手的GPU显著更差。Arc因此有更大概率在游戏的高分辨率设定下,有不错的帧率表现。

这可能就解释了,为什么在实际游戏测试的2k分辨率下,Arc A770相比竞品的优势会更大,或者差距会更小。

另外有关local memory延迟的情况,也就是一个workgroup内的所有线程共享的存储部分,Chips and Cheese也做了测试。Intel Arc A770(27.57ns)在这方面稍落后于英伟达Ampere(16.71ns)和AMD RDNA 2(19ns左右),和Maxwell(26.33ns)差不多——不能说出色,但也不算差。

 

计算吞吐与延迟

存储系统测试之外,另外比较重要的当然就是连接和计算了。Chips and Cheese倒是有做PCIe带宽测试,以及计算相关的测试。不过连接测试内容,因为设定的关系,个人认为可能并不具有太高的参考价值——大抵上基于测试PCIe 3.0和Resizable BAR设定,Arc A770的数据复制带宽水平都不理想,至少和目前在售的AMD和英伟达当代架构竞品比是如此。

要说GPU计算性能,FP32吞吐应该是一个重要指标,因为图形渲染包含了大量的FP32操作。从测试结果来看,Arc A770的Xe核心在FP32加法操作上表现不错,但FP32 FMA(融合乘加运算)不理想,原因不明。

整数(INT32)操作吞吐部分,Arc A770的表现不差,但似乎和当代竞品相比有一定差距。不过这部分测试结果也仅供参考,Chips and Cheese的测试工具还在做完善。之所以只给了单个GPU核心跑测试的结果,也在于如果看整个GPU的吞吐数据,A770的情况更为异常。这部分后续仍有商榷的余地。

在FP32执行延迟(单位:周期)方面,近代英伟达和AMD的GPU表现都相当不错,就周期数来看和CPU差不多——当然CPU的频率还是显著高于GPU的。Arc A770在运算单元的执行延迟会明显更高,尤其是FP32 FMA操作。

INT32整数执行延迟情况也类似,但比旧架构的显卡会稍好,包括比Kepler和Maxwell都好些,但显著弱于Ampere和RDNA 2。整数执行延迟数据对比图就不放了。

Chips and Cheese认为,像FP32执行延迟达到11-12个周期,在最终更系统层面并不会表现出多大的差异——这些延迟完全可能被其他因素隐藏。而且像AMD Terascale 2架构的FP32延迟也很高,但并不妨碍其计算性能的发挥。不过如果要在最终应用里有效隐藏较高的执行延迟,则同样需要较高的GPU资源占用度才行,这可能也是Arc A770在高分辨率图形渲染时,表现会更好的原因之一。

比较有趣的是,因为现在时常在Intel活动上出现的执行副总裁Raja Koduri此前来自AMD图形业务,所以Intel这次在推Arc显卡时,就有很多网友开玩笑说Intel的Arc,本质上就是AMD的Vega。当然其实从内部架构来看就知道,这纯粹是个玩笑。

不过Chips and Cheese还真的特别对比了Intel Arc A770和AMD Radeon VII(GCN),感觉对Intel足以产生一万点暴击...主要测试的还是cache和显存的带宽和延迟,有兴趣的同学可以去看看:上述弱项中,在低资源占用的情况下(较少workgroup数),Arc 770的存储性能表现仍然不乐观(Radeon VII在显存方面还很豪气地用了HBM2)。

Radeon VII其实也算是在应用资源高占用时,才能发挥实力的典型代表,但似乎仍然没有Arc A770那么依赖高占用。不过达到GPU高占用时,Arc A770作为今年发布的显卡,综合存储性能表现还是能够把Radeon VII甩在身后的。

这一代Arc显卡架构这种资源高占用、才可发挥出实力的特性,可能与Xe-HPG架构构成有很大关系,尤其是每个Xe核心L1 cache需要在8个Send端口(一个Xe核心包含8对EU/矢量引擎)之间做仲裁,每个端口还需要在2个矢量引擎间做决策。而且load/store系统以轮询的方式来服务EU/矢量引擎,这可能能够解释GPU低资源占用、低并行度时存在的带宽问题。

最后值得一提的是,最近Intel为Arc A770/A750发布了新版驱动,据说在游戏中达成了8%的性能提升——其实从驱动更新角度,8%也不是什么大数字,尤其在Intel目前驱动程序可能仍然效率不高的大前提下。不过这也表明,驱动更新仍有持续优化Arc显卡性能的余地。

而且我们都始终觉得,Intel这类参赛选手对于GPU市场的介入是个好事,尤其初代独显产品能有这样的表现,虽然仍然存在诸多不成熟,但已经是个非常出色的开端。难怪Linus Tech Tips要呼吁大家都去买Arc显卡,英伟达和AMD也是积累了十几、几十年才有了现在这番作为的:而Intel显卡的成熟也会持续盘活GPU市场,带动技术发展。

责编:Illumi
阅读全文,请先
您可能感兴趣
英伟达发布截至2022年10月30日的第三季度业绩,该季度收入为59.3亿美元,较去年同期下降17%,较上一季度下降12%。英伟达表示,来自美国及全球云服务提供商的订单推动了公司的数据中心业务,该业务部门总共产生了38.3亿美元的收入,分析师预期则为37.9亿美元,同比增长31%。
在IIC Shenzhen 2022同期举办的全球CEO峰会上,Imagination中国区董事长白农在主题演讲中提到了30年来Imagination GPU IP的几个重要变迁。不过Imagination如今的IP产品可不止是GPU,还涵盖了CPU与AI加速。则循着异构架构的大趋势,Imagination又有了新的舞台。
在面向工程仿真的CAE软件中,有一款叫做COMSOL的软件,对接的用户主要是高校科研人员、军工单位、高新企业研发工程师以及跨国公司工程师。其在功率器件封装的多物理场仿真分析方面功能非常强大。
在手机、监控和汽车电子化等高度发达的今天,我们每个人都会拥有数个甚至十数个摄像头,摄像头的主要核心芯片是CMOS图像传感器。CMOS图像传感器的发展从二十多年前开始爆发到现在,每年的增长非常大,到2021年总规模约210亿美元。其中,随着新能源电动汽车的发展,车载领域的CMOS市场发展尤其突出。据统计,2021年全球车载摄像头出货量超过2亿颗,比上一年增长15%,2022年比去年又会增长20%以上。但是,车载CMOS领域也有一定的门槛、技术和挑战。
人工智能研究如今遍地开花,但基本都基于计算机视觉、摄影测量和深度学习。本文提出一种全新概念:“自然智能”。通过对蜜蜂大脑进行反向工程,在机器人算法中实现对大脑工作方式的模拟,从而使机器人能够像自然生物那样感知与行动。目前已在机器人和无人机中实现了稳定的视觉、防撞及导航功能。
工业电子领域不像消费电子产品那样标准化走量。用于工业的产品形态难以标准化,每个客户会有不同的需求,每个细分领域又会有一条不同的产线。以处理器为例,通用处理器通常采用Arm架构,从M0、M1到A72,但是仅有处理器不能满足工业应用所有的需求,要用更多不同的IP满足不同的需求……
德州仪器首席执行官Rich Templeton当选SIA副主席
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
VOA300单端输出可直接连接放大器或模数转换器,汽车级器件,采用单端输出,数据传输速率达1.4 MHz,确保人员和车辆安全。
经过7个月的激烈角逐,2022玄铁杯RISC-V应用创新大赛揭晓获奖名单。基于阿里平头哥玄铁C906的开发板,一批RISC-V创意项目涌现,落地碳中和、智能家居、智慧工厂等场景,最终冠军由华东师范大学“萌新队”获得。
今日要点● 马斯克欲“大赦”推特封禁账号● 谷歌或考虑裁撤1万名“表现不佳”员工 ● 微软成对冲基金最青睐股票● 亚马逊计划每年向院线电影投入10亿美元 ● 台积电拟新建1纳米芯片厂巨头动向马斯克欲“
11月23日,上海证券交易所官网显示,纵目科技(上海)股份有限公司(以下简称“纵目科技”)科创板IPO申请已获受理。招股说明书显示,纵目科技拟公开发行股票3211.00万股,占发行后总股本的比例不低于
公元1063年,北宋著名的文学家王安石出使辽国,这年四月,一代仁君宋仁宗驾崩。王安石的使命,是将仁宗生前用过的遗物,赠给辽国皇帝。在去辽国的路上,时年42岁的王安石写了一首著名七言律诗《春分》一马春风
广告分割线眼下全球经济下行已是不争的事实,后疫情时代的各类“后遗症”也不断显现。世界各国都或多或少陷入“订单慌”和“裁员潮”的危机之中,大厂靠裁员削减成本,小厂只能选择躺平关门……未来市场的出路究竟在
文|乔伊有时候,你缺的不是实力与运气,而是真正找到一个合适的舞台。自9月6日上市,截止到11月3日,长安福特全新福特探险者订单成功破万。随着这个成绩的诞生,全新福特探险者站上了35万以上合资大型SUV
2022年11月23日,荣耀正式发布折叠旗舰荣耀Magic Vs系列和荣耀80系列,这是首批搭载全新荣耀MagicOS 7.0操作系统的手机产品。荣耀Magic Vs荣耀Magic Vs系列致力将轻薄
EETOP版图就业&提升班正式开班报名!据台媒qooah报道,在今年年中的时候,三星官方就已经公示对3nm 处理器进行投产,但第一个敢于尝试使用的人居然只是一家矿机厂商。不过,三星一方面在寻找外援提高
最近对特斯拉的信息做一些梳理,主要参考来自Troy Teslike和美国的一些信息。从目前的数据来看:◎Q4 特斯拉的生产量预估为466165台,2022年全年生产量预估为139.6万台。◎Q4 特斯
创芯人才网(https://www.icjob.top)--EETOP旗下半导体微电子领域专业招聘平台,欢迎大家发布职位、传简历!(免费)以下为是一些公司近期发布的数字IC相关职位:扫描二维码,申请以
广告分割线以色列印刷电路板上市大企PCB Technologies Ltd.(股票代码:PCBT)宣布,公司已收购Galil Microwaves&Microelectronics Ltd.的技术和业