向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

一场硬仗:华为和高通的GPU差距还有多大?

时间:2020-01-07 作者:黄烨锋 阅读:
本文我们借助在售机型的一些现成图形计算跑分测试,以及GPU IP厂商对于新产品的解读,来总结性地谈一谈当前手机GPU在性能、能效方面究竟是什么格局。

在绝大部分手机爱好者的印象中,当代手机GPU的性能与能效排名,理论上是苹果最强,高通紧随其后,而Arm的Mali GPU则显著落后于前两者。去年年中我们发布过一篇题为《ARM新版Mali GPU简析:这次终于赶超高通和苹果?》[1]的文章,简单谈了谈Mali G77的理论性能。似乎在Arm的规划中,Mali G77是有机会超越高通Adreno GPU的。2opEETC-电子工程专辑

预计最早将采用Mali G77 GPU的手机SoC为联发科天玑1000或三星Exynos 990;同代的高通骁龙865与Adreno 650前不久也已经发布。这会儿虽然还没有采用Adreno 650 GPU的机型面世,采用Mali G77的中低端机型也才刚刚开售,但从2019年包括iPhone 11系列(A13 SoC)在内的诸多手机产品的问世、Imagination A-Series GPU新架构的发布,实则已经很容易发现当前手机市场的GPU表现,已非两年前的格局。2opEETC-电子工程专辑

2opEETC-电子工程专辑

前不久的Imagination发布会上[2],Imagination提到,如果将高通Adreno 640的性能和占地面积记作100%,Arm Mali G76则需要184%的占地面积,才能达到100%的性能。这大概是Mali GPU被对比得最惨烈的一次,似乎这也符合我们对Mali GPU性能、能效孱弱的历史认知。2opEETC-电子工程专辑

不过我们认为这个说法可能仍然不够准确,毕竟这和具体的产品相关:高通骁龙855(Adreno 640)采用的是台积电7nm制程,而与之对比的三星Exynos 9820(Mali G76)则采用三星自家的8nm制程,仅是制造工艺的对比就已经不公平了;事实上,不同SoC制造商对于Mali GPU的实施方案也不尽相同,华为海思对于Mali G76的实施方案和三星就是不一样的。2opEETC-电子工程专辑

本文我们借助在售机型的一些现成图形计算跑分测试,以及GPU IP厂商对于新产品的解读,来总结性地谈一谈当前手机GPU在性能、能效方面究竟是什么格局。2opEETC-电子工程专辑

移动GPU市场的主要玩家

首先还是将需要对比的主要手机GPU产品(或IP)做个罗列。这里援引两家统计机构针对移动GPU市场分析所得的数据,虽然数据并不是最新的,但仍可基本反映当前移动GPU市场的现状。2opEETC-电子工程专辑

从手机与平板出货量来看,2019年第二季度的不同移动GPU出货量的市场占比分别如下图所示:2opEETC-电子工程专辑

数据来源:Stategy Analytics2opEETC-电子工程专辑

这份数据来自Strategy Analytics[3],由于我们没有完整的数据,所以这张图仅根据Strategy Analytics当时发布的新闻稿绘制。值得一提的是,其中的“Others”其他,主要是Imagination和Intel,这里仅知Imagination的市场份额仍高于Intel,但不清楚这两者分别的占比具体是多少。这份数据也符合我们对于移动GPU市场的认识,即该市场的主要玩家就是苹果、Arm、高通。2opEETC-电子工程专辑

如果不从季度出货量,而是从手机保有量来看不同GPU产品的市场份额,又是另外一番光景:2opEETC-电子工程专辑

来源:DeviceAtlas2opEETC-电子工程专辑

上面这份数据来自DeviceAtlas[4],发布时间在2019年年中。这份数据统计的是截至2019年第一季度,DeviceAtlas数据库中36个不同国家的GPU使用率。这份统计实际可能受到DeviceAtlas样本量的局限,不过它依然符合我们的基本认知。由于它考察的是手机保有量,而非当季最新出货量,所以仍有大量老设备活跃。其中PowerVR Series7XT,实际是iPhone 7时代的GPU。其他更多出现在榜单上的设备皆来自高通和Arm。2opEETC-电子工程专辑

下面的对比中,我们考察这些市场玩家最新推出的GPU旗舰产品,以及上一代GPU旗舰产品——除了苹果这样相对特殊的市场参与者,通常在GPU IP发布的半年到2年的时间里,实际的芯片产品才会问世,所以这些厂商的上一代GPU产品通常才是当前活跃在市场上的旗舰。2opEETC-电子工程专辑

那么实际的对比对象就十分明确了,即:2opEETC-电子工程专辑

• 苹果A13 Bionic2opEETC-电子工程专辑

• 苹果A12 Bionic2opEETC-电子工程专辑

• 高通Adreno 650(高通骁龙865)2opEETC-电子工程专辑

• 高通Adreno 640(高通骁龙855)2opEETC-电子工程专辑

• Arm Mali G77(三星Exynos 990/联发科天玑1000)2opEETC-电子工程专辑

• Arm Mali G76(三星Exynos 9820/海思Kirin 990、980)2opEETC-电子工程专辑

• Imagination PowerVR A-Series2opEETC-电子工程专辑

• Imagination PowerVR Series 92opEETC-电子工程专辑

需要注意的是,Imagination的近两代IP实际上都没有具体的芯片产品问世,Series 9XT的Furian架构作为转瞬即逝的一代架构,很难做具体的量化,所以Imagination PowerVR只会在本文稍稍带过。我们主要要对比的主角就是苹果、高通、Arm。2opEETC-电子工程专辑

2opEETC-电子工程专辑

话当年Arm与竞争对手的巨大差距

Arm Mali GPU在性能和能效方面相较苹果和高通的差距,是的的确确存在于过往历史中的。2016年,高通骁龙835(Adreno 540)时代,同场竞技的选手分别是苹果A11和Arm Mali G72/71。这时的Arm Mali GPU几乎被前两者吊打,无论是性能还是能效。2opEETC-电子工程专辑

在此之前的Arm Mali GPU也基本处于被高通、苹果按在地上摩擦的水平。其中比较具有代表性的是海思Kirin 960,这颗SoC选择的是Mali G71MP8方案。Mali G71是最早采用Bifrost微架构的一代GPU IP。2opEETC-电子工程专辑

当时采用Kirin 960的华为Mate 9在跑T-Rex霸王龙测试时(GFXBench),平均功耗达到了惊人的9.5W——要知道那会儿采用高通骁龙SoC、散热设计最差的手机GPU平均功耗封顶也才5W,且骁龙821(Adreno 530)只需要Kirin 960不到40%的功耗就能达到相同的性能水平。在能效方面(Perf/W),骁龙821的GPU(Adreno 530)超过Kirin 960(Mali G71MP8)一倍还多。[5]2opEETC-电子工程专辑

T-Rex是ALU算力需求较低,更偏向于Texture纹理、填充率和三角形输出率的测试项目。而另一项知名的Manhattan 3.1测试,Kirin 960的情况也是惨不忍睹的。即便是一年以后的Kirin 970(Mali G72MP12)大幅提升了能效和性能,跑T-Rex测试也同样需要同时代骁龙835(Adreno 540)2倍以上的功耗,才可勉强达到差不多的图形计算性能,能效此时刚刚达到了骁龙835的一半。[6]2opEETC-电子工程专辑

那会儿骁龙835的GPU平均功耗稳定在3.5-3.8W,相比前面几代都还在稳步降低;海思Kirin与三星Exynos这些采用Mali GPU的SoC则明显高于这个值一截。当时华为Mate 10(Kirin 970)跑Manhattan 3.1测试的平均功耗远高于其可持续运行发热控制阈限所在的6.3W,T-Rex测试可飙至接近8W。更气人的是,Mali G71/G72沿用了Midgard架构时代的texture单元,还在采用双线性过滤方案,所以游戏画质还落后于同时代的Adreno GPU[7]。2opEETC-电子工程专辑

那应该是高通Adreno在性能与效率表现上最风光的年代,骁龙835(Adreno 540)的峰值性能虽然没有同时代的苹果A11(iPhone 8/X)彪悍,但持续性能达到了同等水平——Galaxy S8的长时间游戏体验实际也强于iPhone 8/X。2opEETC-电子工程专辑

然而高通Adreno相较苹果A系列的持平水准,以及相比Arm Mali的绝对领先优势在2019年的骁龙855身上逐渐丧失;不仅是苹果在GPU方面的持续发力,而且有Arm的越来越逼近。2opEETC-电子工程专辑

2019年的那些移动GPU

2019年的Android旗舰主要采用的SoC就是高通骁龙855(+)、华为海思Kirin 990,以及三星Exynos 9820。同代iOS设备即iPhone 11采用的是苹果自家的A13 Bionic SoC,GPU部分依然是苹果自研的IP方案。在对比跑分数据之前,还是先聊聊这几款产品(或IP)相比前代的一些变化。2opEETC-电子工程专辑

Bifrost架构前两代产品G71/G72相对灾难性的表现,在Mali G76身上得到了极大程度的缓解。2018年3月,Arm宣布推出Mali G76时宣称,基于TSMC 7nm工艺的Mali G76预计能实现性能50%的提升,性能密度提升30%、微架构效率提升30%。至于机器学习性能2.7倍提升就不是本文要探讨的重点了。2opEETC-电子工程专辑

Mali G76虽然仍是Bifrost架构,但优化幅度还是比较大的。其中比较值得一提的是后端执行部分的加宽:G71/G72采用的是4-wide SIMD单元,每条lane处理单独的FMA(Fused-multiply-add,融合乘加)和ADD/SF(加法)管线;也就是说单周期wavefront宽度就是4指令;Mali G76将其拓宽至8-wide,比先前加倍了ALU单元数量。2opEETC-电子工程专辑

Arm一直在采用很窄的wavefront——可对比的是,我们在Imagination A-Series架构剖析中提到[2],A-Series的这部分已经拓宽到了128-wide。Arm采用这种较窄的方案,原因是期望避免线程发散(thread divergence)带来的ALU闲置问题。不过较窄的wavefront(或warp size)带来的问题就是,与ALU配套的控制逻辑电路更多,ALU单元数量与控制电路之比更小。更宽的SIMD可以带来更好的芯片面积效益,实际相同芯片尺寸下也可以塞进更多的ALU单元。4-wide就实际代码的线程发散来看,也实在没有必要。Arm自己也说,现在的游戏GPU代码粒度需求和G71时期已经不大一样了。2opEETC-电子工程专辑

与SIMD lane同时提升的,还有相应支持的cache和通路,以及像素、纹素(texel)硬件,保持先前相同的ALU与纹理/像素单元的数量比值关系。G76实际上有些类似于把两个G72核心合并成一个核心,但实际所占的面积却比两个核心小得多。Arm官方比较推荐的G76核心数目是12个,虽然这样的小核心数量仍然比苹果、高通Adreno这些GPU多多了,但G76在走多核心、小核心的思路上已经发生了一定程度的转变。2opEETC-电子工程专辑

G76相比前代的其他改进还包括增加INT8的进一步支持——这应该主要是针对机器学习的;针对多边形回写操作,G76采用乱序回写机制,在发生回写停滞时具备了更好的操作弹性;其他调整还有针对tile buffer、线程本地存储机制等。2opEETC-电子工程专辑

就Arm自己纸面上对Mali G76的宣传来看,这种提升其实是比较中规中矩的,并非大幅跨越。2opEETC-电子工程专辑

有关高通Adreno 640(骁龙855)能谈的理论部分则并不多,因为Adreno对外界而言始终是个黑匣子,高通几乎不对外界披露太多有关Adreno的技术细节。可分享的是高通提供的一些数据,包括相比上代提升20%性能(相比Adreno 630);另外高通还在发布会上提到Adreno 640增加了执行FP32、FP16操作的ALU单元数量,增加50%。外媒AnandTech曾推测Adreno 630每个核心的ALU数量是256个[8],总共2个核心。2opEETC-电子工程专辑

那么这样算来Adreno 640每个核心的ALU数量为384个,双核总共768个(理论上Adreno小升级应该不会再增加核心数)。ALU lane数量增加和高通宣称20%的性能提升并不对等,所以预计Adreno 640的频率可能是下降的。另外高通在《绝地求生》40fps演示中宣称功耗下降将近30%,未知这里的功耗指的具体是什么功耗。2opEETC-电子工程专辑

Adreno 640在特性方面包括支持真正的HDR游戏、Physically Based Rendering(基于物理的渲染)游戏——通过更为准确的光线物理与材料交互,让游戏、虚拟现实提升真实性;图形管线支持10bit色深、Rec 2020色域来实现HDR,支持HDR10+与Dolby Vision格式;支持120fps游戏、8K 360°视频回放。2opEETC-电子工程专辑

来源:ChipRebel[9],TechInsights[10] via AnandTech2opEETC-电子工程专辑

这部分最后再来谈谈苹果A12/A13。苹果本身也很少公开自家GPU的技术信息。我们可挖掘的大致也就是通过die shot来做观察。A12的GPU部分看起来实则非常像A11——苹果A11采用的仍然是Imagination的Rogue架构GPU。A12采用的仍然是TBDR(基于tile的延后渲染)机制,这在移动GPU中比较有代表性的目前也就是Imagination了;此外苹果也支持PVRTC纹理压缩(PowerVR Texture Compression)。有充分理由相信即便苹果2017年和Imagination停止合作,其“自研”GPU也依然保留了Imagination基因,只是双方的授权协议细节未知。2opEETC-电子工程专辑

A12 GPU(iPhone Xs)一个较大的改进在于支持内存压缩,即从GPU到主内存的frambuffer压缩。苹果是支持GPU存储压缩特性,相对比较晚的一家SoC厂商了。不过从实际效果来看,这个特性的加入的确让A12 GPU实现了很大程度的性能与效率提升。苹果宣称A12 GPU性能提升达到了50%,核心数目增加到4个。2opEETC-电子工程专辑

A13 die shot,来源:AnandTech[11]2opEETC-电子工程专辑

A13 GPU(iPhone 11)的die shot可见,最大变化在于后端ALU模块和纹理单元,前端部分看起来是比较相似的;苹果宣称A13性能提升20%,相同性能下的功耗下降40%;另外苹果特别提到加强了SoC散热能力:iPhone X与Xs的发热表现的确比较巨量。2opEETC-电子工程专辑

Adreno、Mali、苹果GPU实际性能对比

以上基本都是理论分析,和厂商宣传中的性能提升。在此我们基于AnandTech过去1年所做的测试,做GPU基准跑分汇总对比。2opEETC-电子工程专辑

在测试对比的手机设备选择上,A12、A13显然就是iPhone Xs Max与iPhone 11 Pro Max这两款机型;Arm Mali G76的选择也比较简单,对应华为Mate 30 Pro(Kirin 990),与三星Galaxy S10+(Exynos 9820)。2opEETC-电子工程专辑

尤为值得一提的是,海思Kirin 990的Mali G76方案规模更大,海思采用的是16个核心的Mali G76,频率约在600MHz(Kirin 990 5G似有将频率提升至700MHz);三星Exynos 9820的GPU配置为Mali G76MP12,频率约在702MHz。2opEETC-电子工程专辑

Adreno 640(骁龙855)的终端设备选择比较多样,而且不同手机制造商对Adreno 640的系统设计所呈现的性能、效率差别实则是比较大的。这里我们选择实施方案比较有代表性的几款机型,分别是一加7 Pro,谷歌Pixel 4 XL,以及黑鲨2、三星Galaxy S10+(骁龙855版)。通过多款机型的对比,实则也能看出OEM制造商在系统、散热设计方面的功力。2opEETC-电子工程专辑

需要注意的是,这几款GPU(及对应的SoC),以及手机上市的时间是不一样的,跨度可能超过了半年;而且手机由于屏幕尺寸差异,散热效率的基础也不一样——屏幕尺寸有市场定位导向,并不是厂商可任意做大的;针对不同细分市场也存在手机散热设计、温控机制等差别,比如黑鲨2是游戏定位的,它以牺牲手机轻薄性为代价做整体系统设计,理论上可以获得更好的性能表现(但似乎也只是理论上)。2opEETC-电子工程专辑

这里还需要强调一点,苹果A13的制造工艺会更先进,而三星Exynos 9820则相较其他SoC的制造工艺都略逊一筹,为8nm LPP。所以并不能简单说,谁跑分更高、谁的设计就一定更优秀。且测试仍涉及软件、系统、驱动层面,所以这里的对比可能并不严谨。2opEETC-电子工程专辑

测试项目选择是AnandTech常规的几项,包括了3DMark Sling Shot 3.1 Extreme Unlimited – Physics/Graphics,GFXBench Aztec Ruins(高画质)- Vulkan/Mental(off-screen),GFXBench Manhattan 3.1(off-screen),GFXBench T-Rex 2.7(off-screen)。具体的测试环境,可参见文末的链接。[12]2opEETC-电子工程专辑

数据汇总自AnandTech2opEETC-电子工程专辑

在以上测试项中,我们认为最能表现GPU图形计算能力的,就是GFXBench Manhattan(曼哈顿),T-Rex(霸王龙),以及Aztec Ruins高画质测试场景,测试结果单位为帧率(fps,每秒帧数)。不过这几个测试都有自己的偏向性,比如T-Rex测试相对而言更偏向GPU纹理与填充率吞吐表现,而Manhattan则属于shader核心重型任务。图表中橙色柱状条表示持续性能,蓝色表示峰值性能。2opEETC-电子工程专辑

需要指出的是,峰值性能并不是没有意义的。苹果在早期宣传中更喜欢谈持续性能——即持续长时间跑图形计算高负荷任务的稳定性能状态,因为这对于游戏的实际体验才是更有价值的数据。但从iPhone Xs开始,苹果也越来越关注设备的峰值性能,因为峰值性能追求的是瞬时突发性能:iPhone在大量场景实际都依赖GPU计算,包括app中的通用硬件加速,甚至拍照处理的GPU计算——这类场景更看重突发性能,需要尽最快速度处理一些固定负载任务。GPU的这种通用性,令其峰值性能成为需要考察的重要指标。Android系统近些年实则也一直在这方面努力。2opEETC-电子工程专辑

从我们汇总的柱状图不难发现,苹果A12/A13在GPU性能方面是独占鳌头的,其他表现最出色的GPU峰值性能才刚刚达到了A12的持续性能。2opEETC-电子工程专辑

而高通Adreno 640组(中间4款设备)与Arm Mali G76组(最后2款设备)的对比,至少就性能来看是很难简单分出伯仲的。尤其我们看到华为Mate 30 Pro在Mali G76的方案实施中表现出了完全能够和Adreno 640比肩的性能水平,持续性能甚至比绝大部分Adreno 640机型表现更出色。2opEETC-电子工程专辑

而且海思Kirin 990这一代Mali实施方案,也真正实现了对三星Exynos的超越——这在以往也是比较少见的,因为前些年三星总能在同代Arm Mali实施方案中领先于海思。不过这一点仍需要考虑到Kirin 990的GPU是在Kirin 980基础上的一次改良,且Kirin 990推出时间远晚于三星Exynos 9820。2opEETC-电子工程专辑

值得一提的是,虽然一加7 Pro在持续性能和峰值性能方面看来十分接近,也表现出了Adreno 640机型的最佳水准,但这和一加7 Pro温控机制十分激进有关——这款手机允许屏幕表面温度飙升到51℃,所以其持续性能会明显强于其他Android机型。可对比的是Galaxy S10+温控会将设备表面温度控制在42-43℃之间;华为Mate 30 Pro则在45℃上下。这组数据中另外比较奇怪的是黑鲨2,这是一款定位玩游戏的手机,但AnandTech测试中,其温控非常保守,导致黑鲨2在整个Adreno 640(骁龙855)阵营中都属于性能较弱的水平。2opEETC-电子工程专辑

来源:AnandTech2opEETC-电子工程专辑

性能表现之外,GPU的功耗和效率也很重要。这里选择Manhattan与T-Rex测试的系统有功功率(从设备总功耗中减去相应负载场景的闲时功耗),以及最终的效率来做对比——这是以往Arm Mali被苹果和高通碾压的绝对弱势项(主要可以参见表中最末一位的Exynos 8895)。2opEETC-电子工程专辑

iPhone这两年若单论GPU突发以及平均功耗(第四列Avg. Power),可以说是高得惊人的,尤其A12快速推升到高性能的动作,会将3Dmark跑到崩溃,崩溃前的瞬时功耗可达7-8W;A13已经收敛不少,但峰值功耗依然可超过6.2W。上表中,iPhone后面的“Warm”表示在测试项跑过3遍以后,整体GPU性能会下降并趋于稳定,这个状态下的功耗会更加合理;而“Cold/Peak”则表示设备温度较低时,初始跑测试可达到的状态。2opEETC-电子工程专辑

苹果A12(iPhone Xs Max)在用户体验方面并不算好,主要原因是在GPU任务负载伊始,就倾向于快速达到满负荷运转状态,并致设备在使用的前几分钟就明显升温。实际上苹果GPU的持续性能已经足以应付大部分工作,而不需要在很多时候这么“拼”。苹果在A13这一代更偏着力在温控方面,体验也就比A12好了很多。2opEETC-电子工程专辑

即便如此,如果看能效——即性能成绩÷功率=每瓦性能(上表中的最后一列),则A12/A13 GPU部分依然能够甩开其他竞争对手很远的距离。在达到与A12 GPU相同性能水平下,A13 GPU的功耗低了32%——虽然没有苹果吹的40%那么厉害,但也已经十分优秀。2opEETC-电子工程专辑

过去高通Adreno虽然在绝对性能上无法与苹果Ax GPU相提并论,但在能效方面,高通离苹果还是十分接近甚至不相伯仲的。但在最新一代产品中高通似乎已经被苹果甩开了一段距离。T-Rex测试中,骁龙855版Galaxy 10+的GPU能效水平为40.70fps/W,相较稳定状态下的A13差距达到了将近50%。2opEETC-电子工程专辑

更糟糕的是,Mali G76似乎已经在游戏图形计算效率方面达到了与Adreno几乎持平的水平。Mali对Adreno的步步紧逼,实则更体现在2018年的上一代Mali G76产品上,同样采用Mali G76的海思Kirin 980(但实施方案与Kirin 990有差异),当时宣称GPU能效(power efficiency)提升178%——2018年AnandTech针对Kirin 980 GPU(Mali G76MP10)的测试发现,在GPU满载状态下,平均能效提升相比Kirin 980(Mali G72)达到了100%,如果按照相比Kirin 970同等性能时的功耗与效率来看,则其GPU能效提升的确可能达到了华为宣传中的178%,这在行业内都是相当罕见的提升幅度。2opEETC-电子工程专辑

不过Kirin 980的GPU依然在性能和效率方面落后于同代骁龙845,部分测试的能效成绩与骁龙835接近。但此时的差距已经比Kirin 970时期缩小了非常多。到Kirin 990在GPU能效方面的表现,就Aztec与Manhattan测试已经能够和骁龙855打得有来有回,甚至部分超越(不过这与不同手机设备的具体情况仍然相关),这在以往是从来没有过的。2opEETC-电子工程专辑

最后再来看看3Dmark Sling Shot 3.1 Extreme Unlimited – Physics/Graphics测试,这两项测试侧重考察的性能重点与前面的测试不同,3Dmark Physics测试实际上是3D负载中偏CPU性能的测试。华为Mate 30 Pro表现出了最出色的成绩,这和Cortex A76的prefetcher加强,以及Kirin 990本身的存储子系统加强有关;Graphics偏重图形测试,苹果仍然表现出了不错的成绩,对骁龙855实施比较激进的一加7 Pro也表现不错。2opEETC-电子工程专辑

需要再次强调的是,测试结果与系统、软件版本都有关系,iPhone在3Dmark测试中的表现普遍并不算出色,必然是遇到了一些瓶颈的;基于iPhone Xs Max,在iOS 12与13两套系统中的3Dmark Graphics测试结果上就存在20%的差别。所以上述结果和展示方法并不严谨。2opEETC-电子工程专辑

不过在以上整体对比中,我们甚至可以认为,图形计算头一次不再成为Arm Mali,以及海思Kirin SoC的软肋。这和两年前的状况已大不相同。2opEETC-电子工程专辑

不过以上我们并没有对比GPU的“面积效率”或“性能密度”,比如苹果A13的GPU部分总面积达到了15.28mm²,这是相较大部分移动GPU都明显更大、成本更高的方案。高通骁龙和Adreno系列近些年都是以小尺寸著称的。2opEETC-电子工程专辑

三星Exynos 9820与海思Kirin 990 5G die shot,分别来自ChipRebel[13]与TechInsights[14],标注是由AnandTech进行的2opEETC-电子工程专辑

从TechInsights公开的信息来看,骁龙855的die size为73.27mm²,这是主流SoC中相当小的方案。只是没有研究机构公开对骁龙855 die的模块labeling,所以我们不清楚Adreno 640大致占到其中多大的面积。可参考骁龙845的Adreno 630占地面积为10.69mm²[15]——考虑到Adreno 640加大了后端,其尺寸理论上会更大。2opEETC-电子工程专辑

而上图分别是Exynos 9820与Kirin 990 (5G版)的die shot。Exynos 9820的die size大约是127mm²;Kirin 990 5G的整体die size约为113mm²。Kirin 990 5G虽然采用的制造工艺更先进,但因为GPU规模更大,目测实施方案的占地面积可能会大于Exynos 9820的方案,整体应该是差不太多的。2opEETC-电子工程专辑

Imagination在上个月的发布会上提到,Exynos 9820的Mali G76MP12用184%的面积,才达到与骁龙855 Adreno 640相同的性能——如果这个数据是准确的,那么高通目前仍然在面积效率方面具有相当的领先优势,即便Mali GPU已经在性能和能效方面做到了几乎与Adreno齐头并进。这一点我们猜测与Arm Mali仍然采用较窄的wavefront(或warp size),以及小核心、多核心的思路有关。2opEETC-电子工程专辑

2020年的移动GPU展望

2019年年中,Arm发布Mali G77,我们之前也已经在《ARM新版Mali GPU简析:这次终于赶超高通和苹果?》一文中对Mali G77的架构改进做了比较具体的阐述[1]。这次在架构层面的改进幅度还是相当之大的,新的Valhall架构进一步将执行引擎的wavefront size(或warp size)增加到16-wide;以前的3个执行引擎合并后分成两条ALU管线,每条有各自的FMA相关单元(融合乘加单元,也就是每个核心32个FMA);TMU单元(纹理贴图单元)吞吐能力翻番。2opEETC-电子工程专辑

Arm当时提到,G77的性能密度提升30%(每mm²性能提升1.2-1.4倍),能效提升30%(每瓦性能提升1.20-1.39倍);综合峰值图形性能预计可提升40%——这个值当然与不同厂商的实施方案还将息息相关。2opEETC-电子工程专辑

前不久,高通也发布了最新的骁龙865及与其配套的Adreno 650。比较令人在意的是,高通今年的Adreno仍然停留在600系列——这样一来,这已经是高通连续第三年采用Adreno 600系列来为产品冠名了,这在以前似乎是从没有过的,可见这代升级仍然并不是什么太大幅度的升级。2opEETC-电子工程专辑

高通提到,Adreno 650还将继续增加ALU单元+50%,以及像素渲染单元+50%(每个时钟周期处理+50%的像素,也就是ROP光栅化处理),预计总体性能提升为25%。如果说ALU单元数量增加50%,推测Adreno 650的核心数可能要增加一个,或者也可能是单核ALU数量变为512个;ROP单元也增加的话,最终讲改变处理纹素:像素单元比例。而在功耗与效率方面,高通表示在相同性能水平下,Adreno 650效率会高出35%;另外持续性能会明显优于Adreno 640。2opEETC-电子工程专辑

2opEETC-电子工程专辑

AnandTech对骁龙865的参考设计机型做了测试[16],仅有峰值性能数据。这里只摘录其中的Manhattan 3.1与T-Rex 2.7测试项,其GPU性能水平如上图所示。测试结果基本符合高通所说的25%性能提升,峰值性能优于2019年的Adreno 640与Mali G76,但仍未达到苹果A12的水平。其能效(Perf/W)接近A12的水平,领先于Mali G76与Adreno 640——这一点当然也是必然的,这里不再给出详细数据。2opEETC-电子工程专辑

值得一提的是,最终骁龙865手机依然会由于OEM厂商在实施方案上的差别而存在性能与能效的差异,所以这个数据只能作为参考。2opEETC-电子工程专辑

25%的性能提升实际是年度迭代比较符合常规的数字,不过如果Arm宣传中提到的Mali G77性能与能效提升水平的确能够实现,那么高通的这点提升将不具有竞争力——至少在性能与功耗效率方面,Adreno在2020年有被Mali赶超的可能性,高通正逐渐丢失往日相较Arm在图形计算方面的绝对优势地位;且与苹果存在越来越大的差距。2opEETC-电子工程专辑

最后仍然需要提到Imagination,虽然Imagination近些年在移动GPU的市场份额方面还在逐年萎缩,但在GPU性能与效率上却是个十分恐怖的竞争对手,尤其在前一阵PowerVR A-Series新架构发布以后,我们也已经对新架构做了相对详细的解析[2]。2opEETC-电子工程专辑

Imagination宣称,如果将Adreno 640的占地面积和性能均视作100%,则Mali G76需要184%的面积才能达到100%的性能;而A-Series GPU可以“更小、更低的功耗”实现175%的性能。这个数字实则远超今年即将大规模上线的高通Adreno 650,以及Arm Mali G77。2opEETC-电子工程专辑

而且就在这两天,Imagination刚刚宣布苹果再度与其签署多年授权协议,未来苹果A系列芯片的GPU仍能见到Imagination的IP方案,虽然我们不清楚个中合作细节,苹果目前“自研”的GPU IP中也还能见到Rogue架构的影子。但或许,苹果对于Imagination这次发布的A-Series,以及规划中的B-Series、C-Series、D-Series都十分感兴趣。2opEETC-电子工程专辑

而苹果与Imagination恢复合作,预计还将促成更多SoC制造商与Imagination的合作。这将成为刺激移动GPU市场推进的又一大变数。在2020年的移动GPU市场上,高通大概是现如今最需要重整旗鼓的市场玩家了。2opEETC-电子工程专辑

参考来源:

[1]ARM新版Mali GPU简析:这次终于赶超高通和苹果?- EE Times China2opEETC-电子工程专辑

(https://www.eet-china.com/news/201905301556.html)2opEETC-电子工程专辑

[2]剖析Imagination的A-Series GPU新架构:和高通Adreno和Arm Mali比比 - EE Times China2opEETC-电子工程专辑

(https://www.eet-china.com/news/201912062301.html)2opEETC-电子工程专辑

[3] Strategy Analytics: Q2 2019 Smartphone and Tablet GPU Market Share: Apple Gains Share as Arm Falters - Bloomberg2opEETC-电子工程专辑

(https://www.bloomberg.com/press-releases/2019-11-18/strategy-analytics-q2-2019-smartphone-and-tablet-gpu-market-share-apple-gains-share-as-arm-falters)2opEETC-电子工程专辑

[4]The most used smartphone GPU – 2019 - DeviceAtlas2opEETC-电子工程专辑

(https://deviceatlas.com/blog/most-used-smartphone-gpu)2opEETC-电子工程专辑

[5]HiSilicon Kirin 960: A Closer Look at Performance and Power - AnandTech2opEETC-电子工程专辑

(http://www.anandtech.com/show/11088/hisilicon-kirin-960-performance-and-power)2opEETC-电子工程专辑

[6]HiSilicon Kirin 970 - Android SoC Power & Performance Overview - AnandTech2opEETC-电子工程专辑

(https://www.anandtech.com/show/12195/hisilicon-kirin-970-power-performance-overview)2opEETC-电子工程专辑

[7]The Bifrost Shader Core - Arm Developer2opEETC-电子工程专辑

(https://developer.arm.com/solutions/graphics/developer-guides/the-bifrost-shader-core)2opEETC-电子工程专辑

[8]The Samsung Galaxy S9 and S9+ Review: Exynos and Snapdragon at 960fps - AnandTech2opEETC-电子工程专辑

(https://www.anandtech.com/show/12520/the-galaxy-s9-review/6)2opEETC-电子工程专辑

[9]Apple A11 Bionic chip image TMHS09 - ChipRebel2opEETC-电子工程专辑

(https://www.chiprebel.com/apple-a11-bionic/)2opEETC-电子工程专辑

[10]Apple iPhone Xs Max Teardown - TechInsights2opEETC-电子工程专辑

(https://w2.techinsights.com/l/4202/2018-09-25/2781gd)2opEETC-电子工程专辑

[11]The Apple iPhone 11, 11 Pro & 11 Pro Max Review - AnandTech2opEETC-电子工程专辑

(https://www.anandtech.com/show/14892/the-apple-iphone-11-pro-and-max-review/2)2opEETC-电子工程专辑

[12]The Huawei Mate 30 Pro Review: Top Hardware without Google? - AnandTech2opEETC-电子工程专辑

(https://www.anandtech.com/show/15099/the-huawei-mate-30-pro-review-top-hardware-without-google/4)2opEETC-电子工程专辑

[13]Exynos 9820 - ChipRebel2opEETC-电子工程专辑

(https://www.chiprebel.com/exynos-9820/)2opEETC-电子工程专辑

[14]Lenovo Brings the New Snapdragon to Market - TechInsights2opEETC-电子工程专辑

(https://www.techinsights.com/blog/lenovo-brings-new-snapdragon-market)2opEETC-电子工程专辑

[15]The Qualcomm Snapdragon 855 Pre-Dive: Going Into Detail on 2019's Flagship Android SoC - AnandTech2opEETC-电子工程专辑

(https://www.anandtech.com/show/13680/snapdragon-855-going-into-detail)2opEETC-电子工程专辑

[16]The Snapdragon 865 Performance Preview: Setting the Stage for Flagship Android 2020 - AnandTech2opEETC-电子工程专辑

(https://www.anandtech.com/show/15207/the-snapdragon-865-performance-preview-setting-the-stage-for-flagship-android-2020)2opEETC-电子工程专辑

责编:Yvonne Geng2opEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
您可能感兴趣的文章
  • 同样是台积电7nm,苹果和华为的7nm其实不一样 在谈最先进半导体制造工艺的时候,2019年的SoC似乎绝大部分都可以统归为7nm。但是当我们去细看不同手机SoC甚至PC CPU的工艺制程时,大家的7nm似乎都有些差别。
  • NVIDIA的5年黄金时光,这“不是一家芯片公司” 今年的GTC China大会,NVIDIA公司创始人兼CEO的黄仁勋在主题演讲中用两个小时的时间,去细数一年来NVIDIA的工作。在具体的产品形态上,除了“下一代机器人处理器AGX Orin”在新发布产品中是颗具体的芯片——而且还采用软件定义这种更为通用的方案,在我们看来,NVIDIA今年的努力重点就是软件。GTC China 2019的两个关键词,无非就是软件和通用。
  • 龙芯发布新一代CPU,追齐AMD 28nm工艺“挖掘机” 近日,作为“中国芯”的代表之一,“龙芯”在北京国家会议中心发布了新一代通用CPU产品:龙芯3A4000/3B4000。
  • 百度昆仑将由三星14nm量产,适配国产飞腾CPU 12 月 18 日,三星和百度官方宣布,百度首款 AI 芯片昆仑已经完成研发,将由三星代工,最早将于明年初实现量产。在12月19日举行的“2019飞腾生态伙伴大会”上,百度也出席介绍了昆仑芯片并透露,昆仑AI芯片已经在百度智能云上线,正在适配国产飞腾服务器,做性能调优工作……
  • Apple的前工程师成立Nuvia,挑战英特尔数据中心霸业 今年才成立的新创公司Nuvia开发出新款CPU服务器核心与SoC,计划在数据中心市场向长久以来寡头垄断的英特尔下战帖...
  • 只用一年半打造的AI训练芯片+加速卡,会是什么样? GPU当前是个非常有趣的产品形态,它已全然不止是图形计算设备这么简单;GPGPU的发展,以及随2012年AlexNet选择GPU对图像识别过程做加速,刷新机器图像识别正确率以后,GPU现如今是AI领域十分重要的硬件产品——而且覆盖了云端到终端,从training到推断inference。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告