广告

10核GPU真的够用吗?全面解析天玑9000的游戏水平

时间:2021-12-23 08:15:48 作者:黄烨锋 阅读:
此前我们写过一篇文章综合评价联发科天玑9000芯片,提到这颗芯片作为明年要大举推向市场的旗舰SoC,有许多令人期待之处。最近一波天玑9000和骁龙8 Gen 1的抢跑成绩,也进一步验证了天玑9000明年定位旗舰的实力——已公开的这波结果也是此前我们没想到的。这其中比较令人惊喜的,是天玑9000的游戏表现……
广告

此前我们写过一篇文章综合评价联发科天玑9000芯片,提到这颗芯片作为明年要大举推向市场的旗舰SoC,有许多令人期待之处。最近一波天玑9000和骁龙8 Gen 1的抢跑成绩,也进一步验证了天玑9000明年定位旗舰的实力——已公开的这波结果也是此前我们没想到的。

这其中比较令人惊喜的,是天玑9000的游戏表现。极客湾最近发布针对天玑9000工程机的测试表明,这颗芯片在《原神》这类高负载游戏中的持续性能和能效相当亮眼,在某些维度能够对隔壁竞品造成相当的压力。以天玑9000选配Arm Mali-G710 MC10规格,整体结果还是让我们十分意外的。

前不久我们刚刚汇总了一篇有关近两年手机GPU图形计算与游戏性能的文章:虽说抛开芯片的面积效益不谈,高通Adreno失去昔日优势地位已成定局,但今年10核心Mali-G710能有如此优秀的表现,实在是让人感叹技术竞争之无常。

当然,游戏作为抽象层级比较高的一类应用,性能、功耗、综合体验考验的并不单是GPU,而是整个系统层面的能力,包括CPU、操作系统、驱动和各种中间件。本文我们单纯从天玑9000芯片的角度,来尝试分析一下,天玑9000芯片是如何达成旗舰级的游戏体验的。这对我们理解当代移动平台的图形计算技术也有帮助。

先从总体来看天玑9000

首先还是看看有关天玑9000芯片的主要配置:

  • 制造工艺:TSMC 4nm;
  • CPU:1x Cortex-X2 3.05GHz + 3x Cortex-A710 2.85GHz + 4x Cortex-A510 1.8GHz;
  • GPU:Mali-G710 MC10;
  • APU:APU 590,4x 性能核 + 2x 通用核
  • ISP:Imagiq 790,最高支持90亿像素/秒吞吐,3.2亿像素摄像头;3个18bit HDR Fusion ISP;更先进的AI video架构;
  • 媒体与显示:MiraVision 790,支持8K AV1视频播放;显示输出支持最高WQHD+ @144Hz/FHD+ @180Hz;支持全球HDR新标准;
  • Modem:M80,5G Rel.16;支持下行载波聚合3CC最高300MHz频宽(3x100MHz)、7Gbps速率;上行R16 UL增强;UltraSave 2.0节电特性支持;
  • 其他连接:WiFi 6E(6GHz);蓝牙5.3;完整的GNSS支持;
  • 内存支持:LPDDR5x-7500Mbps;

CPU部分不再细说:是首个Armv9指令集方案,1+3+4的三簇设计算是常规,频率整体比隔壁竞品高,实则能够一定程度表现台积电N4工艺相比三星4LPE/4LPP的高频能力。

比较值得一提、相关天玑9000 的一大亮点在于存储子系统,CPU部分的L3 cache拉满到了8MB——这也是Arm此前发布Cortex-X2时推荐的L3 cache大小;以及System Level Cache增大至6MB。这两个值对于存储敏感型应用是很有价值的,比如说游戏。联发科在发布会上提到这两级cache的增大,能够帮助减少25%的带宽消耗。尤其对于移动GPU这类TBR基于tile延迟渲染的图形加速器而言,对性能、功耗都会有帮助。

天玑900010GPU够用吗?

既然主要谈游戏性能,那么GPU自然就非常重要了。天玑9000选配的是10核Arm Mali-G710。有关这颗GPU的架构改进,此前我们也已经撰文探讨过。从大方向来看,Mali-G710和G77、G78一样,都属于Valhall架构。Valhall架构的前两代,G78相比G77的改进的确比较小。

不过G710在shader核心、纹理单元方面都有规模上的显著扩大。比较大的变化在于每个shader核心的执行引擎(Execution Engine)数增至2个。而且执行引擎内部也有变化,在warp size和整体吞吐不变的情况下,处理单元分成了4组4-wide处理元素。如此一来,每核每周期FMA吞吐翻翻,而且能耗也有显著下降。

配套TMU纹理单元在吞吐上也翻倍了,且面积效益(性能密度)有了相当大的提升。当然并不能就此简单地说,Mali-G710的一个shader核心就相当于G78的两个shader核心;但规模扩大依然是显著的。

另外G710把job manager换成了所谓的CSF(Command Stream Frontend),处理调度和draw call。这个模块中,尤其固件层的引入能够针对一些较复杂的图形负载,提供更具弹性的性能表现,减少驱动开销、提升效率。另外还有指令模拟等新特性。

Arm官方给出Mali-G710的shader核心数可选配范围在7-16个,整体性能相较上代提升为20%。此前Mali-G78的满配核心数是24个。其实从纸面上来看,天玑9000的Mali-G710 MC10,在核心规格上堆得还是颇为保守的——当然此处我们并未加入shader核心频率的考量。

但有一点不要忘记,下图我们总结了近两年移动GPU性能的时候也发现,核心数有时候并不靠谱。比如说谷歌Tensor芯片,规格为20核心的Mali-G78,但其持续性能还不及只配了14个Mali-G78核心的三星Exynos 2100。

这是多方面原因造成的,包括工艺、峰值功耗,还有OEM厂商的系统设计与调度策略。Android平台的图形算力峰值性能价值其实并不是很大,且游戏总是更追求持续性能。毕竟玩游戏可不是每次都只玩1分钟。这两年Android阵营的旗舰芯片普遍陷入了峰值性能与持续性能严重不对等的怪圈,这种风气相当不好。

我们也拿到了天玑9000的GFXBench Aztec Ruins高画质离屏渲染测试(Vulkan)与Manhattan 3.1离屏渲染测试的性能成绩(持续性能暂缺)。这个结果还是相当出乎我们的意料。这表明Mali-G710的核心与配套加料还挺充分。或者说天玑9000 GPU的频率可能会定得比较高。

当然,如前文所述,这与CPU和整颗芯片的cache容量也有着莫大关联。至少就峰值性能水平来看,还是相当有潜力的。这就让人非常期待来年天玑9000手机的实际游戏表现。毕竟持续性能考验的还是OEM厂商的系统设计能力。

不过我们没有天玑9000在这两项测试中的平均功耗成绩。如此前撰文提到的,近两年的手机旗舰SoC在进行这两项GFXBench图形性能测试时,在某些点的瞬时功耗都能拉到10W以上,首轮跑分平均功耗也有8-9W。这对手机而言是相当惊悚的功耗水平,也是不可持续的。希望天玑9000不要延续这样的“传统”。后文还将就此做更多的介绍。

联发科针对天玑9000的GPU项目宣传数字,给出的都是实际游戏帧数。基于GFXBench测试成绩,以上列出的大部分主流手机游戏达成“满帧”就在意料之中了。

针对更多人关心的持续游戏性能,联发科此前也给出了《原神》这个高负载游戏的24分钟帧率曲线。通过网上目前可以看到的测试来看,天玑9000在功耗和发热方面当有相当出色的表现。

另外插个题外话,《原神》是个对CPU资源需求也比较大的游戏。影响游戏帧率的主要因素包括GPU性能、驱动程序效率、API效率、CPU性能、draw call、带宽等。对于《原神》这种包含大量对象的游戏来说,draw call数量庞大。Draw call是指CPU调用API,指挥GPU去工作的过程。CPU的性能对《原神》这样的游戏而言也格外重要。

天玑9000的Geekbench 5单核与多核性能成绩似乎是秒杀Android阵营全场的。

GPU这部分的最后,我们再花点笔墨聊聊 “动态光照”和“光线追踪”。此前《手机游戏与AI将走向哪儿?谈谈联发科眼中的未来技术趋势》一文中曾谈到过联发科对于全局光照和光线追踪的布局。

联发科在这次发布会上说:“天玑9000也支持最新的动态光照游戏技术。随着游戏的运行,支持更多动态光源,让光影更能真实表现,让手机也能运行3A品质的手游大作。”记得联发科在前不久的媒体沟通会上提到过,开放世界游戏的全局光照实现是颇具挑战性的。因为开放世界游戏的游戏场景动态变化频繁,场景对象和面数都可能很多。

上图中提到动态光照优化技术,实现带宽降低,也是基于移动GPU的延迟渲染特点达成的。主要是通过片内cache/buffer来减少数据搬运和光照计算。此前联发科说这样的优化能够“支持10倍数量的动态光源交互,节省20%带宽。”当然除了硬件微架构上的变动,也有计算机图形学方面的演进。这个例子应当算是比较典型的、移动平台节能提效方案了;也是此前联发科技术积累在天玑9000芯片上的一个重要体现。

此外在此前的沟通中,联发科提到已经在和Arm就光线追踪进行分阶段合作,以前的芯片产品就已经在为光追做准备,包括“渲染指令计算、缓存机制,现在是融入在了IP里面的”。

而且这次发布会上,腾讯游戏发言人也提到天玑系列5G芯片对于移动光追技术的布局,与腾讯之间的合作。联发科和腾讯共同开发的游戏光追“双引擎”(包括“光追引擎”和“降噪后处理引擎”)现在应该是能够为开发者所用的。这显然也是将来光追游戏布局的重要组成部分。

谈谈备受关注的游戏能效表现

如前文所述,光有图形计算的峰值性能对日常游戏体验而言,是没有参考意义的。此时天玑9000的功耗、发热,应该是更多用户关心的话题。

有关功耗,虽然我们暂时没有具体的数字。不过联发科在发布会上特别提到了“全局能效优化技术”。这个词估计是整颗SoC芯片,各种节电设计方案的叠加,不仅限于某一个IP,包括前文提到GPU微架构上的不少节电方案(以及后文还将提到的部分方案)。

联发科在天玑9000发布会上提到,天玑9000在轻载应用上(比如朋友圈、淘宝购物、浏览新闻等)相比竞品可省38%的功耗;中载的视频录像方面,节省功耗9%-12%;重载的游戏表现方面,“MOBA沙盒类游戏下,连续玩10分钟,可以比竞品省25%的功耗。而且手机表面温度更低”,“连续玩60分钟,较竞品在表面温度上可以降低5-9℃”。

虽说手机表面温度这种东西很大程度与OEM厂商的系统设计相关,但能够实现这一点,理论上应当是芯片层面微架构、工艺升级共同达成的。一方面说明Mali-G710升级比较靠谱,另一方面也说明联发科在做PPA权衡时,选择10个核心的配置(以及其他设计上的调整:比如说有可能联发科选择了GPU不同步时钟域的方案)、外加其他IP组成部分(包括CPU)都比较合理。

如果以上数据都可信,那么对于游戏综合体验,以及游戏高负载续航而言,天玑9000显然是个不错的选择。

有关“全局能效优化技术”,联发科说得还是比较抽象,未曾明言具体有哪些技术。猜想我们前面列举的包括采用台积电N4、图形计算的动态光照、GPU微架构设计上的调整,乃至并非本文重点的ISP、APU、modem(典型如UltraSave 2.0)等都涵盖其中。

有关游戏的节能,这里还能列举的一个典型技术就是超分(Super Resolution/Super Sampling)了。在普通用户市场上,英伟达DLSS开始宣传超分技术,让此类技术在游戏用户中家喻户晓。所谓的超分,也就是将低分辨率的画面upscale为高分辨率——如此一来,GPU只需更低的渲染开销,就能获得接近原生高分辨率的画质,起到提升游戏帧率、同时降低功耗的作用。

联发科的游戏超分技术也是此前就开始做布局的。具体方案是以GPU+APU来达成AI超分。技术思路和英伟达、Intel应当是比较类似的。这项技术的达成,与天玑9000上的APU 590自然是分不开的。此前我们撰文谈到过,联发科这次的APU在性能和能效方面,达成了对几乎所有手机芯片的碾压。当然这并非本文要谈的重点。

这项技术如果能够得到游戏开发者的积极响应,并在未来普及,那么以更省电的方式来游戏,甚至对于光线追踪的尽早普及,都将是十分有意义的。

低功耗是联发科在近两次发布会上反复提到的,强调低功耗是联发科技术上的特色和优势。“功耗”一词在整场发布会上被提到了大约25次。“在我们设计天玑9000初期,就考虑到功耗和发热的问题。我们的设计团队开始的时候,坚持采用功耗表现最好的台积电最新4nm制程。天玑9000在芯片架构上做了全面的架构优化,不管CPU、GPU、APU、ISP、modem等等的IP模块上做了最好的能效曲线。”而且也特别强调了“打游戏不发烫”。

因为篇幅原因,我们只能列出游戏相关的一部分低功耗技术。实际上像M80 5G modem,采用联发科的UltraSave 2.0省电技术,结合R16新标准的一些5G节能技术,“进一步降低27%的功耗”;再比如Imagiq 790 ISP,据说在4K HDR全功能录制视频时,功耗能做到“比竞品低30%”……

还有个HyperEngine游戏引擎

在现代图形计算技术上,其实还有很多低功耗相关的方案,比如说VRS。不过这类技术被联发科归类到了所谓的HyperEngine中的智能调控引擎方案里。VRS也就是可变速率着色,是指对于画面中没那么重要的对象(比如不怎么影响视觉体验的背景),可以不必做很精细的渲染,也就能够起到降低功耗的效果。

这张图给出了联发科AI-VRS(可变渲染技术)在开启和关闭之间,GPU资源占用情况。除此之外,还有资源调度优化方案,都能够不同程度地对游戏降低功耗起到帮助作用。

对联发科产品和技术熟悉的读者应该很清楚HyperEngine技术。这是联发科的“游戏引擎”。天玑9000将HyperEngine升级到了5.0版本。HyperEngine总共包括4个主要的组成部分,除了前面提到的智能调控引擎以外,还有网络引擎、操控引擎和画质引擎。

这几大引擎的提升除了画质引擎的光追支持,前文已经提过,这里网络引擎、操控引擎都是对游戏体验的加成。比如网络引擎强调优化极端场景下的时延问题。这类技术在2年多以前刚刚发布的时候,还是相当惊艳的,包括当时的WiFi不同频段,甚至加上LTE的并发;以及抗握姿干扰、复杂网络环境适应性等。

天玑9000的网络引擎在联发科的宣传中是“MediaTek FastPath专有协议快速通道+WiFi/蓝牙双连抗干扰2.0+智能天线2.0”,能够在遭遇弱网、握姿屏蔽和存在干扰的时候,以期尽可能维持在<100ms的网络延迟下。

操控引擎本次更新的是“智能屏显同步技术”。这项技术的本质是从触控到显示这个周期内,降低延迟的技术。其实这类技术和桌面PC平台游戏技术进化的思路是一致的,英伟达有个Reflex技术,是让PC和显示器更快地响应鼠标与键盘输入。这类细微体验差异,对电竞和高阶玩家是很有帮助的。

低延迟对游戏体验加成的另一个技术点,还在于天玑9000对蓝牙5.3的支持,加上蓝牙LE Audio以后,联发科表示蓝牙连接的音效延迟可以降低32%。这对用蓝牙耳机玩游戏的用户而言,应当是相当有价值的了。

关键的2022

本文主要谈的就是天玑9000在游戏方面的一些技术与努力。有关这颗芯片能谈的其实还有很多,比如说APU、ISP。这次发布会上,联发科还特别谈到了APU 590配套的开发环境与开发工具,及生态发展情况,是此前联发科不曾公开谈论过的(如下图)。

因为篇幅的关系,本文对天玑9000芯片相关游戏特性之外的其他构成不再多做介绍。

许多普通消费用户更关心的应该还是搭载天玑9000的终端产品。天玑9000手机应当会在明年一季度末上市。发布会上我们听到有关终端产品的信息主要包括

  • “OPPO下一代Find X旗舰系列,将首发天玑9000”;
  • “vivo将成为率先采用天玑9000旗舰芯片的终端厂商”;
  • “Redmi下一代旗舰K50也正蓄势待发”…“天玑9000是K50宇宙不可或缺的关键性能拼图”;
  • “未来将跟荣耀的新产品进一步深入合作”。

与此同时,京东也和联发科合作开启了“京东天玑旗舰店”。天玑9000的产品造势不可谓不盛。就如此前评论文章谈到的,联发科显然是要抓住天玑9000的机会,大肆开拓旗舰手机市场。所以这款产品的重要性是不言而喻的。

事实上,联发科当前已经是智能手机应用处理器出货量份额最高的品牌。在旗舰与高端市场上有所作为,将成为新的一年里,联发科实现营收增长、明确品牌地位的重要一役。天玑9000的存在有可能会成为旗舰手机市场洗牌的关键。在Nuvia成果问世以前,高通明年的日子会更不好过。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 神经形态新秀连手催生结合处理器IP的图像感测单芯片 瑞士新创公司SynSense和法国厂商Prophesee正在合作开发一款事件导向图像传感器单芯片,结合Prophesee的Metavision 图像传感器和Synsense的DYNAP-CNN 神经形态处理器。
  • 云端竞速:MLPref最新AI训练跑分结果出炉 微软Azure利用大规模的Nvidia驱动实例,在最新一回合的MLPref人工智能训练性能测试基准跑分展现了世界速度最快的AI云端系统...
  • IDC 对2022年中国PC市场的十大预测 后疫情时代,中国PC市场在2021年迎来了同比16.1%的正增长,势头强劲。在配件供应、政策变化、市场需求等诸多不确定因素的影响下,2022年中国PC市场仍面临诸多挑战。但我们认为,2022年中国PC市场在以大学生、时尚新锐、数字驱动和数字原生型企业为首的市场需求带动下仍将保持上涨趋势。
  • DPU市场,一片混战 据IDC统计,全球算力的需求每3.5个月就会翻一倍,远远超过了当前算力的增长速度。在此驱动下,全球计算、存储和网络基础设施也在发生根本转变,一些在通用CPU上不能得到很好处理的复杂工作负载开始转向智能网卡(SmartNIC)和DPU,以此来减轻CPU内核的负担。
  • 小米自研充电芯片澎湃P1 性能参数详解,12Pro首发 小米造芯已久,虽然中间经历了一段时间的波折,今年3月发布的C1让米粉们失望,但小米造芯的脚步没有停下,今天(12月24日)小米发布了新一代芯片澎湃P1,这款自研的充电芯片澎湃P1将由下周登场的小米12Pro首发搭载。请看其性能参数详情。
  • PACE,曦智科技的一小步,光子计算的一大步 PACE是曦智科技(Lightelligence)日前发布的最新高性能光子计算处理器,在单个光子芯片中集成了超过10,000个光子器件,系统时钟达到1GHz,算力是上一代处理器的100万倍以上,运行特定循环神经网络速度可达目前高端GPU的数百倍。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • 硅谷数模完成15亿元融资,深创投领投
    据悉,硅谷数模(苏州)半导体有限公司(下称:硅谷数模)于近日完成15亿元 Pre-IPO轮融资。本轮融资由深创投领投,招商局国家服贸基金携招证投资联合领投,由TCL、联和资本、上汽恒旭、海尔资本等产业投资方,以及上国投资管、兴橙资本、华控基金、厦门创投、广发信德、横琴金投、汇添富基金、兴银资本、信银桐曦等投资机构作为联合投资方,公司多个老股东包括厚扬资本等在本轮融资中追加投资。据了解,硅谷数模本次融资资金主要用于继续吸引行业内顶尖人才,拓展高清显示和高速连接领域的先进芯片和IP技术研发、完善芯片产品线布局、加强供应链体系建设。
  • RACM1200-V | 行业领先高功率密 医疗电子产品通常被认为是最注重安全和可靠性的电子产品,由全球高端设计和生产标准所推动。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了