广告

简析移动GPU的首个光追架构: Imagination的下一局争夺战

时间:2021-11-08 作者:黄烨锋 阅读:
光追被业界一致认为是图形计算的必备技术,它能在虚拟图形世界,令画面对象之间实现更为真实的光影关系。我们现在说的光线追踪都是指实时光线追踪,毕竟非实时的光追早就在动画电影之类的领域普及开了。这两年实时光追在图形计算领域被提得非常多,但因为贪婪的硬件资源需求,这项特性始终未能进入到移动设备上……
广告

感觉Imagination Technologies(以下简称Imagination)如今的主场的确是来到了中国,这两年比较重要的发布会都选在中国本土召开。比如上周末Imagination在上海召开发布会,发布IMG CXT——这是Imagination旗下C系列的GPU IP产品。前年《电子工程专辑》详细介绍过其A系列GPU架构——就架构层面来看,可认为是移动GPU的一次重要飞越。

这次发布会的一个重头戏是PowerVR Photon光线追踪架构,Imagination将Photon光追架构加到了C系列GPU IP之上。Imagination对于光追技术的投入,在移动领域应该算是移动GPU IP产品中最早的,此前我们也特别报道过——有关什么是光线追踪,及其主流硬件实现,本文不再赘述,感兴趣的读者可移步了解。总的来说,光追被业界一致认为是图形计算的必备技术,它能在虚拟图形世界,令画面对象之间实现更为真实的光影关系。

当然我们现在说的光线追踪都是指实时光线追踪,毕竟非实时的光追早就在动画电影之类的领域普及开了。这两年实时光追在图形计算领域被提得非常多,但因为贪婪的硬件资源需求,这项特性始终未能进入到移动设备上。Imagination表示,这次发布的IMG CXT是“首次在移动IP上实现了桌面级质量的光线追踪视觉效果”,而且“已经在多个市场上进行了授权”。

另一方面,在市场规划上,Imagination将Photon定位在移动、游戏、AR、桌面、数据中心、云和汽车等场景——Imagination的GPU IP近几代的规划都能通过架构的弹性扩展来覆盖低功耗到高性能计算领域。当然,我们认为移动仍然是其主场。

我们认为IMG CXT以及PowerVR Photon都是非常重要的技术发布,甚至可能在图形计算领域具有颠覆性。原则上,我们应当对其做详尽的技术解析。鉴于近期活动排程之多,我们无法对这两者做完整的解析。本文仅作为本次发布会的报道,对两者做简单的介绍。后续我们将单独撰文来探讨Photon光追架构。这里推荐感兴趣的同学阅读Imagination官方已发布的两篇paper:

1.The Six Levels of Ray Tracing Acceleration

2.Introduction to the PowerVR Photon Architecture

新发布的GPU IP产品:IMG CXT

先从较高层级来谈谈这次新发布的GPU IP:IMG CXT。Imagination中国区董事长白农在发言中提到,IMG CXT(-48-1536 RT3)“是Imagination全新C系列GPU中的第一款产品”。回顾Imagination的GPU IP产品命名方式,在2019年之前还是用数字来命名的;2019年以后,A系列、B系列、C系列接踵而至。

Imagination技术前瞻副总裁Kristof Beets说:“A系列GPU IP产品对我们来说是技术上的飞跃,它帮助我们达成了更高的算力密度以及更低的功耗——A系列对于渲染引擎带来的提升是巨大的,奠定了非常好的基础。”

“B系列GPU IP则让我们得以进入传统市场之外的部分——我们传统市场包括消费端电子产品,如移动端、娱乐设备、车载GPU等。B系列多核叠加的方式,令其扩展到了其他平台,如PC、笔记本电脑、云计算、云游戏相关的产业。”

“今天发布的C系列GPU IP,因为光线追踪技术的引入,让GPU效率能够得到进一步的提升。”Kristof表示,“我们推出C系列GPU IP的主要原因,是希望通过专用的、高效的光线追踪的硬件组成,来帮助原有的GPU核心进行工作负载的分流。”

Imagination中国区战略市场与生态副总时昕博士也说:“在B系列的基础上,我们进行C系列的开发,带来更高的性能、能效比。今天发布的光线追踪架构也会随着C系列一起提供给客户。”

从Imagination的产品发布来看,Photon光追架构应该是可以单独于C系列存在的。比如Photon光追架构似乎也可以和B系列搭配;当然C系列的亮点就在于与Photon的搭配。另外,从A、B、C系列的演进来看,大方向是为GPU增加更多专用模块的过程。这可能也是当代GPU发展的整体趋势,毕竟可编程计算单元堆料可获得的性能进化还是存在边际递减效应。

这次发布会上,除了光追以外,Imagination并没有花较多篇幅谈C系列架构的其他进化。Imagination在新闻稿中提到,IMG CXT-48-1536 RT3内核具有3个RAC(光线追踪集群),可提供1.3GRay/s的性能——这一点还将在下文谈Photon光追架构时详述。“即使在移动设备低功耗的情况下,也能以1080P分辨率实现30~60FPS的实时光线追踪渲染,满足日常游戏高端需求。”这是个比较模糊的说法。

与此同时,CXT在光栅化图形处理性能方面与上一代相比,“其计算、纹理和几何性能都提高了50%”;“它的低功耗超标量(superscalar)架构可在低时钟频率下提供高性能,从而实现卓越的帧率功耗比(FPS/W)效率”;“同时Imagination图像压缩(IMGIC)技术可以大幅降低带宽需求。”

Imagination官网提到IMG CXT的主要提升如上图所示。每个核心FP32算力1.5TFLOPS(注意“核心”的定义,后文将会提到;并不是指一个USC,或者一个shader核)。时昕博士补充说:“每秒钟可以做48G的像素、纹理运算;每秒钟可以计算13亿条光线的折射反射。还有一个概念就是每秒钟可以做48G的BoxTest。做AI定点运算每秒可以达到6TOPS。”

将多个IMG CXT做叠加,则更大规模的GPU可以扩展到PC、数据中心、云市场。“可以实现高达9 TFLOPS(每秒万亿次浮点运算)的FP32光栅化性能和超过7.8 GRay/s的光线追踪性能。”

光线追踪实现的6个等级

我们知道Imagination做光线追踪技术已经有些年头了。时昕博士也在介绍中谈到:“Imagination在光线追踪方面大概有10年左右的历史了。2014年就有一颗测试芯片回来——当时这颗芯片是用28nm工艺去做的。功耗达到了个位数。当时光线追踪的硬件是跟我们的Plato平台放在一起的。”

不过“当时整个生态可能还没有准备好。当时的图形API标准也没有关于光线追踪的东西,包括相关的开发工具软件、游戏引擎等也没有光线追踪的功能。从2021年开始,我们看到整个业界生态都开始投入。我们认为这个时候是我们和合作伙伴一起推出具有光线追踪功能的芯片的时机已经到来了。”时昕博士说。

在谈Photon之前,有必要说说Imagination对于光线追踪加速的“分级”。Imagination将光线追踪的GPU硬件实现分成了6个级别,从Level 0到Level 5,如上图所示。建议阅读文首给出的第一篇paper。

简单来说,Level 0是指早年的一些探索:碎片化的光追实现,包括Intel Embree、Caustic OpenRL都是其中的例子。鉴于彼时生态的碎片化,这样的API很难得到推广和普及。当时有些方案甚至是提供完整的渲染引擎给开发者,这对实时光追生态的建立也是更加不利的。对于非实时的光追效果、某些专业视觉领域应用而言,这类方案还是有价值的。应该说,尤其对游戏、AR/VR之类的生态而言这种方案是不现实的。标准化才是游戏与某些专业视觉开发的必由之路。

Level 1则是传统GPU上的软件式实现方案。纯软件实现光线追踪的代价自然就是算力、带宽、功耗,以及画质了。

从Level 2起,在Imagination的定义中就已经开始加入面向光追的专用硬件单元了。其实从软件实现方案打下基础以后,大方向的光追走什么样的流程已经比较清楚了,包括ray-box和ray-triangle相交的处理问题。那么将原本可编程的通用单元,以固定单元的方式放在GPU里面,就能极大提升效率。这个阶段应该就是Imagination在2014年之时提出的。固定功能实现,可以新指令的方式放在shader程序中。时昕博士说,从Level 1到Level 2,“加上硬件,会有数十倍的提升”。

后面的Level 3、Level 4、Level 5实际上是固定功能硬件单元的进一步加强。比如Level 3是BVH(Bouding Volume Hierarchy,层次包围体)加速的硬件实现。“从Level 2到Level 3,把光线遍历、追踪和监控算法通过专用硬件来实现,效果又有了几倍提升。”时昕博士表示。如果按照Imagination的分级来看,当前包括英伟达、AMD等的光追实现,应该都在这个层面上,此前的文章中我们也都谈到过

而Imagination定义的Level 4是在硬件实现上给BVH处理多加了所谓的“Coherency Sorting”。这是考虑到现实世界中,不同材质对于光线的反射特性、方向是不同的。光线穿过BVH盒子就会有不同的路径,这就需要更为频繁的内存访问了。而且光线不同路径的走向也会和不同的三角形相交,这也会加重shader执行的工作量。

这种不确定性对于GPU这样高度并行工作的硬件而言是不利的。Imagination提出具有相关性(或者一致性,coherent)的光线做分组(sorting),如上图所示。对某些材质反射的同方向光线可以做分组,这样一来可以实现更高的cache命中和数据复用率,也提高了并行ALU管线利用率。所以关键在于找到“相关性”。一般现在的移动GPU,会将其与tile-based渲染做结合,在tile分组以后,让每个三角形的像素,以相关像素群组的方式做处理。处理过程都放在片内进行即可,也就不需要去频繁访问外部存储了,降低带宽需求和功耗。

时昕博士表示:“到Level 4的时候,我们有10亿条光线——真实场景里的光线以平行光为主,太阳光都是平行光。10亿条光线不需要一条一条去算,我们将其分成一组一组去算。分组后,计算效率又能提升很多倍。分组的一致性(即coherency)检测通过硬件去做。我们有个专业名词定义,叫‘簇化’,这是Level 4的应用。”

Level 5则是在Level 4的基础上,增加硬件级的Scene Hierarchy Generator,主要是相关于BVH本身的生成加速的。因为篇幅关系,此处不再详述。

简单谈谈PowerVR Photon光追架构

Imagination表示,其Photon光追(CXT)是“业界首款RTLS 4级光线追踪架构”,“全球第一个做到L4的硬件处理,而且是在移动端——当然也可以在PC和数据中心实现”。与此同时,“功耗比现有的RTLS 2/3级解决方案高2.5倍”。我们认为,从光追尚未真正标准化的角度来看,自己定一个标准,然后自己说自己在某个等级还是挺奇怪的。

不过从Imagination Level 0到Level 5的划分来看,尤其是Level 2-Level 5其实也能看出光追技术的硬件优化方向——一路在提升光追的效率方面前行,这个大方向应当是十分正确的。虽然在具体实现上,可能还需要观察业界的其他参与者(如英伟达)准备怎么做。

那么具体到Imagination的PowerVR Photon架构,Imagination将加入到GPU中的这种加速单元称作RAC(Ray Acceleration Cluster,光线追踪集群;可以这么理解:RAC单元是基于Photon架构的)。流程包含从发射一条光线(从shader/kernel),到把命中或未命中结果返回到ALU做处理。

RAC在构成上的核心组成包括了Ray Testing Units、Hardware BVH Walking;当然加速结构中,还有前面提到的分析相关性光线的Packet Coherency Gather(这里的Packet可理解为分组的意思;Imagination似乎对其中文译法叫相干性聚集器…)。

其中Ray Testing Units光线测试单元,处理海量的相交测试。Imagination表示,做大量光线与hierarchical box结构相交运算,RAC以专用硬件的方式offload原本属于USC的工作,实现芯片面积和功耗的节约(USC是指Unified Shading Cluster,是早年Imagination对于GPU核心的定义,每一个USC包括了很多传统意义上的shader核心——但本文提到的核心并不是指USC)。Imagination在宣传中提到,相比达成相同功能的USC模块,这类固定功能加速单元可以让对应的芯片面积减小44倍。

Hardware BVH Walking部分,是追踪通过BVH的每条光线的递归过程。这部分的硬件实现包括了专门的ray ram storage(应当就是前面图中的Ray Store,即某种片内存储)和多个scheuling调度引擎(Ray Task Scheduler)。

Packet Coherency Gather当然就是前文提到Level 4的关键所在了。这部分硬件单元负责分析所有光线,构建相关光线(coherent rays,也就是相似轨迹路径的光线)的分组。如前所述,通过测试和处理这些相关光线,能够实现更高的处理效率。

从这套方案,以及Imagination本身的TBDR架构来看,或许移动平台会更适用IMG CXT(但或许也不尽然,苹果的GPU现在不就用在了MacBook Pro 16”移动工作站上么)。前文已经提到,Imagination对IMG CXT的定位也不仅限于移动平台。如前文所述,IMG CXT GPU多核(4个CXT RT3)弹性扩展可达成9 TFLOPS的FP32性能,与7.8Gray/s光追性能。Imagination表示“相比市场上现有解决方案,让笔记本、桌面与云游戏解决方案,实现最高2.5倍的光线追踪效率提升”。

时昕博士提到:“RAC由专门的硬件组成。和传统的B系列、C系列模块放在一起,可以组成具备光线追踪能力的GPU。针对桌面级,如果要做4K分辨率,CXT架构支持多核实现更高的性能。4核最多可以达到7.8Gray/s。同时还可以选择NNA(神经网络加速器)单元去做降噪处理,GPU可以拿更多的资源去做图形相关的渲染计算。”

最后来谈谈生态和市场。IP或硬件层面的实现,Imagination应当已经准备就绪。真正的难点在于生态构建上。我们在采访中询问Imagination有关于当前其GPU IP在高端移动平台方面真正转化为芯片的问题。Imagination回应打造IP以及最终发布芯片产品之间是需要一定时间的,“我们很快应当就会看到首颗B系列的芯片问世。”

“在高性能平台上,我们已公开宣布Innosilicon(芯动科技)将成为合作伙伴,采用多核BTX配置;除此之外,也还有更多合作伙伴会将我们的高端设计付诸实现。”

至于这次发布的CTX产品,Kristof表示:“这款带有光线追踪功能的CXT授权已经给到分布在全球多个国家的好几个客户。但目前我们无法透露是哪些客户。”“通常从IP授权到集成到SoC,到流片、进入平台、推向市场,整个周期需要18-24个月。今年给IP授权,他们的最终产品应该是2023年能够上市。”意即消费用户体验到光线追踪是在2023年。

在软件工具方面,时昕博士谈到:“仅有硬件是不够的,我们也开发了软件工具:可以查看每秒的光线数、测试的负载。还有个软件开发套装,给内容开发者使用。它能达到的效果,就类似于将来跑在PowerVR上,可以模拟出这个效果来。”

Kristof在答记者问时说:“现在市场上已经出现了一些光线追踪技术趋于标准化、统一化的趋势。比如说Windows下面有一项技术,我们也跟他们有相应技术上的匹配。主要目的是为了让我们的技术能够有更好的兼容性和可用性,让开发者能够利用我们的技术来开发出相应的光线追踪的应用。标准化方面,我们也大量参与了微软的沟通和讨论。”有关PowerVR Photon架构的完整开发生态,后续我们会再做关注。

另外,虽然芯片设计厂商的名字无法透露,这次为新GPU IP站台的内容厂商倒是不少。时昕博士说:“光线追踪要获得成功,光靠我们一家公司是不行的。”…“我们跟国际很多生态伙伴一起共同合作。包括在游戏方面,我们跟完美世界、腾讯、网易等知名企业有深度合作。还有许多中小厂商也有深度合作。”在Imagination提到的“行业反馈”中,完美世界、腾讯游戏、网易游戏等都给出了相对正面的评价。

其中腾讯游戏引擎技术副总监魏楠提到,“腾讯游戏将与Imagination展开密切合作并探索该技术在游戏领域的应用。”似乎光线追踪这个制高点是其他GPU IP供应商也在追逐的,前不久联发科在发布会上提到对于光线追踪技术的布局,以及和Arm、腾讯等方面的合作。这一局的战役看起来很快也要打响了。

Imagination副总裁及中国区总经理刘国军在开场时提到:“2020年我们的营业收入是1.25亿美元,这是近几年的高峰。2021年我们将会达到另一个高峰。”…“行业给我们带来了机会,过去两三年,我们成长很快。”“我们作为基础技术提供者,有30%以上的成长,速度是很快的。”光线追踪对Imagination而言同样是非常重要的发展机遇,或许也是夺回当年在手机行业制高地的重要契机——这一局实在不容小觑。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 四种开关器件的效率比较 在设计电源时,必须考虑其可靠性和安全性。设计人员需要仔细查看提供的数据,并进行大量测试来计算最差使用效率。功耗(静态和动态)的计算是电源电路设计的必要步骤。改善开关系统和提高电路效率的技术有很多,每种功率器件也都有其自身特点和优缺点,具体应根据应用而定。
  • 耐辐射FPGA具备高可靠性和可重构性,助力解决航天器设计 在挑选现场可编程门阵列(FPGA)半导体产品时,卫星和航天器系统设计人员有几种不同的选择。一种是选择商用现货(COTS)组件,这种做法可降低组件单位成本,缩短交付时间,但可靠性通常不足……
  • 碳化硅功率晶体的设计发展及驱动电压限制 传统上在高压功率晶体的设计中,采用硅材料的功率晶体要达到低通态电阻,必须采用超级结技术(superjunction),利用电荷补偿的方式使磊晶层(Epitaxial layer)内的垂直电场分布均匀,有效减少磊晶层厚度及其造成的通态电阻。但是采用超级结技术的高压功率晶体,其最大耐压都在1000V以下。如果要能够耐更高的电压,就必须采用碳化硅材料来制造功率晶体……
  • 小芯片堆叠和先进封装实现3D-IC设计新跨越 Cadence公司日前向业界正式交付了全新的Cadence Integrity 3D-IC平台。这是业界首款完整的高容量3D-IC平台,将设计规划、物理实现和系统分析统一集成于单个管理界面中,客户可以利用平台集成的热、功耗和静态时序分析功能,优化受系统驱动的小芯片的功耗、性能和面积目标(PPA)。
  • 内存计算技术在人工智能存储系统中的应用前景(图文) 2019冠状病毒疾病肆虐全球,但是也加速了全球数字化转型,并且也改变了存储类半导体的发展模式。随着人工智能、物联网和大数据等相关技术的发展,远程办公、视频会议和在线课程
  • 阱、抽头和保护环在模拟布局中的重要性 对大多数设计人员来说,MOSFET布局的几何形状都由PCell/PyCell创建,但阱、抽头和保护环的位置和几何形状设计则需要设计人员的专业知识。大多数情况下,DRC和LVS检查会告诉设计人员他们错在哪里,但这些工具无法衡量最终布局的质量。因此,作为一个专业的布局设计人员,应该了解这些结构的作用,为什么需要它们以及它们对电路的影响。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • 储能与电动汽车应用爆发下,安全可靠 随着汽车设计转向电气化,以及风能和太阳能等可再生能源的部署速度加快,并不断与新推出的储能和电池技术融合。高功率电子成为电池系统的关键部件。这些电子需要与低压数字控制器通信并由其控制,如何实现安全迅速的接口通信是设计可靠电池管理系统的一大挑战。
  • 中国芯应用创新32强出击,众多奖项花 11月16日,第三届IAIC中国芯应用创新设计大赛决赛在深圳前海举行,大赛组委会邀请了来自兆易创新、华大半导体等原厂专家、来自旦恩资本、一本基金、深创投等资深投资机构以及来自中电港、中科院深圳先进院、深半协、深圳中微电、健天电子、史河机器人科技、亚力盛等行业专家作为决赛的评委专家组。
  • 维信诺发布日常经营重大合同公告:获荣耀订单累计超22亿 11月26日晚,维信诺(002387.SZ)发布日常经营重大合同公告。截至本公告披露日,公司连续十二个月与荣耀终端签署的日常经营类订单金额累计达到224,850.70万元,占公司2020年经审计主营业
  • 销量横扫!中国内存/SSD大厂获数亿B轮融资 11月26日最新消息,近日,深圳市嘉合劲威电子科技有限公司完成数亿元B轮融资,投资方包括招银国际、中信建投、易方达、高新投等。本轮融资资金主要用于技术研发、提升智能制造。同时,嘉合劲威即将启动B+轮融
  • 亚化咨询半导体研究系列报告 欢迎征订!如需索取目录欢迎联系亚化咨询朱经理MP: 17717602095(微信同号)Email: rita@asiachem.org
  • STM32夺命100多问,你知道几个? 1、AHB系统总线分为APB1(36MHz)和APB2(72MHz),其中2>1,意思是APB2接高速设备。2、Stm32f10x.h相当于reg52.h(里面有基本的位操作定义),另一个为st
  • 特斯拉 | 总投资12亿元!上海工厂再度扩产,明年4月完工 来源 :新京报11月26日,从上海企事业单位环境信息公开平台获悉,特斯拉对上海超级工厂(一期)第二阶段的产线优化项目进行环评公示。环评报告显示,该产线优化项目投资总额高达12亿元人民币,其中
  • 最新!美光和联电和解 11月26日,美光科技与联电共同宣布,两家公司在全球范围内达成和解协议。两家公司将在全球范围内撤回对另一方的投诉,联电将一次性向美光支付一笔未公开的金额。联电和美光期待开展相互的商业合作机会。此案源于
  • 动图了解PCB整个古老制作过程! PCB( Printed Circuit Board),中文名称为印制电路板,是电子元器件的支撑体。由于它是采用电子印刷术制作的,故被称为“印刷”电路板。在PCB出现之前,电路是通过点到点的接线组成的
  • 高精度运放 高精度运放品牌:E-CMOS     型号:EC5462AR-G(替代AD8052)类型:双通道运放封装:MSOP-8数量:600K品质:全新原包可替代AD8052联系方
  • 1086亿,全球再添一座晶圆厂 当地时间11月23日,三星电子举行新闻发布会,宣布将在美国得克萨斯州的泰勒市新建一座晶圆代工厂。据国外媒体报道,该生产基地预计投资规模高达170亿美元(约合人民币1085.62亿元),是三星电子在美国
  • 王天琳:对半导体行业和投资的一些体会 本文转载自爱集微英特尔资本董事总经理、中国区总经理王天琳编者按:本文作者英特尔资本董事总经理和中国区总经理王天琳,集微网经授权首发。去年底曾写过一篇文章,分享芯片设计业投资的分析框架,引起一些反响。近
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了