终极版ARM CPU诞生:超大核心、架构性能暴涨30%

硬件世界 2020-05-26

面向7nm工艺的Cortex-A77架构发布2年多之后,ARM公司今晚正式推出了新一代CPU架构——Cortex-A78,适用于5nm工艺,性能提升20%,功耗则降低了50%。

Cortex-A78就是前两年曝光的Hercules(大力神)处理器,这是Austin微架构CPU的第三代产品,已经发展处了Cortex-A76、Cortex-A77及现在的Cortex-A78三代。

Cortex-A78架构并没有盲目追求性能提升,因为ARM同时还推出了Cortex-X1全新架构(稍后介绍),它偏向性能提升,而Cortex-A78更注重性能、功耗、面积,也就是PPA的均衡。

根据ARM的说法,Cortex-A78的架构性能(也就是IPC)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。

虽然微架构上变化不大,但是如果跟工艺结合起来,那Cortex-A78在5nm加持下就变化很大了。

根据ARM的说法,在同样的每核心1W功耗下,7nm生产的Cortex-A77可以达到2.6GHz,而5nm生产的Cortex-A78频率可达3.0GHz,同功耗下持续性能提升20%左右。

能耗方面,在相同的性能下,5nm工艺生产的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%,有助于提高5G手机的续航。

当然不得不指出,ARM每次发布新一代CPU的时候,这种同功耗、同性能下的对比其实很迷惑人,这是为了统一计算,实际性能提升并不符合这里的算法,A77核心频率也一样可以在7nm下接近3GHz,所以Cortex-A78的性能提升不要有多高的期待。

Cortex-A78主要面向2021年的智能手机等产品,不过考虑到之前的情况,2021年很难普及Cortex-A78,ARM也没提到有哪些公司现在应用了这个架构。

============手动分割线============

如果大家对Cortex-A78的性能提升感觉不满意,哪怕是上了5nm工艺也只是提升了20%的性能,而且还是靠频率拉动的。没错,Cortex-78就是这样定位的,真正的高性能CPU是全新的Cortex-X1,这也是首款Cortex-X系列核心。

与Cortex-A78还要兼顾性能、功耗、面积不同,Cortex-X1使用了全新的架构,是ARM为实现性能大幅增长而设计的,其性能比前代CPU提升了30%,比Cortex-A78也提升了22%,机器学习性能更是提升100%。

Cortex-X1除了性能大涨,还提供了更灵活的定制特性,大家知道Cortex-A公版授权能改的地方不多,主要就是缓存部分,而Cortex-X1则允许客户自定义,有更多的不同特性,在研发早期阶段就允许客户参与。

当然,Cortex-X1的授权费肯定也是不一样的,比Cortex-A系列更贵是没跑了。其实我们再大胆猜测一下,近年来随着高通、三星都放弃自研ARM核心,除了苹果之外其他厂商都改回公版架构了,ARM现在推出Cortex-X1也是一种调整,相当于一个官方预改进版,高通、华为、三星等客户可以自己继续再改,定制不同的特性。

Cortex-X1与Cortex-A78全方位对比

与Cortex-A78相比,Cortex-X1的不同之处前面也说的差不多了,主要就是更高的峰值性能、更灵活的定制。

从架构细节上来看,Cortex-X1与Cortex-A78都是ARMv8.2指令集下的,指令集是兼容的,但Cortex-X1是自定义CPU核,解码带宽从4路提升到5路,增加了25%,NEON浮点从2条128b提升到了4条128b,相当于浮点性能翻倍。

缓存方面,Cortex-X1的L1缓存可达64KB,L2缓存1MB,L3缓存可达8MB,是Cortex-A78的两倍。

Cortex-X1性能提升水平:单核提升30%、AI性能大涨100%

那Cortex-X1的性能提升到底如何呢?ARM公布的资料显示,与A77架构相比,整数性能提升了30%,比A78也提升了22%,ML机器学习性能提升了100%。

当然,那些性能提升是理论值,在SPEC2006的测试中,单核性能提升4%到30%不等,似乎并没有想象中的给力,不过现在还是ARM公版Cortex-X1的性能,也许其他厂商能够自定义更强性能。

Cortex-X1灵活搭配:充当超大核、1+3+4三簇核心

有了Cortex-X1之后,第一个想到的其实就是超大核,因为高通、华为在骁龙865、麒麟990上都设计了三簇核心,不像之前的4+4大小搭配,而是变成了2+2+4或者1+3+4,将其中1个或者2个大核心独立出来,频率也是最高的。

现在Cortex-X1的问世,实际上就代表着ARM官方认可了这种多核配置,Cortex-X1可以跟Cortex-A78、Cortex-A55核心搭配起来。

一种典型的组合就是1个Cortex-X1超大核、3个Cortex-A78大核,再加上4个Cortex-A55低功耗小核,搭配1MB L2、8MB L3,组成一套DynamIQ集群。

4个Cortex-A78、搭配4MB L3缓存,其性能比前代升20%,同时核心面积降低15%,而1个Cortex-X1、3个Cortex-A78搭配8MB L3缓存的话,虽然核心面积会增加15%,但峰值性能提升了30%。

剩下的就看哪家公司能首发Cortex-X1 CPU了,高通、三星、苹果还是华为?

============第二个手动分割线============

凭借CPU老大哥的提携,加上自身的飞速演进,ARM Mali系列GPU图形核心已经在移动领域占据了强势的统治地位,将老对手PowerVR打得没什么脾气。今天,ARM又带来了新的旗舰级Mali-G78 GPU、次旗舰级Mali-G68 GPU!

去年的Mali-G77首次采用了全新的Valhall图形架构,得到了顶级SoC的广泛采纳,而这次的Mali-G78自然是它的升级版,最突出的就是首次支持到24个核心,相比Mali-G77 16个增加了一半。

当然我们知道,这都是理论上的,Mali-G77目前商用的最大规模也才11个核心,也就是三星Exynos 990,联发科天玑1000系列更是只用了9个。

ARM宣称,综合架构、工艺等各方面的改进,Mali-G78相比于Mali-G77的性能提升幅度可达25%,即便是在同等工艺条件下也可提升15%, 同时能效提升10%,机器学习性能提升15%。

除了扩大规模,Mali-G78在架构方面也做了升级改进,但并不是很多,官方重点强调的只有一点,就是从整个GPU只有一个全局时钟域,改为新的两级结构,实现了上层共享GPU模块与实际着色器核心频率的分离,也就是异步时钟域。

这样一来,GPU的核心可以工作在与其他部分不同的频率上,可快可慢,从而解决几何输出与计算、纹理、引擎之间的不平衡问题,还能让GPU运行在不同电压上,从而降低功耗、提高能效,这也是桌面级CPU、GPU通用的做法。

另外,Mali-G78彻底重写了FMA(融合乘加)引擎,包括新的乘法架构、新的加法架构、FP32/FP16浮点,可以节省30%的功耗。

Mali-G68则是首款次旗舰级GPU,显然定位于Mali-G70系列、Mali-G50系列中间,架构、特性完全沿袭Mali-G78,唯一区别就是最多只能支持6个核心。

换言之,配置1-6个核心就叫Mali-G68,配置7-24个核心就叫你Mali-G78,就这么简单。


硬件世界 共同研究探讨硬件知识及相关信息
评论
热门推荐
相关推荐
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦