广告

现在的高性能RISC-V处理器和Arm比起来如何?

时间:2020-07-22 作者:黄烨锋 阅读:
采用RISC-V架构的处理器不经意出现在日常电子产品中,似乎已经变得越来越稀松平常了:不仅是一些典型的MCU厂商开始拥抱RISC-V,如我们前不久采访的泰凌微电子,以及去年推出RISC-V产品线的兆易创新。而且还体现在一些业已成熟的产品中,如今年的中国IC领袖峰会上,我们与硅谷数模对话,了解到如今十分成熟的TCON芯片内部竟也不显山、不露水地加入了RISC-V小核心……
广告
ASPENCORE

采用RISC-V架构的处理器不经意出现在日常电子产品中,似乎已经变得越来越稀松平常了:不仅是一些典型的MCU厂商开始拥抱RISC-V,如我们前不久采访的泰凌微电子,以及去年推出RISC-V产品线的兆易创新(8月13日由Aspencore主办的2020全球MCU技术与应用峰会将在上海举办,点击这里报名参与);HvEEETC-电子工程专辑

而且还体现在一些业已成熟的产品中,如今年的中国IC领袖峰会上,我们与硅谷数模对话,了解到如今十分成熟的TCON芯片内部竟也不显山、不露水地加入了RISC-V小核心;还有像是前些年英伟达就开始在其GPU产品中选择RISC-V作为控制器;西数也在整个产品线上开始选择RISC-V核。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

这让我们对于RISC-V指令集的处理器微架构也愈发感兴趣:去年10月,SiFive发布了首款RISC-V乱序CPU核心,U8系列处理器IP。SiFive在宣传中提到,U8系列是目前最高性能的RISC-V指令集核心IP(似乎晚于玄铁910),“基于超标量乱序管线,以及可配置的管线深度和发射序列宽度”。HvEEETC-电子工程专辑

SiFive在RISC-V的微架构IP授权中还是相当活跃的一家企业,其7系与8系IP核,作为RISC-V世界的高性能核心,是我们观察RISC-V当前发展情况的一个重要窗口,虽然微架构剖析大约并不能特别好地呈现指令集本身的特性,但通过它们与Arm的对比,也是了解RISC-V生态的机会。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

最高性能的RISC-V核心,比起Arm如何?

我们首先有必要搞清楚,SiFive内部针对不同系列的产品的定位。在今年4月SiFive举行的一场名为"Embedding Intelligence Everywhere with SiFive 7 Series Core IP"的在线会议上,SiFive曾经对自家产品线进行过总结。SiFive的E系列核心,着眼在32bit嵌入式使用场景;64bit的S核心则偏向算力需求更大的场景;而U系列核心是性能最强的定位,面向高端计算。HvEEETC-电子工程专辑

若以数字为切分维度,SiFive的2系列是RISC-V处理器IP中效率最高,同时也最小型的处理器IP;3系列、5系列则在部署上更为广泛,用在一些多核配置和对实时处理能力要求较高的场景;7系列和8系列如上所述都着力于高性能。数字与字母组合,就构成了不同的产品,比如说E3面向中端定位的嵌入式应用提供32bit性能;S7显然是专注在性能方面的产品;U8则实现了可规模化配置的高性能核心,达成最高的每瓦性能。HvEEETC-电子工程专辑

在U8发布之前,SiFive的高算力产品主要就是U5、U7——这两者仍是顺序架构,对标的是Arm的低端及微控制器核心,在面对更为复杂的负载、要求算力的场景下还是有欠缺的。U8系列是弥补这个短板的产品。SiFive当时宣称,U8将极大扩展SiFive与RISC-V在终端产品中的生态系统生存能力。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

在SiFive U8系列产品下,目前主要包括U84、U87两个核心IP。SiFive自己给的数据是,U84核心的性能是U74的3.1倍,IPC提升2.3倍(在最高频率提升1.4倍的情况下)。上面这张图对比中,在相同工艺的前提下,U84性能是U54的5.3倍;如果加上工艺造成的差别,则7nm的U84核心,性能达到了28nm的U54核心的7.2倍。这个数据其实一方面表明,RISC-V的性能潜力这些年还在挖掘过程中,所以相比更低端的产品能有如此巨量的性能与效率差距。HvEEETC-电子工程专辑

这是RISC-V自己内部在FPGA平台下跑U84 IP的成绩,比较的是SPECint2006成绩。HvEEETC-电子工程专辑

SiFive此前在新闻稿中给U8树立的直接竞争对手是Arm Cortex-A72,其中提及相比Arm Cortex-A72核心,SiFive U84提供可媲美的性能。不过在面积效益和每瓦性能方面,U84还是有优势,当然我们知道A72已经是Arm前两年的架构了。HvEEETC-电子工程专辑

同是7nm工艺的前提下,U84的每个核心占地面积在0.28mm²,四个核心加上2MB L2 cache构成一个簇,面积为2.63mm²。此前华为Krin 980的Cortex-A55小核心,每个核心配上各自128KB的L2 cache,面积为0.36mm²——要知道A72的性能是A55的两倍还多,显然在PPA方面,SiFive U84表现不错。HvEEETC-电子工程专辑

需要强调的是,U8系列作为IP在面向具体的芯片产品时还是有很大的可配置和扩展性的,U84是作为一个标准IP存在的,所以这里的探讨仅基于SiFive的标准IP,具体到实际产品仍然会有差别。HvEEETC-电子工程专辑

7系列与8系列微架构

或许很多人并不会将RISC-V这样一个指令集,在高性能领域去与Arm一决高下,毕竟RISC-V当前的主场也不在此——IoT产品对碎片化问题更不敏感,也不像手机那样对处理器性能有那么高的要求,RISC-V在很多情况下也偏向以微控制器的姿态存在。不过在我们看来,这依然是表现RISC-V阵营技术能力的重要组成部分。HvEEETC-电子工程专辑

RISC-V可查阅的资料当然还远没有Arm世界那么多,已经商用的RISC-V处理器——无论是MCU中的处理器,还是某些硬件中的控制器,公开的技术细节也并不多,详实程度自然不及遍地开花的Arm。我们从有限的资料中去了解SiFive的7系列与8系列处理器微架构,对于理解RISC-V生态还是有价值的。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

如前文所述,U8系列是SiFive的首款乱序核心,U84流水线深度12级,后端3个执行单元——还是相当传统的乱序执行设计。这里的寄存器组(RegFile)设计还是颇为与众不同。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

从前端来看,核心的取指单元(Fetch Queue)能够每周期以16字节从L1l获取指令,将其放到取指队列中。RISC-V ISA为可变指令编码长度,假定平均是32bit,则对应每周期4个指令。所以U8的解码器(decoder)也是4-wide设计,并将其传递到指令队列(Instruction Queue)中。HvEEETC-电子工程专辑

再往后,指令队列能够一次发射3个指令到重命名阶段(rename),这个宽度就比前面收窄了。外媒AnandTech此前也在针对这部分的评价中提到,取指阶段的宽度大于发射这种设计,旨在发生分支预测错误时,让前端能够跟上后端;但解码比发射更宽的这种设计,以前还从未见过。猜测这可能是微架构的某种平衡之策,也可能是为将来更宽发射的U8系列IP设计做准备的。从SiFive的官方介绍来看,发射队列数应该是可以由芯片设计商来配置扩展的。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

重命名阶段的设计比较常规,包含一个重排序buffer,和三个分发引擎。然后就进入到执行后端了。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

后端部分,SiFive只给了整数执行单元的情况,整体包含3条执行管线。每一条都有其各自的发射队列,填充进3条ALU管线。其中一条管线是常规的ALU,有一条则与分支单元共享了端口,还有一条更为复杂,可以执行整数乘法和除法操作。HvEEETC-电子工程专辑

U84这样的核心本身还没有SIMD、矢量指令支持,似乎是因为扩展指令还未完全就绪。SiFive解释说,今年年底这部分会就绪;可能U87就会具备这部分能力——目前我们从SiFive官网还未看到这方面的更新。HvEEETC-电子工程专辑

可扩展性

从构成SoC/MCU的更高层级来说,SiFive采用一种名为"Mix+Match"的大小核异构设计,共享一个L2可以配置至多9个核心。核心的搭配方式,可以是U8、U7、S2这些不同的核心搭配组合。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

来源:WikiChipHvEEETC-电子工程专辑

 HvEEETC-电子工程专辑

参考早前的7系列,采用的是8+1设计,看起来和这次的设计比较相似,但搭配方式上可能会有些差别。WikiChip所做的这张图更清晰地表达了这种结构——包括核心、cache等,整体构成一个簇(Cluster)。其上还有自定义指令支持(Custom Instruction Extensions),每个核心都能实现特定指令的支持,实现某些特定工作负载的加速——这也是现在很多基于RISC-V指令微架构的能力。HvEEETC-电子工程专辑

7系列的介绍中曾提到,通过TileLink,可以将64个这样的簇放在一颗单芯片上。U8系列核心IP介绍中则只提到了使用TileLink,来连接第三方加速器IP实现core-to-core通信,或者ChipLink实现chip-to-chip通信。存储子系统部分详情不多,SiFive提到提供高带宽存储接口IP,对于HBM2E+这类需求有帮助,不过这部分工作似乎还在持续。HvEEETC-电子工程专辑

7系列的核心有可选配一种FIO端口(Fast I/O),直连到核心,作为核心以及大容量SRAM或第三方加速器之间的低延迟接口——这种FIO端口还与main core complex bus总线相连,其他核心也能看到SRAM或者第三方加速器。不知道这种FIO端口,与SiFive的TileLink技术是什么样的关系。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

在可扩展性的问题上,U8系列还有一些特性:(1)对不同工艺节点的支持;(2)乱序设计可做配置,前文提到U84这种标准核心是12级流水线、3发射,实际上流水线深度、发射队列数等都是可以针对不同应用做具体调整的;(3)整数单元到浮点单元的跨发射(cross-issue)能力;(4)“可组合cache”达成实时操作支持。HvEEETC-电子工程专辑

如前文所述,SiFive的7系列与8系列在当今RISC-V生态中可能没有充足的代表性,不过如SiFive所言,这些高性能核心IP对于扩展RISC-V生态边界还是有相当价值的。即便就现在看来,Arm生态在中高端市场仍然占据着性能和技术上相当的优势。HvEEETC-电子工程专辑

另外作为IoT与嵌入式领域的重要组成部分,RISC-V如今在很多MCU产品中越来越占到一席之地。比如兆易创新去年8月首发全球RISC-V通用MCU(Bumblebee核心),即是对RISC-V生态构建的重要组成部分。8月13日,由Aspencore主办的2020全球MCU技术与应用峰会将在上海龙之梦万丽酒店举办,兆易创新也将参与MCU话题的探讨。HvEEETC-电子工程专辑

了解MCU市场趋势,掌握MCU行业新动态,MCU市场在疫情与国际贸易环境下发展的特殊性,点击这里报名参加,或扫描下方二维码直接报名。参与活动有机会获得飞利浦电动牙刷、小米行李箱、华为无线充、京东卡等奖品。HvEEETC-电子工程专辑

HvEEETC-电子工程专辑

参考来源:HvEEETC-电子工程专辑

[1]Incredibly Scalable High-Performance RISC-V Core IP - SiFiveHvEEETC-电子工程专辑

(https://www.sifive.com/blog/incredibly-scalable-high-performance-risc-v-core-ip)HvEEETC-电子工程专辑

[2]SiFive’s Approach to Embedding Intelligence Everywhere - SiFiveHvEEETC-电子工程专辑

(https://www.sifive.com/blog/sifives-approach-to-embedding-intelligence-everywhere)HvEEETC-电子工程专辑

[3]SiFive Announces First RISC-V OoO CPU Core: The U8-Series Processor IP - AnandTechHvEEETC-电子工程专辑

(https://www.anandtech.com/show/15036/sifive-announces-first-riscv-ooo-cpu-core-the-u8series-processor-ip/3)HvEEETC-电子工程专辑

[4]SiFive Launches 7 Series, Their Highest Performance RISC-V Cores - WichichipHvEEETC-电子工程专辑

(https://fuse.wikichip.org/news/1775/sifive-launches-7-series-their-highest-performance-risc-v-cores/)HvEEETC-电子工程专辑

[5]SiFive’s Approach to Embedding Intelligence Everywhere - SemiWikiHvEEETC-电子工程专辑

(https://semiwiki.com/ip/sifive/285092-sifives-approach-to-embedding-intelligence-everywhere/)HvEEETC-电子工程专辑

[6]RISC-V grows globally as an alternative to Arm and its license fees - VentureBeatHvEEETC-电子工程专辑

(https://venturebeat.com/2019/12/11/risc-v-grows-globally-as-an-alternative-to-arm-and-its-license-fees/)HvEEETC-电子工程专辑

责编:Luffy LiuHvEEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 云计算将彻底改变电子设计 由于越来越多的问题将在云端解决,云计算将彻底改变电子设计。未来在选择处理器时的一个重要考虑因素将是,哪种处理器最容易支持从云端到嵌入式设备的实现。随着越来越多的嵌入式设备接入到IoT,什么计算应该在云端完成,什么计算应该在边缘完成,每个系统都必须从成本、速度、隐私等各个方面综合考虑。
  • 紧随苹果,三星也自研5nm工艺ARM桌面处理器 前不久苹果刚刚宣布未来Mac电脑将全部采用ARM架构的自研处理器,现在看来ARM平台有可能有新的入局者了。7月24日消息,据外媒报道称,继苹果之后,三星也可能入局自研ARM架构的桌面处理器领域,三星被传出正在研发Exynos 1000芯片,有可能用于即将推出的Windows PC。
  • 2020年5G手机:华为第一稳了,中国品牌占全球75% 目前推动5G商转属中国最为积极,观察其5G基站建设数量与网络的覆盖表现,皆位居全球之冠,也因此中国手机品牌针对5G手机超前部署,在2020上半年已囊括全球75%的市占率。
  • KLA推电子束缺陷检测系统,提高EUV工艺良品率 KLA公司宣布推出eSL10™电子束图案化晶圆缺陷检查系统。该系统具有独特的检测能力,能够检测出常规光学或其他电子束检测平台无法捕获的缺陷,从而加速了高性能逻辑和存储芯片的上市时间(包括那些依赖于极端紫外线(EUV)光刻技术的芯片)。
  • “星辰”处理器商用落地,地道中国CPU不受管制影响 安谋中国仅用了17个月,就推出了面向物联网设备的轻量级实时处理器“星辰”系列的第一个EAC版本,包含了团队/技术环境搭建、项目立项、高质量IP交付,这在Arm研发历史上几乎是没有的。
  • 折叠屏为何如此脆弱?揭秘柔性显示技术 因为折叠屏的脆弱属性,拉远了它与一般人的距离:当我们花两万块钱买台折叠屏手机,却需要在每天早晨,手机闹铃响起时,伸手去触碰屏幕还得先想一想是不是没剪指甲。这样的体验还是令人畏惧的。我们期望尝试通过这篇文章,从技术层面去探究,折叠屏手机为何如此脆弱,及从侧面呈现折叠屏手机当前的发展阶段。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了