广告

1TB/s的显存会不会改变DRAM行业?

时间:2020-11-13 作者:邵乐峰 阅读:
随着电脑游戏发展日趋成熟复杂,当今的游戏玩家越来越重视先进显卡带来的至高性能—流畅的动画效果、清晰的视觉体验、8K分辨率和实时光线追踪,美光日前与英伟达携手,通过在NVIDIA GeForce RTX 3090/3080 GPU中搭载GDDR6X显存,将系统带宽提升为之前无法想象的 1TB/s。
广告

今年9月,美光科技(Micron)发布了全球速度最快的独立显卡内存解决方案GDDR6X,率先助力系统带宽实现1TB/秒,并成功搭载于全新的NVIDIA GeForce RTX 3090 和GeForce RTX 3080 GPU中,以实现更快速度,满足沉浸式、高性能的游戏应用需求。

GeForce RTX 30系列GPU是第二代NVIDIA RTX电脑游戏平台,采用NVIDIA Ampere架构,配备全新的光线追踪核、张量计算核心(Tensor Core)和多重流处理器。与上一代产品相比,实现了高达1.9倍的性能—功耗比提升,可轻松支持高达8K的各种图形分辨率,被认为是 NVIDIA迄今为止进步最大的一代GPU产品。

1TB/s!令人无法想象的带宽

GDDR6X实现突破性带宽的秘密,来自美光所采用的新的多级信号传输技术—四电平脉冲幅度调制(PAM4)。

虽然PAM4信号技术此前已被用于其他应用领域(例如网络和数据中心),但美光计算和网络产品事业部显存业务总监Ralf Ebert日前在接受《电子工程专辑》独家专访时表示,

其实自2006年起,美光工程师和研究人员就开始探索在内存接口中应用多级信号技术的可能性,在申请了45项专利后,美光成为第一家将GDDR6X上的PAM4 PHY在DRAM中实现的DRAM供应商,美光的GDDR6X成为唯一一款已设计应用并量产的采用PAM4的内存芯片,并且正在大批量生产。

美光计算和网络产品事业部显存业务总监Ralf Ebert

总体来看,在采用PAM4多级信号技术之后,GDDR6X实现了更快的数据传输,输入/输出(I/O)数据速率提升了一倍。此前,显存带宽最高可达64GB/s,传统二进制标准依赖两级信号传输编码为1s或0s的数据,每周期可传输一位数据。而PAM4技术采用四个不同层级,同时向内存输入及输出2个比特,在给定的时钟频率下将数据速率提升了一倍,这样既可以提高信号完整性,又能够降低每传输一个比特的功耗。由此,GDDR6X成功将单颗粒的内存带宽提升至84GB/s,从而使系统带宽提升为之前无法想象的1TB/s。

而根据规划,美光将在2021年为GDDR6X引入16Gb密度,目标性能也将超过21Gbps。

深度揭秘PAM4技术

美光的GDDR6体系结构得益于GDDR5X中首次引入的几个增强特性。除此之外,通过将数据预取量增加一倍,缓解了与DRAM阵列时序相关的挑战。在GDDR6每针数据速率(例如16Gb/s)基础上,用于可靠传输和采集数据的可用时序窗口减少到62.5ps(皮秒),甚至更小。因此,在这些频率下运行需要进一步提高电路精度,电路也会非常复杂,更不用说更高的触发率,所有这些都会导致功耗的增加。考虑到复杂度和功耗因素会使得每针可实现的数据速率迅速下降,所以目前GDDR6的最高速度为16Gbps,超过这一上限非常具有挑战性,并且是以降低边际系统性能作为代价。

为了解决与GDDR6相关的时序挑战,GDDR6X内存用支持PAM4的方案取代了GDDR6现有二进制信令接口(PAM2,通常也称为不归零,即NRZ)。在给定工作频率下,将2比特数据编码至每个传输的数据符号中,可以使有效带宽增加一倍。换言之,当支持普通的每针数据速率时,GDDR6电路的运行速度必须是GDDR6X电路的两倍。结果,为GDDR6开发的高速电路技术足以使GDDR6X远远超过目前GDDR6 16Gb/s的目标,同时还降低了I/O功耗。

图1描述了与GDDR6(上图)相比,怎样以一半的频率通过GDDR6X接口(下图)传输相同数量的数据。

图1:GDDR6(上图)和GDDR6X(下图)之间的数据眼图对比,显示了以16Gb/s传输2比特数据的时序

采用PAM4信号技术,通道使用4个不同的信号电平每周期传输2个数据比特(图2)。其中的每一个电平都被称为一个符号,因此数据传输速率用符号/秒,即波特率来表示。每单位间隔(UI)2比特采用灰色编码,以确保任何传输错误仅影响符号内2比特中的一个。

图2:PAM4的四个物理电平,即符号中的每一个都代表2比特数据

图3显示了与NRZ相比,使用PAM4编码传输相同数量的数据只需要一半的接口周期。由于GDDR6突发长度为16,为了保持数据粒度兼容,GDDR6X等效突发长度被设置为8。

图3:NRZ和PAM4接口相同数据量(一个突发)的编码和传输示例

但提升带宽并不是GDD6X的唯一优势,电源效率也得到了显著提高。图4显示,运行在21Gb/s的GDDR6X比以14Gb/s运行的GDDR6传输每比特所需的功耗低15%—GDDR6X的带宽甚至还要高出50%。请注意,显示的数据表示在整个DRAM器件功耗基础上计算得出效率提高了多少。如果比较仅限于数据接口,将显示PAM4信号技术能够实现更高的功率/比特效率。

图4:GDDR6和GDDR6X之间的功耗比较,归一化为GDDR6

并非GPU独享

一款新的内存输入/输出(I/O)只能在SoC芯片上有相应内存控制器的情况下才可以开始量产。Ralf Ebert说为了向业界证明DRAM中的PAM4信号技术目前可以成功地实现量产,美光决定在标准化之前首先设计并推广GDDR6X,并强调称,“我们并没有将其作为独家产品”。相反,美光希望GDDR6X能够解决非GPU市场上的很多问题,例如:

  • HPC(高性能计算):GDDR6X可用于高性能计算,其特点是高度并行计算,能够高效、可靠并且尽可能快地执行高级应用程序。科学研究人员、工程师和学术机构依靠这类超级计算机来解决复杂的问题。
  • 专业可视化:高性能工作站是GDDR6X的一类关键应用场景。医疗健康、专业视频后期处理、天气预报、金融模拟以及石油和天然气等行业,都依赖于由高端显卡支持的工作站来快速处理大型数据集。
  • 人工智能(AI):GDDR6X 可以支持人工智能应用。为满足计算工作负载不断增长的需求,我们比以往任何时候都更加需要以更快速度传输更多数据的新方法。
  • 汽车与网络:自动驾驶使用大量数据来分析周围环境,并以极快的速度处理这些数据。使用超带宽解决方案的GPU非常适合此类工作场景。自动驾驶继续取得重大进展,并将推动内存行业的大幅增长。在网络方面,高端路由器和交换机需要超带宽解决方案的性能和带宽能力。对于汽车和网络,可靠性和寿命是重点关注的因素。

在此基础上,客户可以自由开发自己的内存控制器/PHY IP,也可以与第三方IP提供商合作开发。但为了支持PAM5信号技术,对PHY IP的修改将是采用GDDR6X所需的关键修改。

都是超带宽,各有各不同

PAM4有潜力推动数据速率的进一步提高。但是,人们在讨论超带宽解决方案时,一定会提及HBM(高带宽内存)。HBM通过与计算紧密集成并进一步降低功耗,提高带宽,从而填补了内存解决方案的空白。该技术利用堆叠内存组件提高了密度,较低时钟速率下极高的I/O数量实现了高带宽,而且所有这些的功耗指标都比较低。HBM是功能强大的超带宽解决方案,但由于产品的复杂性,也是成本相对较高的解决方案,主要面向那些对成本不太敏感的极高带宽应用。

Ralf Ebert从性能、功耗、性价比三方面对不同超宽带方案的选用给出了自己的见解:

  • 性能

正如市场趋势和历史发展所揭示的那样,性能的不断提高需要得到相应的支持。GPU每年都会有升级,这意味着不断有更高的带宽需求。在每一升级周期中,超带宽解决方案都会提高数据速率。要想提升性能,用户就应使用最新的超带宽解决方案。

  • 功耗

随着性能要求的不断提高,电源效率变得越来越重要,用户应该查看其总体解决方案的功耗窗口,是否与所要求的带宽相匹配。 

图5:超带宽内存的功率要求

  • 性价比

很多超带宽解决方案应用都是基于消费类的终端应用,其预算对成本比较敏感。内存既要满足带宽和帧缓冲要求,还要保持合理的成本,根据应用和带宽需求,GDDR等分立的低成本选择将是比较合适的解决方案。如果与成本敏感度相比,带宽需求更为重要,那么可以选择HBM。在考虑性价比时,用户除了器件成本,还要考虑系统实施成本。标准电路板材料和主流的装配工艺都支持实现分立元件解决方案,因此其总拥有成本(TCO)是很有吸引力的。

结语

“虽然到目前为止只有英伟达在应用GDDR6X,不过我们正在向其他需要高性能、超带宽解决方案的业界厂商推广GDDR6X,也希望被JEDEC所采纳。事实上,我们上一次与英伟达合作的GDDR5X在GeForce GTX 1080 Ti GPU上大获成功,以至于促成了下一个纳入JEDEC标准的GDDR6技术规范。”Ralf Ebert说,GDDR6X并不专用于GPU,任何使用GDDR6X的内存控制器都可以发挥其内存性能优势,他看好其前景,相信PAM4 I/O技术除了显存之外还将有机会应用于其他未来DRAM和内存标准。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • 摩擦起电会是能量采集的下一个来源吗? 我们为何不持续寻找一种新的能量采集方式?因为它通常是免费的(忽略前期成本)、方便,并解决了许多实际的安装/更换问题。但是在能量达到可以采集之前,电子和负载方面有两个前端问题需要解决…
  • 系统级芯片(SoC)的复杂设计选择:EDA和IP 在做系统级芯片(SoC)的设计规划时,需要考虑哪些主要因素?目前主流的SoC一般包括哪些功能模块或IP?有什么新的技术趋势值得关注?为SoC选择IP时主要基于什么标准或要求?如何实现差异化设计?当前SoC在设计验证方面遇到哪些挑战?有什么应对解决方案?AI在复杂的高性能SoC设计中能够发挥什么作用?未来设计趋势如何?
  • DDR5对比DDR4,重新做电路设计时要注意什么? DDR5是为了满足从客户端系统到高性能服务器的广泛应用,在省电性能方面持续增加的需求所设计;特别是后者正面临密集的云端与企业数据中心应用越来越高的性能压力...
  • 系统级芯片(SoC)的复杂设计选择:内核、IP、EDA和NoC SoC的功能、性能和应用越来越复杂,对芯片设计和晶圆制造也提出了更高的要求。 而SoC设计工程师所面对的选择很多,包括处理器内核、各种IP模块、EDA工具和开发环境,以及RF射频模块、片上网络(NoC)和FPGA等,如何做出符合自己应用和设计需要的最佳选择成了一大难题。为此,《电子工程专辑》采访了来自处理器内核、EDA和IP、NoC供应商,以及FPGA和SoC芯片设计公司的技术和设计专家,他们从各自的角度出发给出了深入而独到的建议。
  • AI推动着存储器互连的不断演进 为了满足人工智能(AI)和机器学习应用的需求,位置这个词被越来越多地应用于数据存储。但解决这种位置的挑战不只是存储器供应商应做的工作,与AI相关的供应商也扮演着重要角色。尽管存储距离计算越来越近,但解决方案的很大一部分在于存储互连。
  • NVMe-oF已准备好进行到底 NVMe-oF规范支持在主机与固态存储设备或系统之间通过网络进行数据传输。其最新修订版包含了对TCP传输绑定的支持,这样就能在标准的以太网网络上使用它,而无需进行配置更改或增加特殊设备。可能正是这个原因使今年成为了NVMe-oF真正腾飞的一年,同时其又扩展了NVMe核心价值——释放了NAND闪存的全部优势。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了