CXL的内存缓存一致性不但允许CPU和加速器共享内存资源,还能实现部署新的内存层,帮助弥合主内存和固态硬盘存储之间的延迟差距。这些新内存层会增加带宽的容量,提供更高效率,并降低总拥有成本。这就是业界正在坚定地将CXL作为处理器、内存和加速器的高速缓存一致性互连技术的根本原因所在。

人工智能和机器学习应用的日益普及,引发了数据以指数级的态势持续增长。预计到2025年,全球每年的数据量将达到175ZB的规模。而作为全球最大数据生产国之一,中国的数据规模将有望从2022年的23.88ZB增长至2027年的76.6ZB,复合年增长率达到26.3%。

显然,包括中国在内,全球对更高性能数据中心的需求十分迫切。一是因为这种对内存带宽和容量无休止的需求给数据中心的内存系统带来了挑战,使其已成为一个关键瓶颈;二是当前的数据中心架构,正在从以服务器为计算单元向分解型架构转变。也就是说,要改变资源的池化方式,将其转化为分离式的解决方案。这样,通过完全分解,计算资源可以按需组合,满足不同工作负载的需求。

利用CXL技术重构数据中心

Rambus产品营销高级经理Zaman Mollah认为数据中心对于更高性能和更低总体拥有成本的追求正在面临三项内存挑战:首先是当前服务器内存层次结构的局限性。直连式DRAM和固态硬盘存储(SSD)之间存在三个数量级的延迟差距,当处理器耗尽直连式内存的容量时,就必须转而使用固态硬盘,这就会导致处理器需要等待。这种等待或延迟会对计算产生极大的负面影响。

其次,多核处理器内核数量的增长速度远远超过主内存通道的增长速度。这意味着一旦处理器内核超过一定数量,就会因为内存带宽不足而空置,从而无法最大化利用额外内核的优势。最后,随着加速计算的不断发展,加速器配备有自己的直连内存,内存资源利用不足或空置的问题日益严重。

Rambus产品营销高级经理Zaman Mollah

于是,为了解决传统内存架构的上述局限性,业界一直在探索新的内存接口技术和系统架构。为了持续提升性能,并满足不断演进的多样化数据中心工作负载需求,人们希望根据需要组合服务器基础架构,并根据工作负载需求进行调整。这使得技术逐渐转向异构计算架构,即利用专用加速器为CPU分担特定工作负载。

而Compute Express Link(CXL)的内存缓存一致性允许CPU和加速器共享内存资源。此外,CXL还能实现部署新的内存层,帮助弥合主内存和固态硬盘存储之间的延迟差距。这些新内存层会增加带宽的容量,提供更高效率,并降低总拥有成本。这就是业界正在坚定地将CXL作为处理器、内存和加速器的高速缓存一致性互连技术的根本原因所在。

CXL进展到了哪里?

CXL联盟于2019年成立,并推出初始的1.0和后续的1.1规范,英特尔的Shapphire Rapids处理器和AMD EPYC Genoa处理器支持该技术。在CXL 1.0/1.1规范中,CXL联盟定义了CXL.io、CXL.cache和CXL.memory三种协议,分别处理I/O、缓存一致性和内存访问。

CXL.io:这种模式可以将内存扩展到外部设备,使得数据的传输速度更快。CXL.io通过PCIe总线连接CPU和外部设备,这样CPU就可以与外部设备共享内存,并且可以直接访问外部设备的I/O资源;

CXL.cache:这种模式可以通过将内存缓存到外部设备中来提高性能。CXL.cache模式允许CPU在本地缓存中保留最常用的数据,而将不常用的数据保存在外部设备中。这样可以减少内存访问时间,提高整体系统性能;

CXL.memory:该协议使主机(例如处理器)能够使用加载/存储命令访问设备连接的内存。该模式可以将外部设备作为主内存使用,从而实现更大的内存容量。

这三个协议虽然支持三种不同的CXL设备类型,但都共同促进了计算设备之间内存资源的一致共享。

此后,该联盟持续升级其路线图,陆续更新了CXL2.0和CXL3.0/3.1规范,融入了内存池化和CXL切换的新功能。CXL2.0于2020年发布,并计划于2024年推出,以便多个CPU(主机)可以按需访问共享内存池,通过限制内存的过度配置提高内存利用效率。

最新的CXL规范是3.1,于2023年11月在Supercomputing 2023(SC23)发布,预计将在2025至2026年之间公开提供设备。CXL 3.1继续增加新功能,包括支持PCIe 6.0(速率为64GT/s),并通过Fabric Switching增加内存池来进一步扩展内存池规模。CXL2.0和3.1均支持与前几代产品的完全向后兼容。

尽管规范更新的很快,但我们也听到了行业中的一些质疑声音,例如有人士就指出,“过去三年中,不少内存和服务器SoC公司都表示支持CXL。但就产品推出而言,CXL在数据中心的扩散和应用程度似乎又较为缓慢。”

对此,Mollah回应称,“与任何新技术一样,CXL的大规模应用也需要时间。”从目前的进展来看,该技术已经得到了由150多家行业参与者组成的大型生态系统的支持,其中包括超大规模云服务商、系统OEM、平台和模块制造商、芯片制造商和IP提供商,这反过来又进一步推动了CXL的潜力。尽管CXL仍处于早期部署阶段,但CXL联盟发布的3.1规范强调了该技术的发展势头,并展示了其开创计算新时代的潜力。

生成式AI加速助推CXL落地

以ChatGPT为代表的生成式AI,和很多大型商业公司开始减少对芯片公司标准器件的使用,转而致力于构建自己的差异化、定制化芯片系统,为CXL带来了相当显著的市场新机遇。

Mollah表示,随着ChatGPT等生成式AI模型的应用不断发展,它对计算资源有着巨大的需求,尤其是在训练和推理过程中。为了继续提高性能,服务器正越来越多地转向异构计算架构,并使用专用加速器为CPU分担特定工作负载,如人工智能训练等。这些加速器可提供这些应用所需的专业计算能力,从而实现更快的处理速度和更精确的结果。CXL在这方面也发挥了关键作用,其内存缓存一致性可实现CPU和加速器之间的内存资源共享。

此外,分布式计算和训练是处理生成式AI模型所需的大量数据和计算的关键。CXL的可扩展性,特别是在内存池和共享方面,有助于解决内存和数据传输难题。随着生成式AI模型变得越来越大、越来越复杂,对可扩展内存解决方案的需求可能会增加。

对构建差异化、定制化芯片系统而言,CXL是一个旨在为各种组件,如CPU、GPU、FPGA以及内存设备,提供高速、低延迟连接的互连标准,可在这些组件之间实现高效的数据共享和通信,因此非常适用于数据中心、高性能计算和人工智能/机器学习等广泛应用。它的灵活性和对不同内存和计算设备的支持,使其成为构建高性能、可扩展和多功能计算系统的重要技术。

“CXL内存互联计划”

2021年,Rambus围绕CXL技术和生态展开了全面布局,其中最令人印象深刻的事件就是在一天内宣布完成对AnalogX和PLDA两家公司的收购,并推出面向数据中心的“CXL内存互联(CXL Memory Interconnect)计划”。

AnalogX是行业领先的高速、低功耗PHY解决方案提供商,收购增强了Rambus 系列PCIe 5.0和32G多协议PHY的SerDes技术,为其迈向PCIe 6.0和CXL 3.0奠定了基础;PLDA同样致力于通过CXL和PCIe技术,为数据中心的处理器、加速器、内存和网络设备之间提供高速互联。基于这两项收购,从物理接口到数字控制器,再到IP产品,Rambus CXL相关产品和技术路线图变得日趋完整。

Rambus方面希望能够凭借上述举措进一步推动数据中心向可分解、重组的架构转型。尤其是考虑到在人工智能应用场景之下,市场对高速GDDR以及HBM的需求非常庞大,Rambus将继续迭代PCIe产品与CXL不同标准的协议。其次,在走向下一代协议支持的过程当中,公司还将继续开发更多SerDes互联产品,以实现基于CXL的互联。

而在上述基础上形成的“CXL内存互联计划”,则意在通过内存扩展和池化解决方案推动数据中心的架构转变,支持分解和可组合的服务器架构。

Mollah透露称,三年来,通过运用企业内部在高速I/O、存储器和安全领域的专业知识,Rambus与领先的处理器、DRAM和系统OEM与云服务提供商密切合作,开发出一些列基于CXL的内存扩展和池化解决方案,例如适用于CXL 3.0和CXL 2.0的CXL 控制器IP解决方案,已经被多家客户应用于加速器和SoC中以实现CXL互联。

此外,Rambus还在SC23展示了使用公司原型CXL内存控制器芯片的CXL平台开发套件,使模块和系统制造商能够为AI基础设施和其他先进系统开发和测试基于CXL的内存扩展和池化解决方案原型,以及展示运行行业标准基准测试软件的生产服务器中的CXL内存分层功能。

Rambus CXL平台开发套件扩展卡

“CXL是十年一遇的技术力量,将革新数据中心的架构。借助CXL内存计划,Rambus正在设计解决方案,引领数据中心性能与效率的新时代。”Mollah强调说。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
CXL的目标主要是为了解决CPU和设备、设备和设备之间的内存鸿沟,解决内存分割造成的较大浪费、不便和性能下降。目前来看,高性能计算、存储加速、AI加速、大规模虚拟化,是最适于CXL应用的领域。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
Xockets认为,英伟达凭借侵犯该企业专利的DPU产品垄断了AI GPU服务器市场,而微软则垄断了支持GPU的AI平台领域。此外,Xockets还称这两家科技公司就授权费建立了垄断同盟。
OpenAI认为,在美国建设更多基础设施对于推进人工智能并使其优势广泛普及至关重要。
英伟达的CUDA生态系统和高性能AI GPU仍将作为核心竞争力,但要支撑其像以往那样的飞速的发展态势,必然要面临更大的挑战,或者已到增长的天花板。
英伟达(NVIDIA) 发布 2025 财年第二季度财务报告显示,截至 2024 年 7 月 28 日的第二季度收入为 300 亿美元,较上一季度增长 15%,较去年同期增长 122%。NVIDIA财报的利好消息难以推动股价进一步上涨,也反映了投资人过高的预期......
随着AI应用的广泛普及和数据流量的迅猛增长,传统以太网技术在延迟、带宽、拥塞控制和高性能可扩展方面天然局限,导致其难以应对AI网络的复杂需求。
可折叠盖板玻璃必须符合以下所有标准:透明、可折叠、坚固、平整和轻薄,这些基本要素缺一不可。
此两项认证的通过标志着RG650V已完全满足北美等全球区域的相关规定和标准,与对应区域的各大运营商形成了安全、稳定的兼容状态……
PXI/PXIe 仿真模块提供多种电阻范围和分辨率,以满足大多数功能测试系统的需求……
1产品概述ZXEN G1651-1是一款用于商企场景的FTTR-B终端从设备,用户侧支持4个GE电口、1个语音口、1个USB口、1个2.4GHz 11ax和1个5GHz 11ax WLAN接口(支持1
连日来,东风纪委官方账号“廉洁东风”连续发布声明,回应熊树明律师对东风公司的举报。在最新一则声明中,“廉洁东风”表示,熊树明律师不仅把东风公司纪委参与熊发明案件的纪检监察干部告了个遍,还把东风公司一大
东盟泳池SPA博览会(APPS)作为亚洲最具影响力的行业盛会,于2024年9月3日-5日在泰国曼谷IMPACT 展览中心盛大开幕。本次展会汇聚了来自全球各地的顶尖泳池、庭院设计及SPA设备制造商, 共
2023 年,全球主要经济体之间的联系愈加密切,但受制于多方影响,仍远未达到疫情前水平。一方面,全球脱钩言论仍屡有耳闻,令人生忧;另一方面,多区域经济韧性出现挑战,通货膨胀加剧了对全球经济能否持续有力
有一种新型尖端材料只有人头发丝粗细的十分之一筷子粗细的一小束却能拉动两架C919大飞机这就是被称为“黑黄金”的碳纤维从造不出一块玻璃钢到碳纤维产能世界第一中央企业在复合材料领域不断实现关键技术突破以“
点击左上角“锂电联盟会长”,即可关注!随着对清洁能源需求的增长,迫切需要先进的能源存储技术。由于锂离子电池(LIBs)成本高昂,预计未来市场需求将难以满足。作为一种成本效益高的替代品,钠基电池因其钠资
▼关注微信公众号:硬件那点事儿▼Part 01前言众所周知,电容在电子电路中一直扮演着非常重要的角色。它们负责电子电路中信号的耦合,通过组建RC电路,可以搭建振荡电路,也可用于旁路和电源滤波器等。在铝
点击上方“C语言与CPP编程”,选择“关注/置顶/星标公众号”干货福利,第一时间送达!最近有小伙伴说没有收到当天的文章推送,这是因为微信改了推送机制,确实会一部分有小伙伴刷不到当天的文章,一些比较实用
点击左上角“锂电联盟会长”,即可关注!原文信息:Refined lithium-ion battery state of health estimation with charging segment
点击蓝字 关注我们还记得疫情时期的灵魂三问吗?你是谁?你从哪里来?你要到哪里去?疫情结束了,但市场似乎更安静了。转瞬到了2024年的秋天,传统旺季没有变旺。 我们要不要在此时也对自己灵魂三问?我的职业