继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal Premium系列,使得第二代Versal系列的版图更趋完整。

继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal™ Premium系列,使得第二代Versal系列的版图更趋完整。

Versal的名字来源于两个词,一个是多样性,一个是通用性。第一代产品组合包括Versal基础系列(Versal Prime)、Versal旗舰系列(Versal Premium)系列和HBM系列。此外,还包括AI核心系列(AI Core)、AI边缘系列(AI Edge)和AI射频系列(AI RF)。

2020年推出的Versal Premium是当时业界带宽最高、计算密度最高的自适应平台。其系统逻辑单元从最小160万个到最高740万个,自适应引擎LUT数量从最低72万个到最高340万个,可提供比主流FPGA高3倍的吞吐量和2倍的计算密度,并内置以太网、Interlaken和加密引擎,专为在散热条件和空间受限的环境下运行最高带宽网络,以及那些需要可扩展、灵活应变应用加速的云提供商而设计。

而第二代Versal Premium系列则是FPGA行业首款在硬IP中采用Compute Express Link(CXL)3.11与PCIe Gen6并支持LPDDR5存储器的器件。这些下一代接口和存储器技术能够在处理器和加速器之间快速且高效地访问和迁移数据,能更快速地释放更多内存,以满足数据中心、通信以及测试测量市场中数据密集型应用日益增长的实时处理和存储需求。

加速主机连接 

当前,在AI的迅速发展和重度使用趋势下,计算架构中的内存和存储标准和技术也在不断发展。AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Mike Rather援引相关机构的数据表示,DDR5已成为主流DRAM标准,预计将在未来几年继续主导市场。同时,作为连接存储与主机的创新技术,CXL技术正以212%的年均复合增长率快速普及。预计到2029年,支持CXL技术的服务器比例将接近100%,大大增强了数据中心的内存扩展能力与资源共享灵活性。

因此,第二代Versal Premium器件支持业界最快的主机接口CXL 3.1和PCIe Gen6,可实现行业领先的高带宽主机CPU到加速器连接。与支持PCIe Gen4或Gen5的FPGA相比,PCIe Gen6能提供了2-4倍的线速率,而运行PCIe Gen6的CXL 3.1在类似时延下则能提供使用CXL 2.1器件的双倍带宽,以及增强的架构和一致性功能。

“与第一代Versal Premium系列产品更多关注高安全性、高通量和高带宽情况下的网络加速不同,第二代产品中增加的CXL内存分享和池化技术,是充分考虑到随着大语言模型的兴起,数据中心需要更多内存来支持的情况。”Mike说,简单理解的话,就是第二代Versal Premium系列是助力计算,主要是通过更好地来管理系统内存,因为这正是现在人工智能模型以及各种数据集成最需要的。

此外,通过将第二代Versal Premium系列搭配AMD EPYC™ CPU,系统架构师能够利用经CXL或PCIe连接到高性能CPU的最新AMD FPGA 的器件,以加速数据密集型应用并满足快速的数据增长需求。CXL还能提供内存一致性的额外益处,有助于实现真正的异构加速计算。  

Mike特别强调了利用GTM2收发器实现数据流最大化的特性。据介绍,GTM2集成了上一代产品中的GTM和GTM1收发器,支持1.25 Gb/s至128 Gb/s的广泛数据速率,并兼容NRZ与PAM4编码格式。与此同时,GTM2延续了上一代成熟的设计流程,使开发者能够轻松上手,并在系统的各个阶段确保高度的可靠性。这一新型收发器的引入,进一步强化了Versal Premium的高速数据传输能力,为开发者带来了可靠、灵活且强大的解决方案。

提高存储器带宽及利用率

第二代AMD Versal Premium系列自适应SoC能以至高8533Mb/s的最快速 LPDDR5存储器连接加速存储器带宽,带来更快速的数据传输和实时响应。与采用 LPDDR4/5存储器的同类器件相比,这种超快的增强型DDR存储器可将主机连接速度提升至高2.7倍。而且,与DDR4和LPDDR4相比,DDR5和LPDDR5的功耗降低了20%到30%。为了进一步保障内存安全,在第二代Versal Premium还增加了硬内联ECC和加密功能。

与CXL存储器扩展模块进行连接可使总带宽较之单独使用LPDDR5X存储器高出至多 2.7倍。因此,第二代Versal Premium系列允许为多个加速器实现可扩展的内存池和扩展,进而优化存储器利用率并增加带宽和容量。例如,使用LPDDR5X内存时可以实现高达256比特的传输带宽,通过两个8通道CXL连接,速率可达64 Gb/s,从外部存储器获取的带宽超过500 Gb/s,为高效数据处理提供了强大的支持。

通过为多个器件动态分配内存池,第二代Versal Premium系列自适应SoC旨在提高多头单逻辑器件(MH-SLD)的存储器利用率,使其无需架构或交换机即可运行,同时支持至多两个CXL主机。

加强数据安全 

增强的安全功能有助于第二代Versal Premium系列在传输和静态状态下均可快速、安全地传输数据。作为业界首款在硬IP中提供集成PCIe®完整性和数据加密(IDE)支持的FPGA器件,第二代Versal Premium系列配置了硬核DDR内存控制器,其内置的内联加密可助力保护静态数据。

而400G高速加密引擎则能帮助器件以至高2倍的线速率保护用户数据,从而实现更快速的安全数据事务。该引擎具备高达800Gb/s的吞吐量,采用AES-GCM-256/128算法进行加密和解密,并支持从40x10G到1x400G的多种通道配置,适应不同的网络需求。

同时,它还兼容MACsec和IPsec协议,其中MACsec适用于保护端到端或共享的以太网链路,常用于广域网(WAN)和数据中心互联(DCI);IPsec则保障了IP网络的连接安全,适用于VPN等场景。通过集成这些先进的安全技术,Versal Premium系列为数据中心、云计算和高性能网络应用提供了灵活且可靠的安全解决方案。

属应用场景

大数据量与高计算密度场景,是第二代Versal Premium系列最主要的应用目标。

在数据中心中,CXL内存池和单节点通过高带宽的交换结构连接,实现了各机架之间的资源共享和统一管理。基于PCIe Gen6技术的CXL 3.1与CXL 2.0相比,具备两倍带宽,并通过NUMA架构实现与现有软件的轻松集成。Versal Premium在操作模式上支持CXL.io、CXL.mem和CXL.cache三种模式,提供全面的内存管理功能;在器件模式下,Versal Premium可以作为内存控制器运行,同时在主机模式下可连接CXL扩展模块,以实现系统的灵活扩展。此外,Versal Premium还支持多主机单逻辑设备(MH-SLD)架构和系统可组合性,为多主机共享资源提供了硬件支持。

在高性能GPU集群与自适应网络方面,mike解释说,目前越来越多的客户购买并部署大规模GPU集群,但传统的标准网络接口未必能满足其性能与扩展需求。但第二代Versal Premium能够通过单个网络适配器支持两个400G接口,显著提升了GPU集群的数据传输能力,确保其在复杂计算场景中的稳定性与高效性。虽然这一功能此前在Virtex UltraScale+和第一代Versal Premium中已有应用,但第二代Versal Premium在带宽支持和集群灵活性上更进一步。

在测试与测量领域,研发人员对PCIe Gen7标准的开发愈加感兴趣,但分析器、控制器和练习器等组件需要相关测试设备支持高达128 Gb/s的数据收发速率。为此,第二代Versal Premium不仅集成了高效的DSP引擎和内存带宽,还支持多种重要的接口协议,包括C-PHY和D-PHY,满足了测试设备制造商的严苛需求。这一架构设计使Versal Premium在支持先进协议和高带宽测试需求方面具备独特的优势,为下一代高速接口的开发与测试提供了理想的解决方案。

Vivado仍然是所有Versal器件统一的设计环境。在最新版本中,AMD减少了编译时间,包括采用新的P&R算法、改善了多线程性能、以及增强的增量流;通过引入用于顶层设计的RTL流程,以及用于NoC2和GTM2的RTL流程,使得设计入口对开发人员更加友好;同时改善的还有QoR与易用性,主要是通过工具引导的时序收敛、改进的DFX流程、以及分段配置以便加快CPU启动时间和PCIe的唤醒。

目前,第二代AMD Versal™ Premium系列提供四种不同型号,逻辑单元从140万到330万不等,包含3300到7600个DSP引擎。并集成了片上内存、内存控制器、双核A72应用处理器、双核R5F实时处理器、32至72个GTM2收发器、PCIe和CXL支持模块、100G和600G以太网MAC、400G高速加密引擎以及LDPC解码器。

该系列将于2024年第四季度推出功率估算工具,2025年下半年提供完整的Vivado工具,2026年上半年发布芯片样片和开发套件,并在2026年中实现量产出货。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
Altera正式宣布从英特尔分拆,并升起了象征独立的公司旗帜。Altera的独立对于整个FPGA行业来说是一个重要的里程碑事件,这将使Altera能够更加专注于技术创新和产品开发,从而推出更多符合市场需求的新产品,独立后的Altera也将有机会与其他FPGA厂商展开更激烈的市场竞争......
据台湾工商时报报道,英伟达(Nvidia)已正式成立ASIC(应用特定集成电路)部门,并计划在中国台湾招募上千名芯片设计、软件开发及AI研发人员。
莱迪思在最近的开发者大会上发布了最新的Nexus 2平台和对应的小型FPGA产品。这次我们有机会看看相比竞品,Nexus 2是怎么做到低功耗和高性能的...
莱迪思(Lattice)正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言,这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距,但近年来国产FPGA的发展势头不容小觑……
在金融行业的高频交易中,每一纳秒都至关重要,会导致从盈利几百万美元到巨额亏损之间的差别。正是在这样的背景下,AMD推出了其最新的金融科技加速卡——Alveo™ UL3422。这款加速卡不仅满足了金融机构对高性能和低时延的迫切需求,还以其独特的优势引领着金融交易的新时代。
中国市场对于Lattice而言不仅是至关重要的战略市场,更是其全球业务不可或缺的一部分。他提到,Lattice在中国的业务历史已超过30年,作为首批进入中国市场的半导体企业之一,Lattice已经建立了专门的本地团队,这些团队不仅深入理解并服务中国市场,还致力于为中国客户量身打造解决方案。
• 2024欧洲电动汽车销售遭遇增长瓶颈,多家车企将面临因无法满足欧七排放标准而带来的巨额罚款风险。 • 汽车厂商将电动汽车销售贡献作为降低旗下所有车辆平均排放量的关键。 • 汽车制造商需要解决消费者对电动汽车价格高、相关保险费和充电体验差的看法,以提高电动汽车的销量。
• 2024 年第三季度,全球智能手机市场同比增长 2%,出货量达到 3.07 亿部。 • 全球智能手机收入同比增长 10%,平均售价增长 7%。收入和平均售价均创下历史新高。 • 三星在出货量方面继续领跑市场,占据 19% 的销量份额。 • 苹果在营收方面领先,并创下了其历年第三季度出货量、收入和平均售价的最高记录。 • 小米位居第三,收入增长超过出货量增长比例,而 OPPO 则位居第四。vivo 在前五大手机品牌厂商 中同比增长最快。
芯联集成发布2024年全年业绩预告,多项关键指标继续保持高速增长,均呈现出积极向好态势。
廿载峥嵘追芯路,求实鼎新启新程。2025 年 1 月 10 日,轻寒料峭难掩勃勃生机,以 “新时代,大有可为” 为主题,大普技术二十周年庆典暨乔迁仪式于东莞市松山湖圆满举行。
1月15日,据媒体报道,英伟达创始人兼CEO黄仁勋已经抵达深圳,参加深圳分公司年会活动,并将访问中国多个城市。此前的1月13日,便已有外媒报道,黄仁勋在本周将开启中国之行。值得注意的是,黄仁勋此次访华
  中宇联云计算服务(上海)有限公司掌门人康俊燕,深耕通信领域多年,是“云边端”领域绝对的资深专家。不过,他所在意的,不是用新技术去替代旧技术,而是如何让新技术与旧技术更好地融合,
1月14日,OPPO、小米分别与松下控股就手机使用的蜂窝通信标准必要专利签署了一项全球专利交叉许可协议。与此同时,松下控股撤回了 2023 年对 OPPO 和小米在中国和欧洲提起的诉讼。松下控股表示,
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇年末了,大家都忙着业务收尾,好安心回家过年。但是最近
考虑到严格的网络安全标准,我们的PIC32CK SG MCU是您在不影响性能的情况下应对紧迫网络安全挑战的解决方案。PIC32CK SG MCU系列将完全隔离的硬件安全模块的安全性与Arm®的Trus
1月15日,小米公司在韩国首尔举行了首次发布会,正式推出其旗舰手机,标志着小米正式进军韩国市场并开启业务运营。           小米在发布会上展示了两款最新的智能手机机型,分别为小米 14T 和红
1月15日晚,“为中国经济点赞——企业家之夜”在北京举行。地平线创始人、CEO余凯出席并发表演讲,余凯表示,地平线是中国现在最大规模的智能汽车、智能驾驶芯片跟软件方案的供应商。简而言之,汽车未来是四个
 智能汽车网络与数据安全新媒体 转眼间,2024年已经落下帷幕,它终于过去了,这或许是很多汽车网安从业者失眠最多的一年。在降本增效已成为行业常态的大背景下,经济下行、市场内卷、技术革新、强标发布等多重
 △广告 与正文无关 据昆山发布1月14日消息,江苏省昆山高新区的群启科技厂区目前二期厂房已进入主体建设阶段,预计2月将完成厂房主体结构的封顶作业。群启科技项目由鼎鑫电子投资建设总投资52亿元总建筑面
点击蓝字 关注我们SUBSCRIBE to USPrem Kumar几十年来,研究人员一直试图将量子信号与经典信号一起挤入光纤电缆。然而,量子比特基于单个粒子的微妙量子态,这些量子态可能会被热噪声和其