与前代产品AMD Alveo U55C计算加速卡相比,Alveo V80的逻辑密度至高翻倍、存储器带宽至高翻倍,且网络带宽可高至4倍,可以实现强大的计算集群,也不再需要DDR4或其他外部芯片,从而优化了卡、服务器数量以及机架空间。

对于“大型数据集和内存密集型工作负载”处理来说,最佳性能不仅取决于原始计算能力,还取决于高存储器和网络接口带宽。

那么,什么是“大型数据集和内存密集型工作负载”呢?目前来看,主要是指高性能计算应用,包括基因组测序、分子动力学和传感器处理;网络安全领域的线速数据包检测和AI支持的异常检测;金融科技应用,包括策略回测、期权定价以及金融建模与仿真;AI计算领域,包括推荐引擎和大语言模型等等。

AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Shyam Chander日前在Alveo™ V80计算加速卡发布会上,用下图对“大数据集工作负载通常受限于内存和网络访问”进行了形象的比喻。可以看到,在传统处理器架构中,CPU+FPGA和PCIe的带宽远高于DDR内存和网络接口可以提供的带宽,导致无论是内存还是网络,都会出现瓶颈。

大规模加速计算密集型内存受限工作负载

大型数据集和内存密集型工作负载打造

Alveo™ V80计算加速卡是AMD提供的破局之道。该卡采用全高、3/4长(FH¾L)尺寸规格,由AMD Versal™ HBM自适应SoC提供支持,具备2,600,000个LUT逻辑单元的FPGA架构、10,848个DSP计算逻辑片以及820GB/s的存储器带宽,专为具有大型数据集的内存受限型应用而设计。此外,V80还包括一个32GB的DDR4 DIMM扩展插槽,并支持PCle Gen5接口,64G传输速率是第四代的2倍。整卡功率300W,采用被动散热,总热设计功耗TDP则取决于器件和服务器。

与前代产品AMD Alveo U55C计算加速卡相比,Alveo V80的逻辑密度至高翻倍、存储器带宽至高翻倍,且网络带宽可高至4倍,可以实现强大的计算集群,也不再需要DDR4或其他外部芯片,从而优化了卡、服务器数量以及机架空间。

了解加速卡的人士应该比较清楚,通常情况下使用加速卡时都需要和本地CPU进行连接,但这会限制加速卡的数量。而如果采用类似V80这样的网络附接加速卡,相较于传统加速器,能够在以下四方面带来优势:低时延处理传入的网络数据、避开至加速器的瓶颈、消除分立式网络接口卡、并实现每服务器的卡数和计算密度最大化。

如果映射到架构层面,这其实就是CPU/GPU拥有的传统架构和自适应计算拥有的灵活应变架构之间的不同。“传统架构是固定的缓存层次结构,用于数据的读写和输入,在这个过程中不规则的访问模式会引起潜在的低效率。”Shyam Chander指出,灵活应变的存储器层次架构是在计算附近分配内存,实现降低延迟和低功耗,而且可以灵活适应自定义的数据设计和数据建议。

从“射电天文天线阵列”到“金融建模”

联邦科学与工业研究组织(CSIRO )是澳大利亚的国立研究组织,其参与建造了世界上最大的射电天文学天线阵列,该天线阵列目前包含420张Alveo U55C加速器卡用于处理无线电波,以研究早期宇宙并探索星系演化。

CSIRO计划借助Alveo V80加速卡缩减占板面积与成本,并将所需加速卡的数量精简多达66%,同时应对来自望远镜131,000个天线的新信号处理任务。考虑到卡、服务器、机架空间和功耗的潜在减少,每卡算力的跃升预计可带来至高20%总拥有成本(TCO)下降。

下图呈现了总拥有成本降低的估算情况——左侧是420张AMD Alveo U55C加速卡,需要21台服务器,每年约是520千瓦时;右侧是140张AMD Alveo V80加速卡,服务器数量缩减为14台,每年大概是236千瓦时。加速器数量减少至高66%,服务器减少至高33%,功耗降低至高55%,总拥有成本也降低至高21%。

AMD Alveo V80加速卡实现的预估传感器处理和TCO节省

另外一个用例来自压缩与数据分析功能的服务器存储节点,主要功能就是利用FPGA架构和AMD压缩IP可扩展存储节点,并可解压缩,查询加速等。从总拥有成本的角度来分析,比如10Pb数据存储,没有压缩时需要55台服务器,1303个SSD驱动器,每年约427千瓦时的功耗。如果进行压缩,同样是10Pb数据只需要21台服务器,504个SSD驱动器,每年能耗约233千瓦时,使用42张AMD AlveoTM V80卡进行压缩,总拥有成本三年以上至高可以达到56%的降低,而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。

金融科技领域的金融建模和算法交易,是现在很多企业趋之若鹜的一种用例。简单而言,用户在建模、仿真与回测的用例场景中,主要依靠FPGA架构和DSP用于密集计算,HBM用于大数据集、历史定价数据。而在低时延算法交易中,752Mb的RAM用于定价数据、交易记录,HBM则用于订单信息。

一切为了简化开发

Alveo V80加速卡经由Alveo Versal示例设计(AVED)完全可为传统硬件开发人员使用,现已在GitHub上提供。AVED利用传统FPGA和RTL流程简化了硬件启动,并且基于常见的Vivado工具流程。示例设计采用在AMD Versal自适应SoC上实现并专门针对Alveo V80加速器卡的预构建子系统,提供了高效的起点。

在系统层面,Alveo V80计算加速卡简化了系统集成并提供了快速的量产路径。通过使用预先验证的部署卡,设计团队可以避开PCB集成、库存管理和产品生命周期管理任务。 

总体而言,与其它类型的加速卡相比,Alveo系列主要针对内联网络、实时处理类型的应用,低时延、灵活应变、各个节点的可扩展性是主要诉求,FPGA的自适应SoC就是极好的解决方案,用户可以像面对乐高玩具一样,对非常丰富的存储器架构资源进行自定义拼装和使用。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
世界半导体贸易统计组织(WSTS)的最新预测,2024年全球半导体市场预计将实现16%的增长,市场估值达到6110亿美元。这一增长主要得益于过去两个季度的强劲表现,尤其是在计算终端市场。
最近,Lattice的首席执行官吉姆·安德森(Jim Anderson)宣布离职,原因是“追求在其他公司的机会”。而仅仅几分钟后,芯片和光学元件制造商Coherent就宣布将任命Anderson为首席执行官,即日起生效。
AMD希望第二代Versal自适应SoC能够成为面向AI驱动型以及经典嵌入式系统的中央计算,而不是更多进行CPU加速,这是与第一代产品最大的不同。
目前全球FPGA出货量最大的企业是莱迪思。这家公司在过去两年的行业低谷期保持了业绩的高速增长。这究竟是怎么做到的?
作为AMD成本优化型FPGA和自适应SoC产品组合的最新成员,最新推出的Spartan UltraScale+ FPGA器件针对边缘端进行了优化,可提供高数量I/O和灵活的接口,令FPGA能够与多个器件或系统无缝集成并高效连接,以应对传感器和连接设备的爆炸式增长。
对于所有被停产的CPLD或FPGA都“没有直接替换”的产品,如果AMD选择在未来不推出任何替代品,这将标志着该公司CPLD产品的终结。
从排名来看,前五大Foundry第一季排行出现明显变动,SMIC受惠消费性库存回补订单及国产化趋势加乘,第一季排行超过GlobalFoundries与UMC跃升至第三名……
本文根据完整的基准测试,将Achronix Semiconductor公司推出的Speedster7t FPGA与GPU解决方案进行比较,在运行同一个Llama2 70B参数模型时,该项基于FPGA的解决方案实现了超越性的LLM推理处理。
全新的XENSIV™ TLE49SR角度传感器系列兼具出色的抗杂散场能力和高精度,适用于电动助力转向、车辆高度调平等安全关键型汽车底盘系统应用。
锐成芯微的模拟及数模混合 IP 排名挺进全球第二、继续保持中国第一的位置,无线射频通信IP继续保持中国第一。
AI司机 发自 副驾寺智能车参考 | 公众号 AI4Auto喝咖啡,看News,各种出差体验最新的车,见各种有意思的人获取最酷的认知。这大概就是智能车参考编辑部的日常,现在这样的工作和生活方式,正式向
据路透社报道,三位知情人士透露,芯片设计巨头联发科正在开发一款基于 Arm 架构的个人电脑芯片,该芯片将用于 Windows AI 笔记本电脑。上个月,微软发布了新一代笔记本电脑,其搭载了基于 Arm
2024年电动智能汽车行业报告汇总(点击进入)6月11日晚间,恒大汽车公告,相关附属公司于近日收到相关地方行政部门进一步下发的行政处理决定书,被责令退回19亿元补贴。公告称,相关地方行政部门认为基于相
  10万级和30万级净化车间在现代工业生产中占据着至关重要的地位。这两个级别的净化车间虽然都致力于提供洁净的生产环境,但在洁净度标准、应用场景以及具体的技术要求上却存在显著的差异
据日本财务省数据,截至2024年第一季度,日本出口到中国的半导体设备占比已经连续三个季度超过50%。                      日经新闻统计了日本半导体制造设备及其零部件、平板显示屏制
6月11日晚,赛力斯集团股份有限公司发布《关于重庆赛力斯电动汽车有限公司的进展公告》。           公告称,2024年6月11日,赛力斯集团召开第五届董事会第十二次会议,审议并通过了《关于重庆
2024年6月12日-14日,美国视听显示与系统集成展览会(InfoComm 2024)在美国拉斯维加斯会展中心举办。来自中国的毫米波无线连接芯片创新企业和领导厂商——德氪微电子(深圳)有限公司(以下
信号与系统2024(春季)作业要求以及参考答案汇总[1]信号与系统2024(春季)作业要求 - 第十三次作业[2]01 参考答案一、系统的频率特性1、根据系统函数绘制系统频率特性  □ 解答:  (1
韩媒 ZDNet Korea 今日表示,三星 1b nm(12nm 级) DRAM 内存良率仍不足五成。这一数据远低于 80~90% 的业界一般目标,三星已于上月就此成立专门工作组应对。三星电子于 2