广告

新型的FPGA器件将支持多样化AI/ML创新进程

时间:2024-04-01 16:25:19 作者:Achronix半导体中国区总经理郭道正 阅读:
此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。
广告

近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临,而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临,就像GPU以更高的计算密度和能效胜出CPU一样,各种加速器件在不同的AI/ML应用或者细分市场中将各具优势,未来并不是只要贵的而是更需要对的。

此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此,AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA,下面我们以Achronix的Speedster7t FPGA芯片为例来看看技术的演进方向,以及在实际推理应用中展现出来的在性价比和能效比等方面优于先进GPU的特性。

先来快速看看Speedster7t的产品亮点:该器件集成了800K到1500K等效逻辑单元以及326K到692K 6输入查找表(LUT),高达120T算力的机器学习处理单元(MLP),同时还配备了高性能存储和I/O接口,以及最高可达190Mb的嵌入式存储容量。在外部连接接口部署上,Speedster7t包含16个GDDR6通道,可提供高达4 Tbps的高速存储带宽;32对SerDes通道,支持1-112Gbps的数据速率;4个400G以太网端口(4× 400G或16× 100G)和2个PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。

Achronix的Speedster7t FPGA芯片被用户认为非常适合AI/ML推理原因是: 足够的算力,灵活可配的计算精度;高带宽大容量低成本的GDDR6(4Tbps带宽, 32GB容量);革命性的全新二维片上网络(2D NoC)路由架构;灵活通用的芯片间互联; 支持用户基于该芯片开发自定义的推理系统,比如单板多片FPGA甚至多板互联以组成更高性能(如1TBbps/64GB,2TBbps/128GB,4TBbps/256GB…等更高带宽和更大容量的计算存储)以支持更大或超大模型推理部署。 

简而言之,相比传统的推理算力平台,Speedster7t FPGA可以提供更高性价比和能耗比的大模型推理能力; 另外,在传统的FPGA处理功能中,越来越多的用户在该系统中加入机器学习的能力, Speedster7t FPGA能很好胜任传统FPGA功能和高性能机器学习融合在一起。

一类创新性的高性能FPGA系列产品

Achronix Speedster®7t系列FPGA基于革命性的FPGA架构,该架构经过了高度优化提供了高速、高带宽内外连接,可以满足日益增长的人工智能/机器学习、网络密集型和数据加速应用的需求。Speedster7t系列FPGA芯片具有一个革命性的全新二维片上网络,以及一个针对人工智能/机器学习进行优化的高密度的机器学习处理单元阵列。通过将FPGA的可编程性与类似ASIC路由架构和计算引擎相结合,Speedster7t系列提高了高性能FPGA的标准。

全新的二维片上网络(2D NoC)提供ASIC级别的性能

Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整个FPGA逻辑阵列中传输数据,并将数据传输到高性能I/O和内存子系统,同时可提供高达20 Tbps的总带宽。凭借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可编程逻辑资源的情况下来进行数据传输。在该芯片上的2D NoC提供了20 Tbps的二维片上网络总带宽;该2D NoC不仅覆盖了芯片全域,而且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。

高速接口

无论是支持输入和输出的数据流,还是存储缓冲这些数据,对于高性能计算、机器学习和硬件加速解决方案而言,都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支持前所未有的带宽。包括:

400G以太网:Speedster7t系列FPGA芯片支持多达4个400GbE端口或16个100GbE端口,通过2D NoC连接到FPGA逻辑。

PCI Express Gen5:Speedster7t系列FPGA芯片配备了多个PCle Gen5接口,支持速率达32GT/s。

存储接口:GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支持GDDR6存储器的FPGA,以最低的DRAM成本(每存储位)提供最快的SDRAM访问速度。Speedster7t系列FPGA芯片具有高达4 Tbps的GDDR6带宽,以很低的成本就可提供相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包括了DDR4/5存储器接口,以支持更深入的缓冲需求。PHY和控制器支持由JEDEC规范定义的所有标准功能。

机器学习处理单元

每个Speedster7t FPGA器件都具有可编程的数学计算单元,这些单元被集成至全新的机器学习处理单元(MLP)模块中。每个MLP都是一个高度可配置的计算密集型模块,具有多达32个乘法器/累加器(MAC),支持4到24位整数格式和各种浮点模式,包括Tensorflow的bfloat16格式以及高效的块浮点格式,大大提高了性能。

MLP模块包括紧密集成的嵌入式存储器模块,以确保机器学习算法将以750 MHz的最高性能运行。这种高密度计算和高性能数据传输的结合造就了高性能机器学习处理结构,该结构可提供市场上基于FPGA的极高TOPS级别运算能力(TOPS即Tera-Operations Per Second,每秒万亿次运算)。

图中文字说明:Register File - 寄存器文件,Fracturable Adder/Accumulator - 可拆分的加法器/累加器,Float MAC - 浮点乘累加单元(MAC),Memory Cascade in - 存储器级联,Operand Cascade in - 操作数级联。

设计工具支持

Achronix Tool Suite工具套件是一个支持所有Achronix硬件产品的工具链。它可与行业标准的逻辑综合和仿真工具结合使用,从而使FPGA设计人员能够轻松地将其设计映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。

展望在推理等领域帮助开发者打造综合性能优于先进GPU应用

随着AI/ML技术在各个领域开始广泛走进应用,Achronix根据Speedster7t FPGA器件的高性能和高带宽特性,选择了推理这一个应用面非常广的技术市场方向,与合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发,以期帮助更多的创新者实现突破。

该芯片提供了足够的算力,并利用其片上搭载的二维片上网络(2D NoC)和机器学习处理单元(MLP),各种高速接口和GDDR6高带宽存储接口,提供了用于大规模推理应用需要的计算器件内外连接、硬件加速和存储调用等新技术,从而可以支持开发者快速去实现创新。

这个策略取得了显著的成果,其中一个领域是加速自动语言识别(ASR)解决方案,它由搭载Speedster7t FPGA器件的VectorPath加速卡提供支持,运行Myrtle.ai提供的基于Achronix FPGA的ASR IP,从而提供业界领先的、实时的、超低延迟的语音转文本功能。运行在服务器中的单张VectorPath加速卡可替代多达20台仅基于CPU的服务器或10张GPU加速卡。

Speedster7t FPGA的技术创新为人工智能推理带来了更高性价比和更高能效比以及可以让用户开发自定义的推理硬件平台和系统。 在ASR实际性能方面,其出色的超低单词错误率和仅有最先进GPU解决方案八分之一以下的端到端延迟(包括了预处理和后处理以及与CPU做数据交互的时间)颠覆了ASR领域。该解决方案可以在标准的机器学习框架中使用垂直应用特定的或自定义的数据集进行定制或重新训练。

对于越来越多的其他的推理应用,Speedster7t FPGA的独创高带宽架构也可以为这些应用提供有力的支撑。Achronix正在通过不断研发,以完善其工具链和应用生态,将在2024年推出更好的工具来帮助各种推理应用的开发,使众多的用户更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡来实现性价比和能效提升,而不用去争抢紧俏的高性能GPU加速卡。

关于Achronix半导体公司

Achronix半导体公司是一家总部位于硅谷的无晶圆厂半导体公司,提供基于高端FPGA的高性能数据加速解决方案,旨在满足高性能、密集型计算和实时性处理的应用需求。Achronix是唯一一家同时提供高性能高密度的独立FPGA芯片和可授权的eFPGA IP解决方案的供应商。通过面向人工智能、机器学习、网络和数据中心应用的即用型VectorPath®加速卡,Achronix 的Speedster®7t系列FPGA和Speedcore™ eFPGA IP产品得到进一步增强。所有的Achronix产品都由Achronix工具套件完全支持,使客户能够快速开发自己的定制应用。

Achronix的业务遍布全球,并在美国、欧洲和亚洲设有销售团队和研发设计团队。如需了解更多信息,请访问www.achronix.com。

观看Achronix的相关视频介绍及培训内容,请复制以下优酷频道链接到浏览器:https://www.youku.com/profile/index/?spm=a2h0c.8166622.PhoneSokuUgc_1.1&uid=UNzM2MDU5OTYxNg==

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 新型的FPGA器件将支持多样化AI/ML创新进程 此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。
  • 工程智能发展之路(一):崛起中的中国力量 在现代制造业中,仅依靠制造执行系统(MES)、设备自动化系统(EAP)、高级计划排程系统(APS)、实时派工系统(RTD)等各种管理系统,还远远不够。工程智能(Engineering Intelligence, EI)作为半导体工业软件体系的核心环节,正扮演着越来越重要的角色……
  • 存储系统市场2024 年呈现复苏迹象 Omdia最新的数据中心(DC)存储收入跟踪数据显示,2023年第四季度DC存储外部系统同比(YoY)下降12.5%至144亿美元,但环比(QoQ)增长11.9%。2023 年第四季度,直流存储收入出现复苏迹象,因为原始设计制造商(ODM)存储收入降幅趋于平缓,而品牌存储在上一年供应商收入历史高位的情况下有所改善。
  • 全球智能扫地机器人市场,中美两国占近半数份额 美国市场一直是全球扫地机器人消费的重要地区。2023年,美国智能扫地机器人市场出货量超过440万台,位列全球出货量第二。
  • 2024年全球智能手机出货量预计将增长3%,高端和中低端细分市场领衔 Counterpoint Research 的《全球智能手机出货量预测》显示,预计 2024 年全球智能手机出货量将同比温和反弹 3% 至 12 亿部,这一反弹主要是由对预算较为敏感的细分市场即中低端价位段(150-249 美元)和高端价位段市场(600-799 美元)推动的。
  • 自动驾驶感知系统传感器新趋势 得益于AI算法的升级,越来越多的车企采用以视觉为主的感知方案。这类方案减少了对激光雷达的配置,大幅降低了系统硬件成本。然而……
  • DSCC:华为将首次在折叠屏手机市场份额上超越三星 • 2023 年第四季度可折叠智能手机出货量同比增长 33% 至 420 万部,是迄今为止的第四高值。 • DSCC 预计,华为将在 2024 年第一季度首次在折叠屏手机市场份额上超越三星。 • 华为和荣耀预计将在 2024 年获得市场份额,而 OPPO 和 Vivo 则因放弃翻盖式可折叠机产品而预计失去份额。 • 2024 年第一季度可折叠手机市场预计将同比增长 105%。
  • 中科院微电子所在数模混合存算一体芯片方面取得重要进展 中国科学院微电子研究所研发出基于外积运算的数模混合存算一体宏芯片,设计了一种数模混合浮点 SRAM 存内计算方案,提出了模拟与数字存算宏的混合方法……
  • 2023年全球五大晶圆设备厂营收小幅下滑,ASML问鼎 • Top 5 晶圆厂设备 (WFE) 制造商的营收在 2023 年同比下降 1% 至 935 亿美元。 • 来自晶圆代工领域的收入在 2023 年同比增长 16%。 • 2023 年晶圆代工设备的中国大陆出货量约占总系统销售额的三分之一。 • 由于疲软的 NAND 终端市场,内存板块的收入在 2023 年同比下降 25%。NAND 和强劲的 DRAM 技术升级将在 2024 年帮助内存收入增长。 • 强劲的 DUV 和 EUV 光刻机销售额使 ASML 在 2023 年占据了领先地位。
  • TrendForce集邦咨询:预估第二季DRAM价格涨幅将收敛至3~8% 目前观察DRAM供应商库存虽已降低,但尚未回到健康水位,且在亏损状况逐渐改善的情况下,进一步提高产能利用率。不过,由于今年整体需求展望不佳,加上去年第四季起供应商已大幅度涨价,预期库存回补动能将逐渐走弱。TrendForce集邦咨询预估, 第二季DRAM合约价季涨幅将收敛至3~8%。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了