产业丨LLM时代,FPGA跑AI会比GPU更具性价比?

原创 AI芯天下 2024-06-20 20:30

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发






前言
在人工智能的快速发展中,大语言模型(LLM)已成为研究和应用的热点。

随着对计算性能和能效比的不断追求,传统的GPU加速方案正面临新的挑战。


作者 | 方文三
图片来源 |  网 络 

 
FPGA的优势在AI时代凸显


FPGA正在逐步确立其在人工智能和高性能计算领域作为GPU的有力替代品的地位,FPGA的核心优势在于其出色的可编程特性。


FPGA具备改变内部电路的能力,使之成为原型设计和开发中的优选工具。


工程师可以依托FPGA实现快速迭代,对不同硬件配置进行测试,直至找到解决特定问题的最佳方案。


在延迟和功耗方面,FPGA通常较GPU表现更为优越,特别是在针对特定任务进行精细化调整时。


开发人员能够针对特定任务定制硬件加速器,这些任务可能并不适应GPU的固定架构。


这一特性赋予了FPGA高度的灵活性,使其能够微调硬件设计以最大化效率。


然而,在图形处理方面,需要指出的是,高性能专用GPU仍具备更出色的性能和功耗表现。


FPGA为那些需要高度可定制和节能的硬件加速和实时处理特定应用提供了解决方案。


随着人工智能技术的快速发展,FPGA的可编程性优势逐渐凸显,特别是在需要频繁调整底层模型的人工智能推理场景中。


尽管如此,需要明确的是,FPGA并不会成为构建大规模人工智能系统时数千个GPU的有力竞争对手。


然而,随着人工智能在电子领域的广泛应用,FPGA的应用范围将得到进一步拓展。



FPGA与GPU在AI领域的特性对比


①性能与功耗对比:在AI领域,FPGA和GPU的性能和功耗是衡量性价比的关键指标。


根据Achronix的基准测试结果,其Speedster7t FPGA在运行Llama2 70B模型时,每token的成本比GPU解决方案低200%,同时在功耗上也显示出200%的提高。


这表明FPGA在特定场景下,如LLM的推理任务,可能提供更高的性价比。


②灵活性与定制性:FPGA的另一个显著优势是其灵活性和定制性。


与GPU相比,FPGA可以针对特定算法进行硬件级别的优化,从而减少不必要的计算和存储开销。


例如,AMD的Alveo V80加速卡利用Versal FPGA自适应SoC和HBM技术,为需要低延迟和高带宽的AI应用提供了强大的支持。


③市场定位与应用场景:FPGA在AI领域的市场定位主要集中在对实时处理和低延迟有严格要求的应用场景。


例如,英特尔的Stratix 10 NX FPGA通过集成神经处理单元(NPU),在AI性能上实现了显著提升,特别适合数据中心、网络和嵌入式市场中的AI应用。


④成本效益分析:虽然FPGA的初始投资成本可能高于GPU,但其在长期运营中的能效和可编程性可能带来更高的总体拥有成本(TCO)优势。


特别是在算法不断迭代和优化的LLM时代,FPGA的灵活性可以减少因技术过时导致的硬件更换成本。



FPGA与GPU的性能成本对应不同场景选择


GPU主要擅长浮点、并联、定点,可以提供大量的HBM;


但FPGA更擅长实时处理,具备低时延、灵活应变的特点,有非常丰富的存储器架构资源,就像乐高积木一样,可以自定义进行拼接和拼装。


在性能方面,FPGA和GPU各有优势。FPGA以其并行处理能力和可定制的硬件逻辑在某些特定任务上展现出更高的性能。


例如,对于需要快速响应的实时AI应用,FPGA能够提供更低的延迟。


而GPU则在处理大规模并行任务时表现出色,特别是在深度学习训练阶段。


根据相关研究,FPGA在执行某些AI算法时,如卷积神经网络(CNN)的推理,性能可以超越GPU。


FPGA的初始购买成本通常高于GPU,但FPGA的能效比较高,长期运营成本可能更低。


此外,FPGA的可编程性意味着它们可以适应新的算法和模型,减少了因技术迭代而产生的升级成本。


能效比是衡量性价比的重要指标之一。FPGA由于其硬件可定制性,能够针对特定任务优化能耗,通常在能效比上优于GPU。


特别是在推理任务中,FPGA的低功耗特性可以显著降低数据中心的运营成本。


不同的AI应用场景对硬件的需求不同。FPGA更适合对延迟敏感、需要快速响应的应用,如自动驾驶、实时语音识别等。


而GPU则更适合于需要处理大量数据和进行复杂计算的场景,如大规模图像和视频处理。


因此,在选择FPGA或GPU时,需要根据应用场景的具体需求进行匹配。



英伟达通过推出如A100等高性能GPU,英伟达在AI和数据中心市场占据了领先地位。英伟达还提供CUDA等开发平台,以支持深度学习和并行计算。


AMD通过推出具有竞争力的GPU产品,如Radeon系列和Instinct系列,针对游戏、专业图形和数据中心市场。


从性价比的角度来看,FPGA在某些特定领域表现出了优势。


Achronix的Speedster7t FPGA在LLM的基准测试中显示出比GPU更高的性价比,其每token的价格提高了200%,同时功耗也有所提高。


AMD推出的Alveo V80 FPGA加速卡,特别适合需要低时延和高计算密度的应用场景,如高性能计算、数据分析等。


英特尔的Stratix 10 NX FPGA通过集成神经处理单元(NPU)显著提升了AI性能,与英伟达的GPU相比具有更高的性能。



GPU市场继续占大头,FPGA全速追赶


GPU作为AI服务器的核心增量,占据了AI芯片市场的大部分份额,预计到2025年仍将占据80%以上。


中国GPU市场规模在2022年达到83.6亿美元,预计2023年将达到111亿美元。


2022年至2023年间,FPGA市场规模维持在90亿至100亿美元之间,并以7%至8%的复合年增长率持续增长。


到2028年,基于FPGA的解决方案将有望实现额外的30亿美元市场增长空间。


然而,尽管FPGA市场前景广阔,但目前在中国AI芯片市场中,FPGA的占有率仍然相对较低。


根据IDC数据,2022年中国AI芯片市场中,GPU占比高达约89.0%,而FPGA等其他芯片的市场占有率共计超过10%,其中FPGA仅占0.4%。


预计2021年至2027年,FPGA市场将以12%的年复合增长率持续增长,并有望达到130亿美元的规模。


尤其值得一提的是,中国市场预计将呈现出更快的增长速度,未来5年的增长率有望保持在18%左右。



越来越多的厂商布局FPGA赛道


GPU市场由英伟达和AMD等企业占据主导地位,提供涵盖消费级至数据中心级的广泛产品线,以满足不同领域的需求。


在FPGA市场,赛灵思与英特尔共同占据超过七成的市场份额,两家企业凭借高度可定制化的产品,有效满足了特定行业客户的多样化需求。


自2018年左右起,赛灵思(现已被AMD收购)便洞察到FPGA在算力市场的巨大潜力,并确立了[数据中心优先]的战略布局。


随后,该公司发布了Versal自适应计算加速平台,这一创新产品已超越传统FPGA的范畴,通过内部可编程引擎引入多个自适应数据流组织的AI Core,从而成为承载AI等数据密集型运算的核心力量。


赛灵思在FPGA的AI领域,设计了一套专门的硬件体系来支撑数据密集型运算。


Versal ACAP集成了标量处理引擎、自适应硬件引擎、智能引擎以及先进的存储器和接口技术,显著提升了异构加速性能。


相较于赛灵思通过独立于传统FPGA结构之外的AI Core阵列来承载AI运算,英特尔在FPGA的AI技术路线上表现得相对保守。


其主要策略是将FPGA内部的DSP模块升级为AI张量模块,使其成为FPGA内部的一个组成部分。


鉴于AI算法的核心在于高效的张量运算,英特尔的这一技术路线旨在通过优化DSP模块以适应AI张量运算的需求。


在AMD完成对赛灵思的收购之际,赛灵思亦公布了AIE(人工智能引擎)架构。


而英特尔在2020年推出了首款AI优化的FPGA——Stratix 10 NX FPGA,其中集成了名为神经处理单元(NPU)的AI软处理器。


经测试,该FPGA在性能上相较于英伟达T4 GPU和V100 GPU具有显著优势。


近年来,随着AI应用逐渐转向低延迟、高安全性和私密性的处理场景,高端FPGA的特性正逐渐渗透到中端应用领域。


网络边缘计算、智能终端设备等市场展现出巨大的发展潜力,吸引了国内外众多厂商加大对中端FPGA领域的投入。


专注于低功耗FPGA的Lattice公司近年来亦加大了在中端市场的布局力度。



与此同时,英特尔也开始关注中端FPGA市场的机遇。


尽管过去英特尔的FPGA产品主要面向高端应用市场,但随着Agilex D系列FPGA和代号Sundance Mesa的Agilex FPGA的推出,英特尔正逐步将业务重心拓展至中端市场。


国内FPGA厂商亦在积极面向AI领域进行创新。例如,京微齐力在其FPGA产品中采用了Imagination的 Series3NX AI核,以支持AIoT应用、边缘端AI视频分析处理应用等场景。


该公司通过将FPGA、CPU、AI等多种异构计算单元集成于同一芯片上,强调了硬件的可重构特性,从而实现了高定制水平和能效提升。


2024年6月,AMD推出了首款针对大规模数据处理市场的加速卡产品——Alveo V80。


该产品不仅采用了Versal FPGA自适应SoC技术,还集成了HBM,非常适用于高性能计算、数据分析、金融科技、网络安全、存储以及AI计算等多样化应用场景。



FPGA会进一步抢占LLM和边缘AI市场


①在数据中心领域,IPU作为一种与至强可扩展处理器协同工作的器件,发挥着服务器中服务器的关键作用。


每一个IPU器件均基于FPGA技术构建,为数据中心提供强大的计算能力。


②在网络领域,当前市场正经历着巨大的变革,如可编程网络的不断扩展和智能边缘的崛起。


为应对这些变化,我们需要在整个网络中进行协同增效。


EPF、时间敏感性网络(TSN)以及P4可编程解决方案等技术将成为未来市场的重要机遇。


而英特尔的IPU/SmartNIC则被视为驱动下一代网络的核心技术。


③在嵌入式系统领域,如交通汽车和零售等行业,AI/ML技术的广泛应用正在不断提升生产效率和安全性。

FPGA凭借其独特的优势,在这些领域能够显著降低总体拥有成本(TCO)。



结尾:可能在某些应用场景中实现技术融合


在未来,随着技术的不断进步和市场的持续扩大,FPGA和GPU有潜力在某些特定应用场景中实现技术融合,以应对日益复杂的计算需求。


举例来说,FPGA可望在特定任务的加速方面发挥关键作用,而GPU则在大规模数据处理方面具备显著优势。


通过将两者有机结合,可以构建出更加高效且灵活的计算架构,从而满足各种复杂的计算需求。


此外,随着新型计算技术如光子计算和量子计算的不断涌现,AI硬件市场正迎来前所未有的创新和发展机遇。


长远来看,FPGA和GPU等技术将在不同应用场景中各自展现其独特优势,共同推动AI硬件市场的持续繁荣。


最终,是否选择FPGA或GPU作为AI加速方案,将取决于具体的应用需求、预算限制、技术成熟度以及长期投资回报等因素的综合考量。


市场将由技术发展、应用需求和成本效益共同决定,以实现最佳的计算性能和经济效益。


部分资料参考:电子工程世界:《LLM时代,FPGA跑AI会比GPU更强吗?》,大眼仔生活圈:《芯片之争:GPU vs CPU vs FPGA,谁将主导人工智能未来?》,Java学研大本营:《FPGA对比GPU,优劣势与应用场景分析》,与非网:《算力竞速,FPGA如何拥抱AI大时代?》


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:


商务合作请加微信勾搭:

18948782064

请务必注明:

「姓名 + 公司 + 合作需求」


AI芯天下 聚焦人工智能,AI芯片,5G通讯等行业动态
评论 (0)
  • 当遇到串口无输出的问题时,可以从以下几个方面进行排查:硬件连接问题:检查串口线是否连接正确,确保TX和RX引脚没有接反。确认电源供电正常,微控制器和串口设备都有电。检查是否有短路或断路的情况,特别是对于自制的串口线或电路板。波特率不匹配:确保微控制器和接收端(如电脑终端软件)的波特率设置一致。不匹配的波特率会导致数据无法正确解码。驱动程序问题:如果是在PC端接收不到串口数据,检查操作系统上的串口驱动是否正确安装。确认串口号(COM端口)识别正确,有时设备管理器中显示的端口号可能与实际连接的端口号
    丙丁先生 2024-07-16 09:08 52浏览
  •     GPIO_StructInit(&GPIO_InitStruct);    GPIO_InitStruct.GPIO_Pin = GPIO_Pin_2;    GPIO_InitStruct.GPIO_Mode = GPIO_Mode_IPU;    GPIO_Init(GPIOA, &GPIO_InitStruct);上拉输入是一种常见的GPIO(通用输入输出)引脚的工作模式。
    丙丁先生 2024-07-16 10:25 23浏览
  •     丝印层(Silkscreen Layer)位于PCB的外表面,采用白色或者其他颜色的墨水(ink)制作,没有电气特性。    丝印层得名于制造它所用的Silkscreen工艺。这个工艺很像创作版画,或者给T恤上做装饰图:先在一个网板(stencil)上刻划出图案,然后用辊子涂刷墨水,让墨水透过网板附着在PCB上,然后用紫外线或者加热的方式使墨水固化。    丝印层主要起指示作用。丝印层上面的字符、指示线可以直观地告诉观察PCB的
    电子知识打边炉 2024-07-13 14:27 39浏览
  •     这篇分享对化学腐蚀/离子迁移的学习。    化学腐蚀的本质是氧化还原反应,即原电池。反应条件是:     1. 有可溶性电解质。电解质可能来自PCB的电镀或清洗工序,也可能来自残留的助焊剂(flux)。常见的有氯离子(有卤flux、汗液、盐雾)、酸(flux的酸);     2. 有溶剂。常见的是水(湿气),也可以是有机溶剂。树脂材料内部会吸附湿气,PCB加工过程有湿气,质量差的孔内壁会吸附湿气,V-cut分
    电子知识打边炉 2024-07-14 17:07 73浏览
  • “颠覆与涅槃,颠覆自我与重新涅槃,让企业在变革中更完美的蜕变。”这是小鹏汽车董事长兼CEO何小鹏,在2024年开年时候说的话。如今2024年已经过去了一半,小鹏汽车的处境,似乎并没有变得更好,反而是状况不断。据不完全统计,近一年来,从小鹏汽车离职的高管团队,并不在少数。从此前宣布加入英伟达的智驾负责人吴新宙,到后面的AI负责人刘兰个川(Patrick)、软件负责人Parixit Aghera,再到此次离职的矫青春,小鹏汽车近一年都处于内部动荡之中。而在这种动荡之外,小鹏汽车也正在经历一场“冰与火
    刘旷 2024-07-15 09:56 106浏览
  •     PCB表面绝缘电阻(SIR, Surface Insulative Resistance)有IPC和Bellcore GR78-CORE两个主要标准。    IPC-TM-650 方法2.6.3.7 是针对SIR的。这个标准的英文版本可以免费从IPC官网下载获得。IPC(国际电子工业联接协会)是PCB标准化主要组织。    这个测试方法针对PCB裸板(即安装元器件之前的PCB),而且是使用IPC推荐的测试板/图案(Vehicle
    电子知识打边炉 2024-07-14 22:07 89浏览
  •   读报见文《中国的AI价格战和“不知道怎么用AI”的日本人 - FT中文网》  如题,好奇,中日两国对AI表现怎么是这样呢?  我人在中国,看新闻与现实,“中国的AI价格战”不足为奇。  没去过日本,只有看新闻,好奇的是日本人“不知道怎么用AI”?  第一想到的是日本不是很早就搞机器人了吗?  百度看看,日本什么时候开始使用机器人?  日本在20世纪80年代开始在各个领域推广使用机器人。日本将1980年称之为“机器人普及元年”。到了1985年以后,日本进入了被称为“智能机器人的时代”。  智能
    自做自受 2024-07-13 22:40 245浏览
  •     这篇分享对PCB电化学迁移(ECM, Electrochemical Migration)的学习。     ECM发生在导体之间,是一种需要PCB通电才能持续的电化学反应,和电镀的原理相同。反应条件是:     1. 有电场。存在电位差/电压降,一般来说电位差/电压降越大,电化学反应的速度越快。     2. 有可溶性电解质和溶剂,这个和化学腐蚀机理相同。     3. 有迁移通道。即电荷
    电子知识打边炉 2024-07-14 17:40 70浏览
  •     PCB上不同电气网络的连线之间,要有绝缘间隙(Clearance)和爬电距离(Creepage Distance)。画过PCB的朋友都知道,原理图上的电气连线(Wire)对应PCB Layout上的电气连线,PCB Layout上的电气连线对应铜导线。铜导线是在PCB覆铜层上,利用掩模(mask)和化学蚀刻(Etching)的方法,把PCB Layout上的铜导线部分留下,并去除非导线部分而做出来的。不同电气网络的连线中间要足够绝缘,足够干净,否则轻则漏电,重则短路。
    电子知识打边炉 2024-07-14 16:06 53浏览
  • 在+24V输入增加了软起电路和防反接电路,先看电路原理图,如下,防反接电路的原理一目了然,G极达到Vth值,U28和U5就会导通,电流从D极导通到S极,详细规格书见下面。VDS,RDS(on)和ID很重要,如下,之前选的这款为何还是有问题呢,可以从温度和电压电流的应力入手,考察U28的软起参数是否合理。首先,看一看之前测的温度参数,用K型线的热电偶点的,如下,充电的时候,U28温度达到了123℃,如下,放电的时候,U28温度达到了120℃,如下,从上面的数据看,这样的U28温度,我们是接收不了的
    liweicheng 2024-07-13 19:06 74浏览
  • ADB(Android Debug Bridge)是Google提供的命令行工具,用于帮助开发者与安卓设备进行通信。它在安卓应用开发和设备管理中非常重要,因为它可以帮助开发者安装、调试和卸载应用,访问设备文件系统,以及获取设备日志等。通过ADB,开发者能够在多种测试场景中模拟用户操作,优化应用性能和用户体验。 要使用ADB,首先需要确保电脑已安装ADB驱动,并且手机已开启USB调试模式。在Windows系统中,通常不需要手动下载ADB驱动,因为Windows 8/10/11已经自带了相应的驱动
    丙丁先生 2024-07-15 07:27 78浏览
  • UAVDT数据集是一个专为无人机图像检测而设计的数据集,其特点包括丰富的标注和多样化的场景,对无人机图像处理领域的研究具有重要的价值。 UAVDT(Unmanned Aerial Vehicle for Detection and Tracking)数据集是为了在无人机图像中进行目标检测和跟踪研究而创建的。这个数据集主要由从无人机捕获的高清视频序列组成,涵盖了各种环境和场景,如城市、乡村、森林和海边等。 在UAVDT数据集中,图像主要包括小型车辆、行人和自行车等类别的目标,这些目标在图像中被
    丙丁先生 2024-07-15 07:33 88浏览
  • 将Keil项目导入到VSCode并进行烧录主要涉及以下几个步骤:准备VSCode环境:确保已经安装了VSCode编辑器。安装必要的插件,例如用于C/C++支持的插件,以及支持ARM或特定微控制器的插件,比如PlatformIO或Cortex Debug插件。导入Keil项目到VSCode:打开VSCode,点击“文件”->“打开文件夹”,选择你的Keil项目的根目录。在项目根目录下创建一个.vscode文件夹,这个文件夹将用来存放VSCode相关的配置文件。保存当前工作区,确保VSCode能够识
    丙丁先生 2024-07-16 09:27 44浏览
  • 概述 SiPM测试系统的信号处理板使用了ADI的单片4通道的高速差分ADC信号,所以FPGA需要通过LVDS接口来收取差分高速ADC送出的差分串行数据。 本文讨论FPGA如何例化LVDS模块,以及几种用来收取外部ADC采样后送来的高速差分串行数据。10代器件LVDS实例化界面 在Intel的10代器件中有Arria、Cyclone、MAX以及Stratix几种,我们使用的是Cyclone系列10代GX产品。图1:LVDS模块例化界面 如图1所示为LVDS例化界面,具体使用方法可以参考1“LVDS
    coyoo 2024-07-14 12:25 145浏览
  •         MOS,是MOSFET的缩写。全称为金属-氧化物-半导体场效应晶体管(Metal-Oxide-Semiconductor Field-Effect Transistor, MOSFET)。MOS管最基本且常用的功能是通过对G级施加电压以控制S与D之间的开启与关闭,常用作电子开关。MOS管基本结构MOS主要有以下几个特点        1、栅压输入阻抗高,MOS管栅极有绝缘膜氧化物,但栅极容易被静电、高
    广电计量 2024-07-15 15:57 84浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦