DeepSeek降低了AI应用的成本,这是否意味着对AI芯片的需求就降低了?适配DeepSeek的AI芯片设计又应该是什么样的?来看看芯易荟的理解...

春节期间DeepSeek大火之后,NVIDIA股价随后迎来跳水,上游装备与材料供应商乃至能源板块都受到影响。《电子工程专辑》会在4月份的封面故事详细展开这段过往,及在我们看来市场短期反应的不合理。

从直觉来看,DeepSeek的确大幅提升了AI技术的效率,降低了AI模型训练与部署的成本——市场对此的第一反应是AI应用层面的效率突破,令底层算力供给不再那么重要,此前GPU、AI芯片将在全球范围内飙升的预言似乎就不再成立了。加上中美贸易摩擦的持续,这应该是以NVIDIA为代表的高科技板块股价一波走低的原因。

但待市场走向冷静,有关“杰文斯悖论(Jeven's Paradox)”的分析也变得稀松平常。杰文斯悖论是指技术进步提高了资源利用率,但资源消耗总量不降反升的反直觉现象。实际上这个逻辑也没那么复杂:好比当年蒸汽机效率提升,作为动力来源的煤炭总消耗量却在接下来的几十年里激增。

杰文斯悖论套用到DeepSeek及AI芯片之上应该是再合适不过的了。因为AI应用成本的降低本身就会带动AI应用的普及;新的应用场景也将出现;AI技术竞争加剧......这些都会让市场对作为AI技术底层驱动力的AI芯片需求持续增加。

“DeepSeek证明了AI模型开发所需的训练资源也不需要那么大。但这并不意味着AI未来的训练、推理资源需求量就减少了。”芯易荟创始人、董事长汪人瑞博士最近在接受采访时说,“DeepSeek也证明了,AI模型未来还是会变得越来越大——这条路也已经十分明确。那么AI对芯片算力的需求是持续增加,而不是减少的。”

芯易荟是国内的一家工具化IP企业,前不久才刚刚宣布最新推出的易璨EC系列IP适配了DeepSeek模型。“大模型走向普及,百万token的成本会降低,让大家都能用得起。整个过程本身也需要芯片行业发力:在提高计算效率的前提下,减少运算功耗、降低成本。”汪人瑞表示,“那么芯易荟的AI计算IP将可以满足众多场景下的差异化需求。”

“同时由于AI目前还处在百花齐放的阶段,大家都在做架构探索、寻求更好的方案;AI芯片的架构特点势必对于IP的灵活性提出很高的要求。”电子工程专辑此前对芯易荟FARMStudio及后续芯片设计工具的报道,曾经详述过芯易荟工具化IP产品的灵活性特色,这也决定了当下“是芯易荟发力的时代”。

借着DeepSeek大热与芯易荟易璨EC系列IP发布的契机,本文尝试谈谈AI芯片在灵活设计需求语境下的现在和将来。

 

AI走向更低成本的双向奔赴

我们在电子工程专辑4月刊的封面故事中,大致总结了近两年LLM大语言模型性能的提升及百万token价格的下降。实际上去年就有AI模型企业在公开场合提过,在模型参数量级不变的情况下,每8个月模型能力就提升1倍——实际情况可能比这个数字还要激进。

比如面壁智能就在去年发布MiniCPM 3.0时宣传该模型以4B参数规模在性能上超过GPT-3.5,是把ChatGPT带到了端侧;而其2B参数量的模型,实测性能已经好于2、3年前170B的GPT-3。要知道GPT-3当年也是用超算训练的,推理也需多GPU协作——必须在云端进行。

这个总结并没有夸大成分:某些研究机构甚至认为AI模型要达到相同能力所需的算力水平每年降低10倍。SemiAnalysis就在研究报告中提到,从GPT-3到Llama3,再到DeepSeek R1/V3,达成相似性能的百万token推理成本下降幅度已经合计超过了1000倍——这是近3年的发展成果。

有研读近些年AI技术前沿paper的读者对这个数字应该不会感到惊讶。我们此前就多番撰文提过AI技术尚处发展早期,AI模型及算法的探索还有巨大的进步空间。比如2022年对Instruct GPT的研究(Training language models to follow instructions with human feedback)结论就显示1.3B的模型仅是经过instruction tuning+强化学习之后,就在很多负载的输出结果上比175B的GPT基础模型更理想。

实际上2015年有paper率先提出由AI回答人类以自然语言提出的问题,并基于此解决所有实际问题之时,绝大部分人都还认为这一设想是天方夜谭;哪怕2020年GPT-3令世界惊叹,还是有不少专家认定LLM要达成通常意义上的AGI(通用人工智能)是不现实的;但在数年沉淀和技术探索之后,现在的LLM和多模态大模型已经让更多人见识到了AI技术高速发展的可怕,DeepSeek就是其中之一。

“我自己就一直在用DeepSeek——它向所有人证明AI不是少数人才能用的东西。”汪人瑞在采访中表示,“工程或科学技术进步的量变,经过积累就会引发质变。DeepSeek表面上看只是增加参数、加大算力和带宽的量变,实际应用效果却是质变。AI正越来越走向可用,这样的质变很重要。”

以上都是AI技术上层堆栈所做的努力。从底层芯片的角度来看,半导体前道制造工艺、后道封装技术,以及囊括材料,器件、单元与die结构等各方面的创新本身,都可以视作AI技术效率及性能强化的组成部分——这些也都是电子工程专辑关注的技术集合。当然还有芯片设计架构的优化:芯易荟在去年8月份的MCU生态发展大会上谈到其EC DSP IP在特定ML负载下,MAC乘加运算时钟数在总时钟数中的占比相比竞品有优势。

年底发布DSSStudio和AIStudio时,芯易荟又列举了其NPU IP在与客户的合作项目中,达成Llama2-7b模型FP16推理的45 tokens/s/TOPS;当时汪人瑞就说这在整个行业里都是领先水平。

而这次新发布的易璨EC LLM系列IP,则在原有核心IP的基础上扩展更多计算、存储与通信资源:比如芯易荟官方列举数据是在基于12nm@0.9GHz、堆砌3600个G-Slice的情况下,令其适用于DeepSeek R1推理的基础上,系统层面的推理能力(每秒token数)基本等价于16个H800(NVIDIA Hopper架构芯片),即用12纳米工艺获得比4纳米工艺更好的PPA,用架构上的优化,来达到与先进工艺接近的性能。基于此,大模型(LLM、DeepSeek)在端侧设备的部署和本地运算成为可能。

“同等工艺下,我们是有成本优势的。基于芯易荟的IP,大概需要2颗芯片就能做到原本H200 8个芯片才能做到的事。”除了现在已经比较常规的对Transformer类型网络有针对性的加速之外,采访中让我们印象比较深刻的、芯易荟的IP产品能够达成AI计算的相对高效,就在于汪人瑞提到了“借助AIStudio工具,在短时间内对大模型推理逻辑做架构的探索与迭代”。

“前一阵我还特意看了一下记录,在2、3个月的时间里,我们在架构上就做到了十几次的迭代——每次都在不断改进。”“这是芯易荟设计方法的根本,也是达到目前PPA相对理想的重要因素。”AI芯片架构迭代的灵活性可能就是AI技术栈底层正渴求的关键。

 

“分钟级生成”,“AI芯片一周一迭代”

在谈本次新发布的IP之前,还是有必要回顾一下芯易荟EDA设计解决方案的特性。2023年芯易荟最早发布FARMStudio设计工具时就提到了“分钟级”“一键生成”过程——输入基础核、超级指令、预置架构模板的情况下,一键生成软硬件。硬件部分包括RTL, 综合脚本, 测试套件, FPGA开发测试环境, RTL验证环境;软件部分则有编译器、调试器、仿真器、profiler等。

输入部分的“基础核”(RISC-V基础指令集)可由用户在图形化界面上勾选操作完成;“超级指令”则是软硬件架构师对目标应用做出分析以后,特别设计基于C的指令——只需要用C函数描述指令集功能,硬件编译器会自动将这些定制指令部署到处理器流水线中;“预置架构模板”则为芯易荟内置在工具中的模板和IP。

去年底推出的DSSStudio是在FARMStudio的基础上,将其设计的异构核心互联构成多核集群SoC/子系统;AIStudio则更进一步特别面向AI芯片目标设计客户加上AI工具包(如NPU的AI编译器/部署及量化、系统工具)。藉由AIStudio也就可以按照需要“打造量身定制的”AI芯片。

所以在FARMStudio的基础上,芯易荟说更大规模的AI芯片架构基于AIStudio就可以做到一周一迭代。基于“分钟级生成软硬件”,加上跑模型、性能分析等流程,再做设计调整,“我们的经验是一周就能在新架构上跑完,生成新的PPA结果实现迭代”。

本次发布的易璨EC LLM系列IP,在我们看来应当可以认为是AIStudio工具应用的范例。 “过去芯易荟就有各种各样的异构核”“需要由客户将其以特定方式连接起来”,而“这个IP就是多核异构架构;是将我们以往的IP以特种方式组合起来的子系统。”“各个异构核之间怎么连接,需要用多少存储资源、何种DMA...其实都最终影响到系统PPA。”汪人瑞解释道,“所以我们将优化过的“配方”在最小范围内做成标准、可堆叠模块提供给客户使用。用户可以根据他们产品的具体性能需求选择堆叠的数量,以达到最佳的PPA效果。”

很自然的,芯易荟面向客户所推IP基本由自家芯片设计工具生成。“AIStudio能够在短时间内,对大模型推理的逻辑做架构上的探索和迭代。“短时间内的十几次架构迭代,“达到更优的PPA”。也才有了芯易荟在PPT中列举数据,提及面向DeepSeek R1时,3600个G-Slice以16颗12nm芯片die达成16个H800的相似性能,实现芯片设计及制造的更优成本。

在我们看来,AI技术栈的底层芯片走向更优的架构、更出色的效率、更低的能耗与成本,就和上层中间件、框架、模型和应用也正以超快的速度实现性能与效率提升一样。DeepSeek与易璨EC系列IP,体现的正是AI技术栈发展的上下两面;或者说双方效率的提升、双向奔赴在某种程度上也是历史的必然。

 

针对LLM的NPU IP长这样

所以我们不妨从高抽象层级来简单看看易璨EC系列IP——这大概也能从大方向反映当代AI芯片的走向和思路。

如前所述,该IP产品中的每一个G-Slice代表一个基础算力单位——里面有芯易荟的VPU, GMV(专门针对向量与矩阵乘优化的处理器), DMA, 存储资源等组件——可以根据芯片设计需要选择用不同数量的G-Slice,加上做控制的C-Slice,构成AI加速子系统。“几个,几十个,几百个G-Slice级联起来”就实现了性能的弹性缩放,整体“形成PPA高效方案”。

交付的产品除了底层硬件的RTL, 综合脚本, 时序验证脚本, 物理约束设计及完整RTL测试用例,以及上层软件从G-Slice到控制各种库和抽象、面向host的部分以外,当然也有配套工具——特别针对LLM的将Python模型转为C模型的compiler, C模型移植compiler,功能仿真及周期精确指令集仿真器, profiler, debugger等;另外也配了验证硬件逻辑正确性及可用于软件开发的、带G-Slice的硬件仿真(依托于Synopsys的HAPS)。

值得一提的是,“在软件里面我们总结了一个名为NPU API的界面——基于这层界面,用户可以移植各种大模型。我们对API(下层实现)做优化,面向客户提供标准的交互方式用于大模型的移植。”汪人瑞特别提到,“从某种程度来看,其作用与CUDA相似,让用户在C层面描述基本运算单元。”“我们将其描述的运算单元分布到G-Slice中。”

从可配置性的角度来看,基于芯易荟 “工具化IP”这一概念,以及FARMStudio, AIStudio工具基础,除了G-Slice作为算力模块可灵活伸缩,“在此基础上客户如果有特殊定制需求当然也没问题”,PPT中列出了G-Slice本身所有配置均通过软件(C),支持动态重配置,体现的也是芯易荟自建立之初的理念。“不过我们做G-Slice的初衷还是让绝大部分客户拿来就能用。”所以客户更多还是“根据软件模型和产品需求,来确定需要多少个G-Slice”。

基于上述内容,下面这两张图就反映了易璨EC LLM系列IP的效率水平。其一是跑Llama2-7b模型时,横轴所示带宽变化(应该是给到每个G-Slice的带宽)与纵轴配套达成推理性能之间的关系——明确带宽影响了性能,但存在边际递减效应。

其二是更为详细的绝对性能及PPA数据——其中就有前文提到3600个G-Slice在做DeepSeek R1推理时达成相似于H800的性能吞吐(尤其对应于performance行)。

汪人瑞特别解释说这些数据主要是供芯片设计客户参考的,包括带宽与性能间的关系,以及一定数量的G-Slice配置与H800的对应关系。汪人瑞总结易璨EC相比市场上的其他AI加速器IP优势在于(1)特别面向大模型推理做了优化,尤其是“围绕”Transformer网络加速做PPA的针对性优化;(2)表现优异的PPA,“我们也是较早一批公开发布PPA数据的厂商”,大概也能表现芯易荟对于易璨EC系列IP的自信;(3)高度可配置,尤其是G-Slice的级联扩展。

从易璨EC系列IP的特性,我们大致看到两点:其一是这个时代芯片企业管得“越来越宽”,连上层应用也要“管”——这一点在AI为主旋律的时代背景下尤为显著。即便是对于芯易荟这样的工具化IP厂商而言,也需要格外在意面向算法或模型架构的针对性设计优化,及基于此达成更好的PPA。

其二,FARMStudio在发布之初我们还说它生成的只是软核,与后端物理设计制造工艺具有无关性;但随着芯易荟目标市场客户可能会堆更大的AI芯片规模,甚至有机会出现突破reticle limit基于chiplet或多芯片的方案,以及7nm/5nm先进制造工艺需求,这就要求芯易荟加强与后端设计服务企业乃至foundry厂之间的合作。

 

AI技术的发展,行业与芯易荟的成长

这两点在去年的采访中,汪人瑞多少也都有提过。这次汪人瑞总结说这体现的是行业与芯易荟的“成长过程”。“要服务好行业就需要把上下游打通,达成有效协同。”“我们自身当然需要更大的投入;更重要的是这样的上下游合作是有利于客户和行业的。”

对于后者,“大规模逻辑IP对客户的后端设计是个挑战”:“现在我们为客户提供的IP规模已经很大了”,“需要几亿乃至十亿门以上的规模来描述”;“所以我们要和后端设计服务团队与企业建立合作,将客户在这类大规模IP下可能会遇到的问题提前解决,缩短客户的投产时间”。

虽未提及具体合作,但汪人瑞也提到合作对象包括“传统的工具厂商、做设计服务的厂商和团队,有做先进制程的,也有做成熟制程的——是多方面的合作”。比如与后端设计服务团队间合作参考设计,“像是做12nm的G-Slice,基于参考设计的流程去走”;后续“我们也会做test chip,IP在对应工艺上做验证”,“这些对客户都有价值”。

对于前者,“与AI模型企业及模型移植解决方案公司有更紧密的合作——这样在模型开发及移植的时候,才会考虑到芯片层面的特性,做针对性优化”。“DeepSeek就很好地证明了这一点,它就针对NVIDIA芯片进行了有效优化,也就降低了成本、提升了效率”。

除了于特定模型算子、结构在IP层面的加速,具体到对特定模型的所谓“适配”还表现在诸如“我们内部有NPU架构分析评估工具和移植工具。这个工具能够对PPA做到比较精准的预测。”以及“适配的模型能够基于电路做验证,我们的平台也为这一步做了准备——具体的适配工作会基于客户需求,和客户一起去完成。”乃至软件层面,在做最终性能评估时,“软件移植、移植后的优化等都影响到最终的PPA数据”…

“在这样一个百花齐放的时代,大家都在探索更好、更优、成本更低,或者对某个垂直行业更高效的模型。”随着算法进步与架构探索的深入,“很多AI负载都在走向边缘”——“我们的G-Slice不只是放在云上,本身也(通过弹性缩放)在边缘和端侧提供低成本、低功耗的推理服务。”这也体现了过去一年“边缘AI”这一热词的趋势。

“每个行业的每一颗芯片未来可能都需要AI参与。这对芯片行业、对芯易荟而言都是利好的趋势。”“如何更好地服务千行百业,从入门级市场所需几毛钱、几块钱的芯片,到云端的大算力芯片,这是我们需要去解决的问题。”在汪人瑞看来,当下正是芯易荟这类EDA/IP企业发挥价值、获得价值的时代:迎接下一个ChatGPT与DeepSeek时刻,易璨EC系列IP只是个开始。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
杰理科技的上市之路充满波折。自 2017 年起,公司三度冲击沪深交易所主板、创业板均告失利(2017年、2018年、2021年),第四次递表北交所,凭借 "专精特新" 属性和技术创新特征,迅速获得受理并进入问询阶段……
根据英特尔官方最新回应,当前Panther Lake的良率水平甚至比同期Meteor Lake开发阶段的表现还要略胜一筹,Panther Lake 仍按计划于今年下半年发布……
全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。
全球前十大高产机构中,9家为中国机构(如中国科学院、清华大学等)。其中,中国科学院以 2018-2023 年期间发布的 14,387 篇文章位居榜首。
这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图,也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。
这一成果不仅将芯片上的时间调控速度提升了 100 倍,时钟频率突破100GHz,还为未来智能计算、6G 通信、空天遥感等一系列现实应用的性能提升提供了强大支持。
本文将深入探讨安森美EliteSiC Cascode JFET相较于同类碳化硅MOSFET的技术优势。
鉴于在电机驱动领域需要将硬件和软件搭配使用,要实现软件的设计,就需要有一套软件设计套件。
先进特殊应用集成电路 (ASIC) 领导厂商创意电子 (GUC) 今日宣布成功推出业界首款 Universal Chiplet Interconnect Express™ (UCIe™) 物理层芯片, 可达到每信道 32 Gbps 的数据速率,已实现 UCIe 规格定义中的最高速度。UCIe 32G IP 支 持 UCIe 2.0 规范,能提供每 1 毫米晶粒边缘 10 Tbps (5 Tbps/mm 全双工) 的惊人带宽密 度。创意电子基于台积电的先进 N3P 制程技术和 CoWoS® 封装技术来达成此⼀⾥程碑,旨 在锁定 AI、高效能运算 (HPC)、xPU 和网络等应用领域。
青禾晶元宣布正式推出全球首台C2W&W2W双模式混合键合设备SAB8210CWW。作为先进半导体键合集成技术与解决方案的提供商,青禾晶元此次发布标志着公司在技术创新领域的又一重要突破。 
                                                             跻身优秀企业前5%行列:安富利筑梦绿色家园绿动未来,共绘美好——安富利环保与教
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓3月12日消息,近日TrendForce集邦咨询发布的研报显示,2024年第四季度,前十大晶圆代工厂
富士康位于印度卡纳塔克邦的智能手机组装厂,将从当地政府获得697亿印度卢比(约57.8亿元人民币)的补贴。首席部长西达拉马亚(Siddaramaiah)在3月7日的邦预算演讲中宣布了这一消息。这是印度
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓3月12日消息,据华为内部通报,在招聘非雇员过程中,多名产品线负责人存在自身参与替考、安排别人代考、
随着验证团队所承担任务的复杂性和广度不断增加,方法论的改进和自动化正变得至关重要,这有助于弥补工具在速度提升方面的滞后。工具的问题在于,许多工具仍然在单处理器内核上运行。例如,功能仿真无法利用无限数量
3月10日晚间,北方华创公告称,公司拟通过16.87亿元收购芯源微9.49%股份,合计1906.49万股。公司将积极通过参与公开挂牌竞买等方式继续增持芯源微股份并取得对其控制权。此次交易,芯源微股东沈
 2025 Sandisk Corporation或其关联公司。保留一切权利 2025年3月12日,上海 – 全球闪存及先进存储技术的创新企业Sandisk闪迪公司(N
一凡 铁鹰发自 智车入库 | 公众号 AI4Auto2025,智能驾驶怎么卷、卷什么?那要结合现在的能力和体验来看。2024年,「全国都能开」成为新的第一梯队门票,但很快不再「领先一代」。两个「端到端
2025年汽车行业报告汇总(点击进入)3月11日,最新一周(3月3日至3月9日)新能源汽车销量数据出炉。上周中国新能源汽车销售总量约为20万辆,新能源渗透率为55.7%,创下年内新高。新势力方面,3月
温馨提醒凡经过EETOP创芯大讲堂培训过的同学,如需工作推荐,请联系微信 ssywtt《Matlab Simulink 设计与建模》EETOP 创芯大讲堂推荐《Matlab Simulink 设计与建