AI MCU时代,大部分开发者可能都期望MCU做出差异化、应用导向,又要求MCU成本不能太高,这真的可能吗?

MIT(麻省理工学院)2018年曾发表过一篇题为《通用技术计算机的衰落:为何深度学习和摩尔定律的终结正致使计算碎片化》的paper。这篇paper预测了随摩尔定律的放缓、半导体尖端制造工艺的成本攀升,通用计算将难以满足时代发展需要。与此同时,专用计算很快将大行其道。

这篇文章现在看来是极具前瞻性的,比如说现在的数据中心领域,加速器已经开始蚕食通用处理器的市场,加速计算也在更多领域开花结果。

但这则paper还探讨了一件事:CPU这类通用处理器仰仗面向广阔市场、高出货量来摊薄成本,而专用处理器由于面向特定应用场景——其出货量将远低于通用处理器。即便专用处理器面向特定应用时有着更高的性能、更优的效率,成本依然是其面临的巨大障碍。

其中还给出了几个变量,以描述在什么样的情况下(包括专用处理器性能高出多少、出货量达到何种水平等)、哪些具备规模效应的行业选择专用处理器会更有价值——有兴趣的读者可以看一看电子工程专辑前两年对这篇paper的总结

另一方面,摩尔定律并未彻底终结,计算机科学的层级结构也决定了,这个结构的上层还有很大的优化余地。所以我们看到在MCU领域,国际头部企业都瞄准“定制化”——虽然MCU大方向仍然是通用的,但这些巨头面向特定应用市场的解决方案方面投入很大,比如汽车、工业、医疗等。这也算是符合这个时代“应用导向”及走向专用的芯片设计思路。

前不久的MCU生态发展大会上,圆桌环节几名发言人都提到MCU市场“卷”得厉害,产品同质化严重。芯易荟CEO汪达钧在接受采访时说:“国外那些大厂以最终用户的需求来调配资源:芯片的设计效率、运算效率都能够支撑客户的应用。”“中国MCU企业如果没有定制能力,而只是做通用芯片,都是通用核+加速器,势必就要打价格战。因为竞争对手也能做同样的事,没有差异化。”

当我们在探讨DSA领域专用芯片、微架构定制、应用导向这些问题时,可能有一种解决方案会成为新的未来。

 

中国MCU企业的困境:成本、同质化

统计机构的数据显示,中国MCU市场占到全球市场的25%,且2019-2026的CAGR年复合增长率7%是超过了全球市场均值的。这些看起来仿佛前景一片大好。

但实际上,中国MCU市场参与者在卷的主要是中低端MCU产品。当国际巨头开始做Cortex-M85的时候,国内基于Cortex-M7的MCU产品都还很少。加上中低端市场竞争差异化不足,价格战显得异常惨烈。

汪达钧在演讲提到第三方平台整理出的MCU“研发费用率”的数据:即MCU研发费用÷市场营收,如下图所示。本土MCU厂商的研发费用率相较国际头部企业,高出了大约10%。研发费用率越高也就意味着产品利润越低。

“本土MCU的技术积累不够、生态环境没有完全搭建起来,这是可以理解的。”汪达钧谈到,“但如果我们无法在高性能MCU市场有所作为,发展前景就不明朗。”“提升价值才能避免同质化,做出差异化才能脱离价格战,利润才能提高。”“有了利润,我们的MCU企业才能把更多的钱投入到具体的应用和生态上,去更好地支持客户。”

“国际MCU企业面对包括主流的AI应用部署时,将很多时间和成本投入在了帮助客户做应用的问题上,提供端到端的开发解决方案,甚至包括AI模型的定制与部署服务。”“国内的MCU企业要竞争,这方面的投入是必不可少的;是我们的客户必须去投入的。”

作为芯片设计上游EDA企业的芯易荟,在此能做的就是帮助客户缩减芯片设计周期、降低芯片设计成本,“让客户把更多的时间、金钱投入到应用优化和生态建设上。最终才能脱离价格战的困境,支撑应用、形成真正的竞争力。”

 

AI MCU提供的市场机会

MIT在研究和撰写文首提到的这篇paper时,虽然也明确了AI的发展,但当时他们应该没有预料到AI发展速度会这么快、覆盖范围这么广——这一趋势深刻影响了应用开发的模式,及需要满足特定应用场景的芯片设计。

即便早年AIoT的呼声就已经很高了,这两年微控制器领域依然涌现了两个新词:TinyML、AI MCU——过去几个月,不仅是企业市场在提,媒体也在追捧。

“从算力的角度来看,TinyML可能会达到几百GOPS的水平,因为AI MCU的本质仍然是MCU,需要考虑目前MCU主流应用场景里面的限制,如功耗和成本。”汪达钧在谈到TinyML和AI MCU时说,“我觉得和过去的AIoT相比,TinyML/AI MCU的定义会更加有限定性(restrictive)一些。”

“比如静态的人脸识别、简单的物品对象识别、语音识别,甚至是简单的手势识别现在都可以借助AI MCU来完成。”“AI everywhere是不可逆的大趋势。这些还只是大家谈得比较多的几个场景。一旦这样的技术变得更容易获取,开发者多样化的聪明才智就会在应用上全面爆发出来。”

“AI和大数据的浪潮,对我们来说是很好的机会。未来数据中心、终端、边缘端的逻辑芯片都需要注入推理能力。今后几年的逻辑芯片可能都需要重新设计,去追赶层出不穷的新算法。”在汪达钧看来,TinyML带来MCU市场容量的进一步扩大,对国内MCU市场上下游的参与者而言都是重要的市场机会。

“高性能MCU的制造工艺从40nm走向28nm/22nm,甚至未来走向14nm都有可能。受到地缘政治影响,国内foundry厂成熟工艺产能还会大幅增加,成本降低,这对我们而言也是机会。”

但最终问题仍然回到了如何打造“差异化”和专用芯片成本效益的问题上。我们在去年进博会上就已经见到瑞萨展示基于Arm Helium技术的AI MCU,不需要借助加速器就能进行人的识别;今年年中英飞凌MCU加入microNPU,能以较高帧率和低延迟识别手势操作、水果种类...国际大厂仍然具备高端MCU市场优势。

 

借助DSA专用架构,提升TinyML的效率

“我们的MCU客户现在都非常关注AI,很多都希望下一次Tape-out就能把AI用进去。”汪达钧在谈市场于AI MCU的热情时说,“只不过究竟需要64GOPS还是128GOPS算力或是更多,他们心里还没底——现阶段还在和他们的客户沟通,毕竟这得由应用场景决定。”

所以我们也看到芯易荟E32 DSP IP的E32N指令集选项提供可选的8GOPS-128GOPS TPU——即其中内置的Tensor加速器,用以满足TinyML场景的不同需求。关注电子工程专辑此前对芯易荟芯片设计工具报道的读者应该知道,E32 DSP是芯易荟提供的高性能内核处理器。

E32B基础产品,基于VLIW/SIMD架构,具备下图给出的四大特性:

其中最后一点相关ISA扩展是尤为值得一提的,关乎MCU芯片设计客户构建属于自己的差异化内核——也就是汪达钧反复提及的国内MCU企业应当去做的产品差异化。具体来说,E32 ISA除了基础、浮点和数学运算指令,也支持指令定制。

“基于算法、应用的具体需求,比如提高Load/Store单元应用效率,计算下个地址的递增(Load/Store with post increment)、为提升FFT性能增加bit reverse指令、面向TinyML的SIMD指令……最终将更高算力和效率放进处理器内核中。”

芯易荟本身也提供4种指令集选项,除了默认标准的E32B、支持标量单精度或双精度浮点的E32F和E32D,还有个关键就是汪达钧特别提到的E32N。“E32N能更好地支撑张量的INT8的SIMD加速指令。”“专为AI MCU或者说TinyML准备。”

“E32N是一个双核结构,里面除了E32F还有个TPU。”TPU作为Tensor加速器也就实现了更高的TinyML性能。如前所述,下游MCU设计客户还可以基于此增加自定义扩展指令,“开发真正属于他们自主创新、有差异化的内核处理器。”

为表明E32 DSP在效率上的优势,汪达钧在演讲中给出了包括GEMM通用矩阵乘在内的数字信号处理,和几项具体的TinyML负载下,MAC乘积累加运算时钟数在总时钟数中的占比(MAC Utility)——这个值越高,“运算单元一直有数据在crunch”,即表明处理器运算效率越高。

对比竞品,E32 DSP的运算效率有着显著优势。最终在FFT、FIR等信号处理及图像分类、异常检测等TinyML方面,E32 DSP都构成了相比同级别32位宽竞品在性能和效率上的绝对领先。

除了芯易荟本身在微架构设计、Compiler等层面的努力,汪达钧说DSA架构是运算效率和性能领先的关键。“芯易荟一直以来瞄准的是DSA处理器,‘数据处理’是我们的定位。”

“它扮演的不是通用CPU协处理器或加速器的角色,作为数据处理器(Data Processor),和CPU流水线是紧密耦合在一起的。”“客户进行定制以后,最终的定制处理器虽然失去了一定的通用性,但功耗、面积都降下来了,并且在特定领域数据处理的性能、效率均有显著提升。”

如此一来,文首提到的差异化问题真正得以解决。

 

所以如何降低AI MCU设计成本

处理器设计成本主要包括微架构、RTL和验证的成本,相较现在的设计方案或方法学,汪达钧在采访中坦言,“定制芯片面向特定应用场景,需要投入的NRE更高、周期更长。” 这就和芯易荟FARMStudio这款EDA工具能够分钟级自动生成处理器核心有关了。有关FARMStudio,我们曾多次撰文做过介绍,本文不做赘述。简单来说,这是个只需要用户输入基础核和超级指令(SIMD/VLIW自定义指令)、选择预置模板以后,就能一键生成DSA软硬件和工具链的EDA工具。

最终生成的硬件包括RTL、综合脚本、测试套件、FPGA开发测试环境、RTL验证环境等;软件则包含有编译器、ISS、性能仿真器、调试器、应用库等。

我们之前就形容这是个神奇的过程。尤其体现在三个输入组成部分的“超级指令”上:软硬件架构师对应用做出分析以后,针对算法热点、重复使用的C语言函数,设计好基于C的指令,用C函数描述指令集功能,输入到工具中即可。FARMStudio有个硬件编译器,能够将定制指令集直接部署到处理器的流水线里,并进行功能优化、资源共享等操作。

“这是非常具有弹性、易用的设计方法,C语言描述特定应用所需要的加速指令、工具自动产生处理器的微架构和RTL,而不需要自己去写Verilog。这才是真正意义上的定制处理器,这样的设计方法学对行业而言都是巨大的进步。”汪达钧补充道,“我们有个工具(Core Tools),这个工具是提供给客户的终端客户。毕竟最终的应用是系统厂商在设计,这款工具能帮助他们快速进行基于处理器的应用层软件开发和调试。”

再加上FARMStudio V2.0新增FTOS多层级开发验证平台,在同一个设计环境中完成不同层级的仿真和验证,“跨界融合、协同开发”,解决验证的问题。芯易荟此前给出的数据是,相比于传统设计流程,这种大幅缩短迭代周期、能快速迭代的FARMStudio设计流程可“总成本可达10倍以上缩减”。

最终,MCU的设计成本也就降低了,而且也实现了出色的定制化,具备应用导向的差异化。

“我们看到,客户对AI能力、对AI的要求已经非常明朗,这甚至可能是他们的基本要求。”汪达钧总结说,“在处理器里面放个AI网络行不行?在有明确CNN算子的前提下,核心算出来需要多少周期,性能怎样?这都已经是我们的客户在问的问题了。”

可见在AI MCU的时代背景下,AI技术来势汹汹,它为行业和芯易荟这样的市场参与者带来了丰沛的市场机会。就像我们今年走访的MCU企业今年普遍在谈AI MCU,以及面向终端应用开发时数据驱动的开发思路转变,这个过程是在短短半年间就持续挺进的。

“这与芯易荟数据处理器的理念完美契合;所以AI大潮,对我们而言是相当大的利好。”或许在时代走向专用计算、应用导向的大背景下,如FARMStudio这样可定制处理器的工具和E32 DSP这样可配置的定制处理器IP就是芯片设计企业最需要的。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
CC2560A采用芯来科技NS300 RISC-V内核,主频可达120MHz,传输速度提升至25Mbps,算力达到150+ DMIPS。不仅具备安全性,还能通过灵活扩展满足特定应用场景的需求。
FTTR技术能为家庭用户提供了超千兆、全屋覆盖无死角的极致网络体验,显著提升了家庭宽带体验。
在专用芯片市场上,目前VR芯片国产率几乎为零,而AR主控芯片则缺乏高度集成的产品。六角形半导体针对AR/VR市场的三大痛点——功耗、尺寸和实时性,推出了专为AR眼镜设计的HX77系列高性能主控SoC……
IM110GW是中科海芯推出的一款面向车身应用的MCU芯片,符合功能安全ISO 26262 ASIL B级标准。该芯片采用100/144LQFP封装,内置32位RISC-V内核,具有高效的处理能力和丰富的外设支持。
XL6500R系列产品是一款基于芯来RISC-V内核,主频48MHz,满足AEC-Q100可靠性标准和ISO 26262 ASIL B功能安全等级的汽车级通用微控制器MCU,搭配丰富外设及灵活的时钟控制机制,提供具有可扩展性的解决方案。
先楫HPM6E00系列是中国首款拥有德国倍福公司(Beckhoff)正式授权 EterhCAT从站控制器(ESC: EtherCAT Slave Controller)的高性能MCU产品,也是国内首款支持高性能运动控制和多协议工业以太网的产品。
随着AI应用的广泛普及和数据流量的迅猛增长,传统以太网技术在延迟、带宽、拥塞控制和高性能可扩展方面天然局限,导致其难以应对AI网络的复杂需求。
可折叠盖板玻璃必须符合以下所有标准:透明、可折叠、坚固、平整和轻薄,这些基本要素缺一不可。
此两项认证的通过标志着RG650V已完全满足北美等全球区域的相关规定和标准,与对应区域的各大运营商形成了安全、稳定的兼容状态……
PXI/PXIe 仿真模块提供多种电阻范围和分辨率,以满足大多数功能测试系统的需求……
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。“煮酒言欢”进入IC技术圈,这里有近10
连日来,东风纪委官方账号“廉洁东风”连续发布声明,回应熊树明律师对东风公司的举报。在最新一则声明中,“廉洁东风”表示,熊树明律师不仅把东风公司纪委参与熊发明案件的纪检监察干部告了个遍,还把东风公司一大
东盟泳池SPA博览会(APPS)作为亚洲最具影响力的行业盛会,于2024年9月3日-5日在泰国曼谷IMPACT 展览中心盛大开幕。本次展会汇聚了来自全球各地的顶尖泳池、庭院设计及SPA设备制造商, 共
电动汽车(EV)无线充电正日益接近现实。只需将车停在充电板上,车辆就会自动充电,而无需插电。点击文末“阅读原文”下载我们的演示文稿,了解Littelfuse如何帮助新型无线电动汽车充电站设计实现安全、
一、前言  将交变电压信号转换成直流信号,需要进行整流,或者说检波。为了提高检波的效率,有的应用使用了倍压检波。甚至有的时候使用了四倍压检波。当然了,这些电路的工作基础,都是基于二极管的单向导通特性。
▼关注微信公众号:硬件那点事儿▼Part 01前言众所周知,电容在电子电路中一直扮演着非常重要的角色。它们负责电子电路中信号的耦合,通过组建RC电路,可以搭建振荡电路,也可用于旁路和电源滤波器等。在铝
点击蓝字 关注我们还记得疫情时期的灵魂三问吗?你是谁?你从哪里来?你要到哪里去?疫情结束了,但市场似乎更安静了。转瞬到了2024年的秋天,传统旺季没有变旺。 我们要不要在此时也对自己灵魂三问?我的职业
PI公司诚邀您参加与非网主办的第三届物联网技术论坛线上直播,并聆听我们的技术专家为您带来专题演讲,介绍适用于智能家居和智能建筑的高效率电源解决方案。物联网技术论坛时间 : 9月18日(周三)  13:
点击左上角“锂电联盟会长”,即可关注!钾离子电池(PIBs)因其在地壳中的丰富资源而被视为商业锂离子电池的经济可行替代品,特别适合大规模储能应用。然而,PIBs中的K+含量层状过渡金属氧化物(KxTm
点击上方“C语言与CPP编程”,选择“关注/置顶/星标公众号”干货福利,第一时间送达!最近有小伙伴说没有收到当天的文章推送,这是因为微信改了推送机制,确实会一部分有小伙伴刷不到当天的文章,一些比较实用