AI+MCU时代，MCU企业想要定制、还不能高成本，该怎么做？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

AI MCU时代，大部分开发者可能都期望MCU做出差异化、应用导向，又要求MCU成本不能太高，这真的可能吗？

MIT（麻省理工学院）2018年曾发表过一篇题为《通用技术计算机的衰落：为何深度学习和摩尔定律的终结正致使计算碎片化》的paper。这篇paper预测了随摩尔定律的放缓、半导体尖端制造工艺的成本攀升，通用计算将难以满足时代发展需要。与此同时，专用计算很快将大行其道。

这篇文章现在看来是极具前瞻性的，比如说现在的数据中心领域，加速器已经开始蚕食通用处理器的市场，加速计算也在更多领域开花结果。

但这则paper还探讨了一件事：CPU这类通用处理器仰仗面向广阔市场、高出货量来摊薄成本，而专用处理器由于面向特定应用场景——其出货量将远低于通用处理器。即便专用处理器面向特定应用时有着更高的性能、更优的效率，成本依然是其面临的巨大障碍。

其中还给出了几个变量，以描述在什么样的情况下（包括专用处理器性能高出多少、出货量达到何种水平等）、哪些具备规模效应的行业选择专用处理器会更有价值——有兴趣的读者可以看一看电子工程专辑前两年对这篇paper的总结。

另一方面，摩尔定律并未彻底终结，计算机科学的层级结构也决定了，这个结构的上层还有很大的优化余地。所以我们看到在MCU领域，国际头部企业都瞄准“定制化”——虽然MCU大方向仍然是通用的，但这些巨头面向特定应用市场的解决方案方面投入很大，比如汽车、工业、医疗等。这也算是符合这个时代“应用导向”及走向专用的芯片设计思路。

前不久的MCU生态发展大会上，圆桌环节几名发言人都提到MCU市场“卷”得厉害，产品同质化严重。芯易荟CEO汪达钧在接受采访时说：“国外那些大厂以最终用户的需求来调配资源：芯片的设计效率、运算效率都能够支撑客户的应用。”“中国MCU企业如果没有定制能力，而只是做通用芯片，都是通用核+加速器，势必就要打价格战。因为竞争对手也能做同样的事，没有差异化。”

当我们在探讨DSA领域专用芯片、微架构定制、应用导向这些问题时，可能有一种解决方案会成为新的未来。

中国MCU企业的困境：成本、同质化

统计机构的数据显示，中国MCU市场占到全球市场的25%，且2019-2026的CAGR年复合增长率7%是超过了全球市场均值的。这些看起来仿佛前景一片大好。

但实际上，中国MCU市场参与者在卷的主要是中低端MCU产品。当国际巨头开始做Cortex-M85的时候，国内基于Cortex-M7的MCU产品都还很少。加上中低端市场竞争差异化不足，价格战显得异常惨烈。

汪达钧在演讲提到第三方平台整理出的MCU“研发费用率”的数据：即MCU研发费用÷市场营收，如下图所示。本土MCU厂商的研发费用率相较国际头部企业，高出了大约10%。研发费用率越高也就意味着产品利润越低。

“本土MCU的技术积累不够、生态环境没有完全搭建起来，这是可以理解的。”汪达钧谈到，“但如果我们无法在高性能MCU市场有所作为，发展前景就不明朗。”“提升价值才能避免同质化，做出差异化才能脱离价格战，利润才能提高。”“有了利润，我们的MCU企业才能把更多的钱投入到具体的应用和生态上，去更好地支持客户。”

“国际MCU企业面对包括主流的AI应用部署时，将很多时间和成本投入在了帮助客户做应用的问题上，提供端到端的开发解决方案，甚至包括AI模型的定制与部署服务。”“国内的MCU企业要竞争，这方面的投入是必不可少的；是我们的客户必须去投入的。”

作为芯片设计上游EDA企业的芯易荟，在此能做的就是帮助客户缩减芯片设计周期、降低芯片设计成本，“让客户把更多的时间、金钱投入到应用优化和生态建设上。最终才能脱离价格战的困境，支撑应用、形成真正的竞争力。”

AI MCU提供的市场机会

MIT在研究和撰写文首提到的这篇paper时，虽然也明确了AI的发展，但当时他们应该没有预料到AI发展速度会这么快、覆盖范围这么广——这一趋势深刻影响了应用开发的模式，及需要满足特定应用场景的芯片设计。

即便早年AIoT的呼声就已经很高了，这两年微控制器领域依然涌现了两个新词：TinyML、AI MCU——过去几个月，不仅是企业市场在提，媒体也在追捧。

“从算力的角度来看，TinyML可能会达到几百GOPS的水平，因为AI MCU的本质仍然是MCU，需要考虑目前MCU主流应用场景里面的限制，如功耗和成本。”汪达钧在谈到TinyML和AI MCU时说，“我觉得和过去的AIoT相比，TinyML/AI MCU的定义会更加有限定性（restrictive）一些。”

“比如静态的人脸识别、简单的物品对象识别、语音识别，甚至是简单的手势识别现在都可以借助AI MCU来完成。”“AI everywhere是不可逆的大趋势。这些还只是大家谈得比较多的几个场景。一旦这样的技术变得更容易获取，开发者多样化的聪明才智就会在应用上全面爆发出来。”

“AI和大数据的浪潮，对我们来说是很好的机会。未来数据中心、终端、边缘端的逻辑芯片都需要注入推理能力。今后几年的逻辑芯片可能都需要重新设计，去追赶层出不穷的新算法。”在汪达钧看来，TinyML带来MCU市场容量的进一步扩大，对国内MCU市场上下游的参与者而言都是重要的市场机会。

“高性能MCU的制造工艺从40nm走向28nm/22nm，甚至未来走向14nm都有可能。受到地缘政治影响，国内foundry厂成熟工艺产能还会大幅增加，成本降低，这对我们而言也是机会。”

但最终问题仍然回到了如何打造“差异化”和专用芯片成本效益的问题上。我们在去年进博会上就已经见到瑞萨展示基于Arm Helium技术的AI MCU，不需要借助加速器就能进行人的识别；今年年中英飞凌为 MCU加入microNPU，能以较高帧率和低延迟识别手势操作、水果种类...国际大厂仍然具备高端MCU市场优势。

借助DSA专用架构，提升TinyML的效率

“我们的MCU客户现在都非常关注AI，很多都希望下一次Tape-out就能把AI用进去。”汪达钧在谈市场于AI MCU的热情时说，“只不过究竟需要64GOPS还是128GOPS算力或是更多，他们心里还没底——现阶段还在和他们的客户沟通，毕竟这得由应用场景决定。”

所以我们也看到芯易荟E32 DSP IP的E32N指令集选项提供可选的8GOPS-128GOPS TPU——即其中内置的Tensor加速器，用以满足TinyML场景的不同需求。关注电子工程专辑此前对芯易荟芯片设计工具报道的读者应该知道，E32 DSP是芯易荟提供的高性能内核处理器。

E32B基础产品，基于VLIW/SIMD架构，具备下图给出的四大特性：

其中最后一点相关ISA扩展是尤为值得一提的，关乎MCU芯片设计客户构建属于自己的差异化内核——也就是汪达钧反复提及的国内MCU企业应当去做的产品差异化。具体来说，E32 ISA除了基础、浮点和数学运算指令，也支持指令定制。

“基于算法、应用的具体需求，比如提高Load/Store单元应用效率，计算下个地址的递增（Load/Store with post increment）、为提升FFT性能增加bit reverse指令、面向TinyML的SIMD指令……最终将更高算力和效率放进处理器内核中。”

芯易荟本身也提供4种指令集选项，除了默认标准的E32B、支持标量单精度或双精度浮点的E32F和E32D，还有个关键就是汪达钧特别提到的E32N。“E32N能更好地支撑张量的INT8的SIMD加速指令。”“专为AI MCU或者说TinyML准备。”

“E32N是一个双核结构，里面除了E32F还有个TPU。”TPU作为Tensor加速器也就实现了更高的TinyML性能。如前所述，下游MCU设计客户还可以基于此增加自定义扩展指令，“开发真正属于他们自主创新、有差异化的内核处理器。”

为表明E32 DSP在效率上的优势，汪达钧在演讲中给出了包括GEMM通用矩阵乘在内的数字信号处理，和几项具体的TinyML负载下，MAC乘积累加运算时钟数在总时钟数中的占比（MAC Utility）——这个值越高，“运算单元一直有数据在crunch”，即表明处理器运算效率越高。

对比竞品，E32 DSP的运算效率有着显著优势。最终在FFT、FIR等信号处理及图像分类、异常检测等TinyML方面，E32 DSP都构成了相比同级别32位宽竞品在性能和效率上的绝对领先。

除了芯易荟本身在微架构设计、Compiler等层面的努力，汪达钧说DSA架构是运算效率和性能领先的关键。“芯易荟一直以来瞄准的是DSA处理器，‘数据处理’是我们的定位。”

“它扮演的不是通用CPU协处理器或加速器的角色，作为数据处理器（Data Processor），和CPU流水线是紧密耦合在一起的。”“客户进行定制以后，最终的定制处理器虽然失去了一定的通用性，但功耗、面积都降下来了，并且在特定领域数据处理的性能、效率均有显著提升。”

如此一来，文首提到的差异化问题真正得以解决。

所以如何降低AI MCU的设计成本？

处理器设计成本主要包括微架构、RTL和验证的成本，相较现在的设计方案或方法学，汪达钧在采访中坦言，“定制芯片面向特定应用场景，需要投入的NRE更高、周期更长。” 这就和芯易荟FARMStudio这款EDA工具能够分钟级自动生成处理器核心有关了。有关FARMStudio，我们曾多次撰文做过介绍，本文不做赘述。简单来说，这是个只需要用户输入基础核和超级指令（SIMD/VLIW自定义指令）、选择预置模板以后，就能一键生成DSA软硬件和工具链的EDA工具。

最终生成的硬件包括RTL、综合脚本、测试套件、FPGA开发测试环境、RTL验证环境等；软件则包含有编译器、ISS、性能仿真器、调试器、应用库等。

我们之前就形容这是个神奇的过程。尤其体现在三个输入组成部分的“超级指令”上：软硬件架构师对应用做出分析以后，针对算法热点、重复使用的C语言函数，设计好基于C的指令，用C函数描述指令集功能，输入到工具中即可。FARMStudio有个硬件编译器，能够将定制指令集直接部署到处理器的流水线里，并进行功能优化、资源共享等操作。

“这是非常具有弹性、易用的设计方法，C语言描述特定应用所需要的加速指令、工具自动产生处理器的微架构和RTL，而不需要自己去写Verilog。这才是真正意义上的定制处理器，这样的设计方法学对行业而言都是巨大的进步。”汪达钧补充道，“我们有个工具（Core Tools），这个工具是提供给客户的终端客户。毕竟最终的应用是系统厂商在设计，这款工具能帮助他们快速进行基于处理器的应用层软件开发和调试。”

再加上FARMStudio V2.0新增FTOS多层级开发验证平台，在同一个设计环境中完成不同层级的仿真和验证，“跨界融合、协同开发”，解决验证的问题。芯易荟此前给出的数据是，相比于传统设计流程，这种大幅缩短迭代周期、能快速迭代的FARMStudio设计流程可“总成本可达10倍以上缩减”。

最终，MCU的设计成本也就降低了，而且也实现了出色的定制化，具备应用导向的差异化。

“我们看到，客户对AI能力、对AI的要求已经非常明朗，这甚至可能是他们的基本要求。”汪达钧总结说，“在处理器里面放个AI网络行不行？在有明确CNN算子的前提下，核心算出来需要多少周期，性能怎样？这都已经是我们的客户在问的问题了。”

可见在AI MCU的时代背景下，AI技术来势汹汹，它为行业和芯易荟这样的市场参与者带来了丰沛的市场机会。就像我们今年走访的MCU企业今年普遍在谈AI MCU，以及面向终端应用开发时数据驱动的开发思路转变，这个过程是在短短半年间就持续挺进的。

“这与芯易荟数据处理器的理念完美契合；所以AI大潮，对我们而言是相当大的利好。”或许在时代走向专用计算、应用导向的大背景下，如FARMStudio这样可定制处理器的工具和E32 DSP这样可配置的定制处理器IP就是芯片设计企业最需要的。

责编：Illumi

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

AI+MCU时代，MCU企业想要定制、还不能高成本，该怎么做？

中国MCU企业的困境：成本、同质化

AI MCU提供的市场机会

借助DSA专用架构，提升TinyML的效率

所以如何降低AI MCU的设计成本？

杂志声明