广告

FPGA怎样一边做更低功耗,一边做高性能AI推断?

时间:2020-12-14 作者:黄烨锋 阅读:
在便利店收银支付,收银员看到的与顾客看到的屏幕内容是不一样的,这就要求设备本身能够做到“双屏异显”。支持双屏异显方案的芯片,有的是价格太贵,有的是功能单一——只支持某种分辨率,而且性能存在不确定性,没有大规模量产的。但有一款芯片正好适用……
广告

展锐春藤是一颗支持双屏异显的芯片:比如说在便利店收银支付,收银员看到的与顾客看到的屏幕内容是不一样的,这就要求设备本身能够做到“双屏异显”。双屏异显实际上还有很多应用场景,它们的特点可能包括了双触摸、不同分辨率和尺寸的双屏组合等。

在上周莱迪思半导体举办的主题活动上,展锐发言人提到了这种双屏异显的支持方案。“我们考察过很多芯片,有的是价格太贵,有的是功能单一——只支持某种分辨率,而且性能存在不确定性,没有大规模量产的。”“莱迪思的“CrossLink芯片正好适用。”

“包括支持不同分辨率组合,双1080p/720p等,横屏竖屏任意组合。而且也支持双触控屏。另外是单软多硬,一套软件可以支持好几套屏。根据硬件上一些屏的特性或者一些ADC接口,可以自动认出是哪一组屏,软件自动加载驱动程序,也就实现了一款软件适应多种屏幕。这些方案都是我们和莱迪思反复讨论的。”“用莱迪思的CrossLink的FPGA方案,实现单、双MIPI转换。”“我觉得我们这个方案,在业界可以说是外扩MIPI成本最低、性价比最高的方案。”

除了展锐的这个例子之外,上汽发言人也在活动上与莱迪思的合作。“我们项目中有个支持12路视觉的SoC芯片。”“它支持的MIPI-CSI接口很有限。”“尽管单路MIPI接口带宽是足够的,但要支持12个摄像头,前面的MIPI桥接很困难。”对此,“我们用了CrossLink-NX产品,这个方案是把12路摄像头接进来,变成4路MIPI,经过CrossLink-NX之后,对接后面的高算力SoC。不需要外接一系列外设,封装也很小,在板子上加这样一个方案。”

前面这两个列举的,都是莱迪思CrossLink-NX FPGA芯片的典型应用。这次活动,包括会后针对莱迪思三位高层的采访,也让我们也有机会去深入理解莱迪思的FPGA应用于哪些领域,以及莱迪思作为低功耗FPGA市场的主要参与者,其真正的市场在哪里。

业务增长点在哪儿?

从莱迪思半导体FY2020前三个财季的财报来说,虽说因为整体大环境的关系,这家公司营收是有持续的同比下滑的,不过下滑幅度比较小——FY2020Q3季度的营收为1.03亿美元,比去年同期下滑0.4%,前面两个季度的同期水平大致相当。

不过以non-GAAP的净利润(Net Income)成绩来看,数字在这三个季度都呈上涨趋势,看起来似乎主要是因为毛利率的增长。FY2020Q3净利润2663.5万美元,同比增长16.1%(Non-GAAP),其产品毛利率(Gross Margin)已经涨至61.5%。而FY2019Q1,这个数字还是58.6%。这表明莱迪思有在疫情期间做出一些策略调整,且卓有成效。

 

另外,莱迪思中国销售副总裁王诚在活动中提到:“今年莱迪思股价在全球大幅上涨,很大原因是中国的业绩在每个季度都屡创新高。在今年这个特殊环境下,我们依然做到了业绩的增长。”

事实上,莱迪思的季报没有详细反映区域收益。从FY2019的年报来看,莱迪思营收的74%都来自亚洲地区,欧洲和北美各占12%与14%。这其中中国应该是占了相当大比重的。“莱迪思美国、中国的marketing,所有新产品定义第一时间是看莱迪思中国的要求,因为我们中国生意占莱迪思全球接近50%,成长很健康。即便今年疫情影响,我们也还在增长。”

莱迪思中国销售副总裁王诚

莱迪思半导体上海有限公司副总裁/总经理任崎也在接受采访时也提到:“FPGA领域,莱迪思是唯一一家在国内有研发集团的公司,这个团队真正在做芯片设计和开发,非常核心。我们未来发布比较高端的产品,是中国团队在做。”王诚补充说:“我们是唯一一个具有本土全功能研发团队的企业,全功能是指硬件软件,包括相关测试。”莱迪思亚太区总裁Jerry Xu则强调:“我们团队结构除了R&D之外,国内有三十人是做solution的,这种研发投入在欧洲或者美国都是没有的。”在中国市场的业务增长,想必很快应该就能在本月月末将发布的莱迪思年报上看到展现。

借此机会我们也来看看莱迪思的业务范围。莱迪思涉足的市场主要包括通讯与计算(Communications and Computing)、工业与汽车(Industrial and Automotive)、消费(Consumer)。

具体到产品上,莱迪思主要的产品是FPGA(包括通用FPGA的ECP家族,控制与安全FPGA的MachXO家族,超低功耗FPGA的iCE40家族,以及针对高速视频与传感器应用的CrossLink家族)、视频连接ASSP(较早的产品布局,现下似乎已经不再更新)、IP授权与服务。前文谈到的CrossLink就属于莱迪思FPGA产品的其中一支。

莱迪思亚太区总裁Jerry Xu

再细一点说莱迪思的市场机会,这个时代背景下主要包括了(1)数据中心市场成长,莱迪思的解决方案在企业与数据中心服务器应用的控制和连接功能点上;(2)5G部署致通讯基础设施需求增长,莱迪思的解决方案在关键系统中,可用于各种功能的控制和连接;(3)智能工厂、智能家居、汽车市场,莱迪思低功耗、小尺寸解决方案,对于电池供电系统、传感器应用,以及嵌入式视频等领域,都是比较理想的解决方案;(4)AI作为市场热点,莱迪思有边缘端的AI inference解决方案,具体到面部识别、图像识别、视频分析等;(5)通讯、计算、工业、汽车与消费市场,硬件安全需求在提升,这部分莱迪思也提供解决方案。

这几点应该是现如今莱迪思的主要增长点。本文我们尝试谈谈其中的第4点,即在AI相关的热点应用中,莱迪思的低功耗FPGA能做些什么。毕竟莱迪思的FPGA产品不像赛灵思、Intel或者英伟达的AI加速产品那样,可以做到超高算力,其定位更偏低功耗市场。

低功耗有什么用?是怎么做到的?

我们有在采访中特别问及莱迪思FPGA的低功耗,究竟是怎么做的。针对CrossLink-NX这款产品,还是要从莱迪思的Nexus平台说起。这个平台是莱迪思在2019年年末发布的。据说在这个平台诞生之初,是莱迪思与现有不少客户交流讨论需求后的产物。

在系统层级,Nexus是一整套解决方案,包含了设计软件、预制的软IP,以及评估板、开发套件、参考设计等。主要面向的是嵌入式视觉,以及传感器桥接、传感器聚合以及图像处理这样的解决方案。

Nexus平台(或者说CrossLink-NX)几个比较典型的应用

在FPGA芯片层面,Nexus平台针对低功耗边缘计算做了一些架构特性上的改进,以优化系统性能。比如说该平台有DSP模块,以及更高容量的片上存储——适用于较高能效的计算,典型如AI inference算法。

电路设计层面,包括可编程的能效优化,和针对瞬时启动应用的快速配置等。另外比较重要的一点是,Nexus平台的FPGA芯片采用28nm FD-SOI工艺。此前我们撰写过不少有关FD-SOI工艺的文章,这项工艺的重要特性就是更低的功耗。莱迪思官方的数据是,相比bulk工艺(体硅平面结构)降低一半的功耗,以及软错误率仅有bulk工艺的1%。

“这个工艺和传统CMOS工艺最大的区别,就是它的源极与漏极之间植入了超薄的一层氧化层,这层超薄氧化层大大降低了晶体管漏源之间的漏电流,同时对莱迪思的可靠性、软错误率起到了很大的帮助作用。”任崎表示。从公开信息来看,28nm FDS工艺应该主要是来自三星Foundry。不过除了三星Foundry以外,在更早工艺的合作上,莱迪思的合作伙伴还包括了联电(和旗下的USJC)、Epson以及台积电。

而除了工艺带来的功耗红利,电路设计、芯片架构方面也有相应的优化。在芯片架构上,“这里举一个例子。传统的FPGA,要做高密度运算,常常需要DSP、Fabric、EBR(embedded block RAM)进行操作,需要外挂DDR来满足存储器需求。但这些都会提高延时,对功耗也有影响。”任崎说,“针对高效计算的需求,尤其近年来客户对AI应用的需求,莱迪思对构架做了优化。”

“大家可以很容看到整个Data Path延迟降低,性能提高,功耗也有很多改善,这是莱迪思在构架方面的一个例子。”如上图所示,似乎一部分调整是将外挂的RAM,带到了片上(官网资料中提及CrossLink-NX系列产品中,LIFCL-40的Large Memory为1024Kb,EBR为1512Kb)。此外,任崎也列举了Nexus平台的应用场景,如人员检测,在工业安全、安防、汽车自动驾驶等领域,“动态地、高速地在图像上识别人物。”

莱迪思现场对比的竞品是Xilinx Spartan 7和Intel Cyclone 10。这两款产品实际上是Xilinx和Intel于2017年量产的同档竞品。只不过这两家的确后续并未在同代工艺上再做更新,而莱迪思专攻了这部分市场,显然是能够找准市场机会的。而且似乎在结合工艺、电路设计以及芯片架构的红利之后,莱迪思的是,Nexus平台相较这两者最高可降低75%的功耗。

低功耗的价值也不仅限于芯片本身,王诚提到:“低功耗可以简化散热片的设计、降低运营成本,更重要的是低功耗能带来更低的温升。功耗很低的时候,我们采用相同的封装技术,这时候温升非常小,就能给应用提供更好的环境温度容忍度。”“比如马达控制,汽车的发动机引擎环境温度可能达到105℃甚至更高,传统28nm、40nm就做不到这样的应用。FD-SOI以低功耗、低温升,做到对105℃环境温度的容忍。这在工业、汽车等温度敏感的领域,都会有更好的应用。”

如前所述,Nexus作为一个平台不仅是FPGA芯片本身,还包括了软件工具、软IP、参考设计和套件。而且“我们在Nexus平台上,做了很多基于应用的解决方案,包括人工智能、嵌入式视觉、安防等,都是希望帮助莱迪思的客户更方便地去用莱迪思的产品,并将产品推向不同的应用领域。”比如后文将要提到的sensAI解决方案。

莱迪思半导体上海有限公司副总裁/总经理任崎

“高性能”又是怎么做的?

莱迪思Nexus平台的首款产品就是CrossLink-NX FPGA了,文首提及的两个客户案例都是CrossLink-NX的具体应用。CrossLink-NX FPGA诞生的初衷,应该就是嵌入式视觉开发者有在设计中增加AI/ML技术的需求,期望能够跑人员计数或者是存在检测一类的应用。

这其中的主要挑战在于,更多的传感器、高分辨率和帧率的摄像头加入到了嵌入式视觉系统中;组件通常采用MIPI标准。

CrossLink-NX FPGA的特点在于,突出的能效、小尺寸、较高的可靠性,以及针对边缘嵌入式视觉解决方案所需的“高性能”。王诚在演讲中将其概括为低功耗、高性能、高可靠性——这应该也是莱迪思全系FPGA产品的着力点。本文的前一个段落就着重了“低功耗”特点。CrossLink-NX面向的应用领域包括了工业、汽车、计算、移动,以及安防监控等。

上面这张图是CrossLink-NX的简单配置和框图,其中的亮点主要在FPGA fabric,以及I/O支持上。这颗芯片包含至多近40000个逻辑单元(LIFL-40),每个单元170bits存储(据说是类似FPGA产品中最高的memory-to-logic比),以及用于数据处理的DSP模块。这些是实现边缘AI/ML计算的基础。

针对这部分,莱迪思提及,相比Intel、赛灵思的竞品,CrossLink-NX的MIPI D-PHY连接带宽,以及每个逻辑单元的存储容量都有优势;另外还对比了,应用CrossLink-NX方案,以及应用了MCU的零售安全摄像头,在人员计数方面,前者性能有10倍优势——不过MCU作为一种通用计算芯片,效率上的差异也在情理之中。

然后是I/O支持的部分。CrossLink-NX支持至多8个MIPI D-PHY lanes,速率2.5Gbps。可编程I/O有额外的最多到12 MIPI D-PHY lanes。而且其I/O配置少于3ms时间,整个设备可在15ms内配置完成,这对于一些任务关键型的嵌入式视觉应用(如工业、汽车)是比较重要的。这类设备通常需要即时地响应,确保安全性。展锐和上汽针对CrossLink-NX的应用应该主要就是其I/O支持的展现。

“我们最早的一些产品也有快速I/O响应的特性,即瞬间加载,瞬间I/O就会有工作信号出来。”王诚补充了对I/O性能的解释,“莱迪思可以成为电路板上第一个供电,马上部署起来的器件,完成对电路板上CPU、外围器件、电源(上电顺序与监控)或其他的控制。时间是在毫秒级,其他品牌需要几十、上百毫秒。莱迪思的I/O唤醒时间短,比其他品牌快50倍以上。”——针对这一点,活动现场也有专门的demo演示:

AI/ML性能,以及I/O性能,即是莱迪思宣称“高性能”的主要体现了。最后还有个“高可靠性”,这一点实则在前一段阐述低功耗的部分就有提及了,即适用于较广的温度范围(-40℃~125℃),和软错误率(FIT,故障时间,10亿器件运行小时)仅相当于竞品的1%。这与FD-SOI也是有很大关系的。“莱迪思在过去4年发了10亿枚芯片,仍然能够保证很好的质量控制。”王诚说。

这类FPGA定位在哪里?

前文谈的“高性能”,仍然是限定在低功耗领域的。在边缘AI加速竞争上,并不与GPU或其他高算力产品冲突。王诚在接受采访时提到:“FPGA方案的魅力在于,可以从成本、性能、方案上调整,可以和别人配,也可以自己做。如果应用只是要看多少人戴不戴口罩,那么算力不大,自己做FPGA成本更低;如果是把所有特征都提出来,这就不适合自己做芯片了,选择GPU可能更合适。”

与此同时,FPGA又能做差异化。Jerry Xu提到:“客户要做自己的差异化,比如马达控制,要控制电流、控制速度和位置。往往电流控制是比较标准化的东西,但客户又要做差异化。所以可能用传统的DSP或MCU,我们的FPGA就配合做co-processor,结合在一起,我做电流的加速控制,它做位置和速度,既得到应有的性能又保持差异化特点。这是FPGA的灵活性体现出来的。”

任崎则补充了当前将AI inference放到边缘的根本:“现在有个重要的指标,就是数据处理的成本。我们在这方面有很大的优势:低功耗。做不到低功耗就很难做边缘,成本相对低,整个系统的成本就降下来了。”

这三段话实则解释了数据处理从云,部分下放到边缘(或端)的重要原因;CrossLink-NX这类FPGA芯片在边缘AI inference过程里扮演何种角色;以及其竞争优势与定位在哪里。当然这里,我们主要谈的是CrossLink-NX参与边缘AI计算的特性。

我们此前提及过多次的一个话题就是,考虑算力、功耗、效率、灵活性、成本等问题,在芯片的选择上,哪一类芯片会是优选。这一点的确还是要根据不同应用场景来做判断的。比如ASIC固然有着更高的效率,但灵活性差——尤其在神经网络模型不断变迁的当下;而且就niche市场,或者企业单独做解决方案这一点来看,还是成本过高的。

所以FPGA存在其特定的市场空间:文首提到的市场增长点,都非常适用于FPGA这一类芯片——莱迪思则有属于这其中另一个市场定位的选手。

活动开场时,莱迪思CEO Jim Anderson就提到在产品布局中“基于应用的解决方案栈(solution stacks)”。其中的sensAI还获得过我们EDN评选的2018年Hot 100产品。sensAI就是一个完整的解决方案栈,属于建基于FPGA硬件之上更完整的系统级解决方案。

下午场的技术演讲部分也详细谈到了sensAI,这里作为一个理解莱迪思产品布局的示例和表现莱迪思全面能力的部分,我们简单地聊一聊。上面这两张图即是sensAI栈不同层面的内容和服务,包括FPGA即周边硬件本身、IP核、软件工具、参考设计、定制化设计服务等;以及可定制的参考设计,和不同组件在AI所处的位置。

硬件这里就不再列举了(除了FPGA芯片,典型如嵌入式视觉开发套件,以及各种用于原型设计的模块化硬件平台),软件工具-神经网络编译器支持Caffe、TensorFlow这些主流的ML框架,“这样的标准训练完成后,通过我们的编译器可以产生在莱迪思FPGA上运行的文件。”“这也在不停的更新过程中,我们很快会宣布下一个版本推出。”

另外还有各种IP,上面这张图是莱迪思做的CNN Plus加速器IP。事实上,除了CrossLink-NX之外的更多芯片上(如iCE40,ECP5等),都有CNN加速器方案提供,“也有持续不断的新方案推出,让性能做到更好”。

而在sensAI解决方案本身的更新上,“我们其实从2017年就开始做,2018年宣布第二版,一年会有两个版本。今年上半年官网上了3.0版,明年和后年还会不断更新。”

“Solution stack其实是融合我们的芯片,针对不同行业、不同应用,客户可以很快去学习应用莱迪思的产品,也可以很快把他们的产品推向目标市场。”任崎说,“上海近百人的研发团队一半都在做软件。”王诚补充道:“莱迪思除了在传统软件以外,也加上了更多的算法配套设计。软件投入也是我们重要的投入之一。”sensAI这类解决方案栈,应该就是莱迪思在市场部署中,最到位的能力体现了。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • DDR5对比DDR4,重新做电路设计时要注意什么? DDR5是为了满足从客户端系统到高性能服务器的广泛应用,在省电性能方面持续增加的需求所设计;特别是后者正面临密集的云端与企业数据中心应用越来越高的性能压力...
  • 2021年全球半导体行业10大技术趋势 2020年全球新冠疫情的蔓延和中美在半导体领域的冷战升级虽然对全球经济和半导体产业造成了负面影响,但半导体领域的技术进步却没有止步,有些技术甚至加快了市场商用化进程。ASPENCORE全球分析师团队精心挑选出2021年全球半导体行业将出现或凸显的10大技术趋势。对比2020年10大技术趋势,2021年有哪些变化呢?
  • 系统级芯片(SoC)的复杂设计选择:RISC-V处理器内核 在做系统级芯片(SoC)的设计规划时,需要考虑哪些主要因素?目前主流的SoC一般包括哪些功能模块或IP?有什么新的技术趋势值得关注?RISC-V与FPGA如何有机结合助力SoC设计?当前的SoC设计在性能、功耗和尺寸方面面临哪些挑战?有何解决方案?物联网和边缘计算等嵌入式系统对SoC设计提出了什么特别要求?
  • 系统级芯片(SoC)的复杂设计选择:FPGA 在做系统级芯片(SoC)的设计规划时,需要考虑哪些主要因素?目前主流的SoC一般包括哪些功能模块或IP?有什么新的技术趋势值得关注?RISC-V与FPGA如何有机结合助力SoC设计?当前的SoC设计在性能、功耗和尺寸方面面临哪些挑战?有何解决方案?物联网和边缘计算等嵌入式系统对SoC设计提出了什么特别要求?
  • 采用片上网络(NoC)的新型FPGA数据架构赋能5G网络和数据 从5G网络的边缘到数据中心内部的交换机,通信和网络系统对芯片的功能带来了极大的压力,以支持其所需的计算能力和数据传输速率。传统的可编程逻辑为这些系统提供了灵活性和速率的最佳组合,但是近年来却因以太网等协议的速度提高到100G和400G而面临新挑战。
  • 系统级芯片(SoC)的复杂设计选择:内核、IP、EDA和NoC SoC的功能、性能和应用越来越复杂,对芯片设计和晶圆制造也提出了更高的要求。 而SoC设计工程师所面对的选择很多,包括处理器内核、各种IP模块、EDA工具和开发环境,以及RF射频模块、片上网络(NoC)和FPGA等,如何做出符合自己应用和设计需要的最佳选择成了一大难题。为此,《电子工程专辑》采访了来自处理器内核、EDA和IP、NoC供应商,以及FPGA和SoC芯片设计公司的技术和设计专家,他们从各自的角度出发给出了深入而独到的建议。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了