在之前的文章中,针对在边缘运行机器学习算法的应用场景,我们确定了FPGA在可重配置性、功耗、尺寸、速度和成本方面超越其它 AI 芯片组的许多方式。此外,还了解了与微架构无关的 RISC-V 指令集(ISA)如何与FPGA 的架构灵活性无缝结合。然而,明显缺乏中端、成本效益的 FPGA 及其不够直接的设计流程是个主要瓶颈——完全定制的硬件描述语言(HDL)实现所需的软件技能很稀缺,且通常伴随陡峭的学习曲线。

易灵思基于创新量子计算结构的FPGA填补了这一空白,该结构由称为可交换逻辑和路由(XLR)单元的可重新配置块(可用作逻辑或路由)组成;它重新思考了传统设计中,逻辑元素(LE)和路由资源的固定比例。这允许在小巧的器件封装中使用高密度结构,其中FPGA的任何部分都得到充分利用。该平台的潜力足以解决当前边缘设备面临的典型障碍:功耗、延迟、成本、尺寸及易开发性。

易灵思 FPGA最引人注目的特点可能是围绕它构建的生态系统和最先进的工具流,它们降低了开发难度,使设计师能够使用相同的芯片轻松的在边缘实现人工智能——从原型到量产。易灵思 采用了 RISC-V,从而允许用户在软件中创建应用程序和算法——利用此 ISA 的易编程性,而不受ARM等专用IP核的限制。由于这一切都是通过灵活的FPGA 架构完成的,因此用户可以在硬件上大幅加速。易灵思 提供对底层和更复杂的自定义指令加速的支持。其中一些技术包括 TinyML 加速器和预定义的硬件加速器模块(hardware accelerator socket)。通过这些方法实现硬件加速的同时,又保留了软件定义的模型;且无需掌握VHDL即可对模型进行迭代和优化。这使得边缘设备具有极高速度,且同时在小巧封装内实现了低功耗。本文详细讨论了易灵思平台如何简化整个设计和开发周期,使用户能够利用灵活的FPGA结构来实现可扩展的嵌入式处理解决方案。

边缘障碍——“拦路虎”演绎

从大规模无线传感器网络到流媒体传输高分辨率360o沉浸式 AR 或 VR 体验,世界上大部分数据都位于边缘。将计算负担从云端分离出来并使其更靠近终端设备的举措,为自动驾驶、沉浸式数字体验、自主工业设施、远程手术等领域为代表的下一代高带宽、超低延迟应用打开了大门。一旦化解了与云之间互传数据的巨大桎梏,应用场景将无远弗届。

然而,边缘处这些低延迟、高功耗计算的决定性要素,恰恰构成这些小巧但多能的功率受限设备的重大设计挑战。那么,如何才能设计出一款既能够处理耗电的相关ML算法、又无需投资复杂技术的设备呢?解决方案一直是:实现任何被认为足以运行合适应用程序和算法的硬件(例如 CPU、GPU、ASIC、FPGA、ASSP),同时加速执行计算密集型任务以平衡计算时间(延迟)和所用资源(功耗)。

与任何创新一样,深度学习的前景随着模型的更新和优化技术的不断变化,需要使用更敏捷的硬件平台,这些平台的变化要几乎能与在其运行的程序一样快,且恰当的规避风险。FPGA的并行处理和灵活性/可重新配置性似乎可以完美地满足这种需求。但要使这些器件可用于主流、大批量应用,需要降低配置和加速 FPGA 结构的设计障碍——这是个耗时的过程,通常需要较高的专业度。此外,传统的加速器通常不够精细,且包含通常无法很好扩展的模型的大部分。它们一般功耗还太高,且多半采用专有技术——导致工程师需要重新学习如何使用不同器件厂家特异的平台。

Sapphire RISC-V 

C/C++  RISC-V 核上创建应用

易灵思借助以直观方式向AI/ML社区提供FPGA的解决方案,从而直面所有这些潜在障碍。RISC-V Sapphire 内核可完全由用户通过 Efinity GUI 配置;这样,用户不必了解在FPGA 中实现 RISC-V 的背后所有 VHDL,并且可以利用通用软件语言(例如 C/C++)的直接可编程性。这使设计团队能迅捷地在软件中快速生成应用程序和算法。所有必需的外设和总线都可以与 Sapphire 内核一起指定、配置和实例化,以提供完全配置的SoC(图1)。这种 RISC-V 能力包括多核(最多四核)支持和 Linux 功能,可为设计人员的FPGA应用提供高性能处理器集群,并能够直接在 Linux 操作系统上运行应用。下一步——硬件加速——通过硬件-软件分区大大简化;一旦设计师在软件中完善了算法,他们就可以逐步在灵活的 易灵思 FPGA 结构中加速这一过程。但在我们继续下一步硬件加速之前,了解 RISC-V 架构的固有优势以及如何在 FPGA 结构中利用它是很重要的。

图 1:Efinity GUI 使设计师能够使用熟悉的编程语言配置其 Sapphire RISC-V核(左)以及所需的外设和总线,以实现完全配置的SoC。此功能扩展到最多四个RISC-V核(右)。

图 1图 2

具有定制指令能力的RISC-V

RISC-V 架构的独特之处在于它没有定义所有的指令;实际上,它将有些指令留待设计师定义和实现。 换句话说,可以创建一个自定义算术逻辑单元(ALU),它会在自定义指令调用时执行任意功能(图 2)。这些自定义指令具有与其余指令相同的架构(例如,两个寄存器输入,一个寄存器输出),保证总共可使用八个字节的数据,且其中四个字节可以传回RISC-V 。

然而,由于 ALU 构建在 FPGA 中,它既可以访问 FPGA数据、也可以从FPGA内提取数据。这允许用户扩展超过 8 个字节的数据,并使 ALU复杂性提高——访问之前放在 FPGA 内的数据(例如来自传感器)。就硬件加速而言,拥有任意复杂程度ALU 的能力是速度倍增的关键因素。易灵思 已经具备了定制指令的能力,并通过TinyML平台将其适配于AI和ML社区。

图 2:可以使用RISC-V创建自定义ALU,其中标准配置包括两个四字节宽的源寄存器(rs1 和 rs2)和一个四字节宽的目标寄存器 (rd)。

**2抓取自TinyML 网络研讨会,可向易灵思 索取原始图像

TinyML 平台——自定义指令库

使用TinyML平台进行硬件加速

TinyML 平台简化了硬件加速过程,其中易灵思 采用了 TensorFlow Lite 模型中使用的计算原语,并创建了自定义指令以优化其在FPGA结构中加速器上的执行(图3)。通过该方式,TensorFlow 的标准软件定义模型被吸收进RISC-V中,并被加速到硬件速度水平;充分利用了丰富的开源 TensorFlow Lite 社区资源。使用流行的Ashling工具流简化了整个开发流程,使设置、应用创建和调试成为一个简单直观的过程。

图 3:TensorFlow Lite创建标准 TensorFlow 模型的量化版本,并使用函数库让这些模型能在边缘的MCU上运行。易灵思 TinyML采用这些TensorFlow Lite模型,并使用 RISC-V 核的自定义指令功能,在 FPGA 硬件中加速这些模型。

许多TinyML平台的自定义指令库都在易灵思 GitHub 上的开源社区开放,可以免费访问易灵思 Sapphire 核以及设计和开发高度加速的边缘AI应用所需的一切。

加速策略:概述

RISC-V核、易灵思 FPGA 结构和丰富的开源TensorFlow社区的结合赋能创造性的加速策略实现,可将其分解为以下几个步骤(图 4):

第 1 步:使用Efinity RISC-V IDE运行 TensorFlow Lite模型,

第2步:使用TinyML加速器,

第3步:用户定义的指令加速器,

第4步:硬件加速器模板。

如前所述,“第1步”是贯穿Efinity GUI 的标准流程,用户可在其中获取Tensorflow Lite 模型并在 RISC-V 上使用与标准 MCU 完全相同、熟悉的流程在软件中运行它——不必担心VHDL。在第1 步之后,设计师大概率会发现其正在运行的算法的性能并非最优,因此需要加速。“第2步”涉及硬件-软件分区,用户可以在其中实现TensorFlow Lite 模型中的基本构建块,然后直接单击并拖动以实例化自定义指令,使模型在 Sapphire RISC-V 核上的运行(方式)得到巨大加速。

图 4:易灵思 加速策略。

用户自定义指令加速器

“第 3 步”支持设计师可在不使用TinyML平台中模板的情况下创建自己的自定义指令,从而允许用户在 RISC-V 核上实施创新、创建加速。

硬件加速器模板

最后,在 RISC-V 上加速所需的基本要素后,“第 4 步”将它们植入带有加速“Socket”的免费 易灵思 SoC 框架中。该量子加速器”Socket”允许用户“指向”数据、检索数据并编辑其内容;例如,对更大数据块执行卷积操作。

Sapphire SoC 可用于执行整体系统控制及执行固有顺序型或需要灵活性的算法。如前所述,硬件-软件协同设计允许用户选择是在 RISC-V 处理器中还是在硬件中执行此计算。在这种加速方法中,预定义的硬件加速器”Socket”连接到直接内存访问 (DMA)控制器和用于数据传输和 CPU 控制的 SoC 从接口,可用于人工智能推理之前或之后的预处理/后处理。DMA控制器实现了外部存储器与设计中其它构建块之间的通信(图 5):

  • 将数据帧存储到外部存储器,
  • 向/从硬件加速块发送和接收数据,
  • 向后处理引擎发送数据。

在图像信号处理应用中,这看起来像是让 RISC-V 处理器与嵌入式软件一样执行 RGB 到灰度的转换,而硬件加速器在FPGA的流水线、流式处理架构中执行Sobel边缘检测、二进制腐蚀(binary erosion)和二进制膨胀(binary dilation)(参见“Edge Vision SoC 用户指南”)。这可扩展到多相机视觉系统,使用户能以极快的速度将其设计转化为产品并进行部署。

图 5:边缘视觉 SoC 框架示例图。

MediaPipe Face Mesh用例

我们通过下面的案例来凸显该过程的简单性。MediaPipe Face Mesh(人脸网格)ML 模型实时估算数百个不同的三维面部特征。易灵思 采用此模型并将其部署在以300MHz运行的 钛金系列 Ti60 开发套件上。如图 6 所示,RISC-V核上运行的卷积对延迟的影响最大。要注意的是,FPGA 接近 60% 的资源占用率并不能实际反映 ML 模型的大小。实际情况是因为整个相机子系统都在 FPGA 中实例化,以便实时执行加速基准测试。

图 6:在 Ti60 开发套件上运行的 MediaPipe Face Mesh 预训练网络显示了延迟和所用资源。

**6源自 TinyML 网络研讨会

使用 TinyML 平台的简单自定义指令(第 2 步)

创建并运行一个简单、自定义的——两个寄存器输入、一个寄存器输出——卷积指令,显示延迟时间缩短了四到五倍。随着用于加速 ADD、MAXIMUM 和 MUL 函数的自定义指令的应用,可进一步缩短延时。但由于 RISC-V 花费更少的时间执行这些操作,延迟改进会达到一个稳定水平(图 7)。

图 7:借助为 CONV、ADD、MAXIMUM 和 MUL 函数创建的简单自定义指令可显着缩短延迟。

**7源自TinyML网络研讨会

使用DMA的复杂指令(第 4 步)

生成一个任意复杂的 ALU 来替换原始CONV。此举改变了原始曲线的斜率并再次显著的缩短了延迟。然而,由于复杂指令占用了FPGA 内部的更多资源,因此FPGA 的占用率也有所上升再次强调:资源接近 100% 占用率的原因仅仅是因为该FPGA 包含了用于演示目的的整个相机子系统;需要注意的是延迟的相对缩短和资源占用率的上升(图 8)。

值得指出的是,若切换到更大逻辑规模的FPGA(例如 Ti180),在不到50% 可用FPGA资源的情况下,就可运行所有这些复杂的指令以实现大规模加速。这些明显的权衡恰恰使工程师能够轻松地可视化FPGA的延迟、功耗和成本/体积之间的取舍。具有严苛的延迟要求但更宽松功耗指标的边缘应用可选择更多的加速设计以显着提高性能。而在功耗严苛的应用中,降频降耗的诉求会抵消提升性能的努力,其间的权衡取舍应可实现以显着降低的功耗获得更适度、划算的性能提升。

图 8:采用更大的自定义卷积指令以实现更快加速;但消耗的资源也水涨船高。注意:FPGA几乎被完全占用仅仅是因为该FPGA包含了整个相机子系统,如果 Ti60 只运行 ML 模型,其资源占用将大大降低。

**8源自 TinyML 网络研讨会

AI/ML 开发的范式转变

简言之,易灵思 结合了熟悉的 RISC-V ISA 开发环境,并利用其自定义指令功能在架构灵活的 FPGA 结构中发挥作用。与许多硬件加速器不同,这种方法不需要任何第三方工具或编译器。借助机器指令加速实现的加速也是细粒度的——这是只有FPGA才可能实现的粒度级别。

边缘设备可在 易灵思 FPGA 的创新设计架构上进行原型设计和部署这一事实意味着该解决方案是面向未来的。可以在熟悉的软件环境中表达新模型和升级的网络架构,并在自定义指令级别实施加速,而只需少量 VHDL工作(带用于引导的可用模板库)。这种程度的硬件-软件分区(其中90% 的模型保留在RISC-V上运行的软件中)支持极快的上市时间。所有这些方法的组合产生了一个优雅的解决方案,真正降低了实现边缘设备的进入门槛。设计师现在有世界一流的嵌入式处理功能可用,可通过最先进的工具流访问该功能,并在革命性的易灵思 Quantum 结构上进行实例化。

本文由易灵思供稿,电子工程专辑对文中陈述、观点保持中立

责编:Amy.wu
阅读全文,请先
您可能感兴趣
2月,高通正式宣布推出带有卫星通信功能的骁龙芯片,由此,笔者比较深入的探讨了《高通全面入局卫星通信,国产芯片还有出路吗?》,在同期的MWC 2023上,联发科也展示5G NTN技术,可以为智
利用原子钟授时现已成为数据中心不可或缺的组成部分。目前,通过全球定位系统(GPS)和其他全球导航卫星系统(GNSS)网络传输的原子钟时间已使全球各地的服务器实现了同步,并且部署在各个数据中心的原子钟可在传输时间不可用时保持同步。
“常规磁子强耦合态依赖于谐振腔才能构建,当谐振腔换成开放器件,众所周知强耦合特征会悉数消失。我们则摆脱了这一依赖,通过外加微波诱导,即可产生磁子强耦合态。利用这个原理,光频梳在原子钟、超灵敏探测中展现了令人惊叹的精度。我们发现的频率梳在微波频段,这是雷达、通讯、信息无线传输使用的频段,可以预测我们的频率梳必然能在这些领域中发挥作用。”
针对车内通信技术需求研发的一种用以太网连接车内电子单元的新型局域网技术,可以实现百兆、千兆甚至亿兆的高速网络传输,有望在未来实现对整车现有车内通信技术的逐步替代,正成为下一代汽车网络的重要发展方向之一。在下游旺盛需求的带动下,未来以太网车载芯片将整体呈良好的量价齐升趋势。
荣耀将手机通信体验作为突破口,选择自研射频增强芯片,既可以发挥一脉相承自华为在通信领域的技术优势,又能另辟蹊径树立了较强的差异化竞争。从另一个角度来看,荣耀自研芯片的出发点重在改善通信使用体验,而非“为自研而自研”,也是务实之举。
2022年,半导体市场达历史新高,总收入达到5957亿美元,略高于2021年创纪录的5928亿美元收入。 但根据Omdia的最新研究调查显示,半导体市场已连续四个季度下滑,半导体市场在目前的状态下绝非创纪录的一年。 
语音是人类交流的重要方式,但说话人的健康状态(例如神经疾病、癌症、外伤等原因导致的声音障碍)和周围环境(噪音干扰、传播介质)往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度,但会导致更大的设备体积……
随着技术的进步与完善,智能手表的功能日益丰富,在健康监测、运动健身、信息处理、通讯和定位等方面实现了功能加持,与此同时,智能手表的科技感和高颜值为它带来了作为时尚单品使用的又一价值。一是为健康,二是为便利,或者我们也可称之为智能化,附加一个时尚搭配的需求,在手机销量持续走低的今天,全球智能手表市场依然呈现一个增长态势,智能手表成为了数码市场的新宠儿。
在 600 / 750V 这一层次电压功率 FETs 类别中,Qorvo 第四代 (Gen 4) SiC FETs 产品的主要性能:比如导通电阻和输出电容方面领先业界。此外,在 TOLL 封装中,Qorvo 的器件具有最低 5.4 mΩ 的导通电阻,比目前市场同类产品中最好的 Si MOSFETs、SiC MOSFETs 和 GaN 晶体管的导通阻抗还要低上 4-10 倍。
从零到一 如何构建一款先进的数字仿真器
论文下载链接链接:https://pan.baidu.com/s/11BJ4UdCeT5NBHeHrfmUVOQ提取码:cw13介绍这篇论文总体上不难理解,背景是开发智能网卡的团队在验证智能网卡IP过
(广告分割线)近日,广东省高新技术企业协会正式颁发《2022年度广东省名优高新技术产品证书》。金禄电子科技股份有限公司(以下简称“金禄电子”)申报的3项产品成功获评。金禄电子是专业从事印制电路板(PC
前一阵子,DrameExchange公布了去年Q4全球DRAM市场的数据,吓了我一跳,最近NAND市场的数据也出来了。整理完数据我都不知道该如何写报告了。简单一句话概括,整个存储器市场在最近半年里跌没
2023 年 3 月 13 日,中国上海讯 - 全球半导体解决方案供应商瑞萨电子(TSE:6723)今日宣布,由瑞萨电子冠名赞助的全国大学生电子设计竞赛——2022年度“瑞萨杯”信息科技前沿
芯片封装目前逐渐向小型化、多引脚、高集成的方向持续发展,异构集成、2.5D、3D、SIP技术让芯片封装结构更加集成且复杂化。作为后摩尔时代芯片性能提升最佳途径,以Flip-chip等为代表的先进封装技
广告分割线"美国芯片法案"计划的成功取决于建立一个生产集成电路(IC)基板的试点设施,根据一份新的行业报告,尽早、循序由地完成比完美地完成要好。由领先公司和组织的近20名技术专家组成的IPC首席技术专
芯片超人是一家中国新型半导体分销平台的领先企业,致力于为终端工厂客户提供紧缺、价格波动大、停产的现货、订货以及库存处理。在深圳设有独立实验室,每颗物料均安排QC质检,服务近万家同行和终端,所有物料确保
 2023·03·21JM Insights 导读:北京京东方显示技术有限公司在学术期刊《电力与电子技术》上发表了一篇综述,充分调研和阐述了 Mini LED 背光源显示屏及其在 LCD 模组产品中的
根据网络信息汇总,如有疑问或错误,烦请指出。芯片超人花姐粉丝福利扫码加好友领取100G半导体产业资料包(内含汽车芯片、芯片设计等文字视频资料)聊行情、买卖芯片、谈合作扫码添加芯片超人花姐推荐阅读:▶ 
点击上面↑“电动知家”关注,记得加“星标”!电动知家消息,20日晚间,针对蔚来实习生事件,蔚来在内部发布了调查报告。报告显示,该实习生未能留用的原因为所在岗位没有编制,且所在团队在2023年亦没有校招