随着人工智能的快速发展,对于相对较低的需求,嵌入式AI解决方案已可实现。但对于需要能够处理高达4kp60的视频帧和图像分辨率而言,依赖于固定平台的传统解决方案已无能为力。本文介绍的将Kinara的加速器和NXP处理器结合在一起,来提供边缘AI性能,能够实现多路智能相机并行处理所需的完美高速性能。

随着人工智能(AI)在嵌入式计算中的到来,导致了潜在解决方案的激增,这些解决方案旨在提供高速流视频上执行神经网络推理所需的高性能。尽管许多参考需求(如ImageNet)的分辨率都相对较低,从而通过多种嵌入式AI解决方案均可实现,但零售、医疗、安全和工业控制领域的许多真实应用,则需要能够处理的视频帧和图像分辨率会高达4kp60,甚至更高。

可扩展性是至关重要的,但对于仅提供主机处理器和神经加速器固定组合的片上系统(SoC)平台来说,这并非总是任意可选。尽管通常在原型建模期间,也提供了一种评估不同形式神经网络性能的方法,但这种一体化的实现方案缺乏真实系统通常所需的粒度和可扩展性。在这种情况下,工业级AI应用受益于一种更平衡的架构,其中将多个异构处理器(如CPU、GPU)和加速器结合起来,在一个集成的管道中共同协作,不仅能对原始视频帧执行推理,而且还能利用预处理和后处理对整体结果或处理格式转换进行优化,从而能够处理多种类型的摄像头和传感器。

经典的部署场景在于智能相机和边缘AI设备。对于前者,需要将视觉处理和神经网络推理支持功能集成到主相机电路板中。相机可能还需要执行一些其他任务,例如计算房间中的人数,并且能够避免在被拍摄对象进出视野时对其进行两次重复计数。智能相机不仅必须能够识别人,而且还必须能够根据相机已经处理的数据重新识别人,从而不会重复计数。这就需要一个灵活的图像处理和推理管道,其中应用程序可以处理基本的对象识别以及复杂的基于推理的任务,如重新识别。

构建智能相机和边缘AI设备

通常,在智能相机设计中,主机处理器将传感器输入转换成适合推理的形式,包括:对数据帧进行调整、裁剪、以及标准化,使其适合于进行高吞吐率推理。一个类似但更高集成度的用例是边缘AI设备。该设备需要处理来自多个联网传感器和相机的输入,故需要具备同时处理多个压缩(或编码)视频流的能力。在这种多相机场景中,处理能力必须能够扩展,以处理执行推理所需的格式、颜色空间和其他转换,并且能够处理多个并行推理。

图1:智能相机应用业务流示意图。(本文图片来源:Kinara)

图2:边缘AI应用业务流示意图。

尽管固定的SoC实现方案能够处理特定用例,但基于可扩展性方面的需求,目光还是转向了具备扩展能力的平台,由于这些平台能够满足不同需求、并随着因客户需求变化所导致的可扩展性和升级提供内在支持。因此,重要的是要关注那些能够轻松扩展硬件功能的平台,这样,当利用不同架构的特定设备需求产生变化时,就无需对代码进行太大更改。因为很少有人能负担得起这其中所暗含着的移植开销。

由于NXP和高通公司等供应商在性能、功能和价格方面所提供的众多选择,许多开发人员都采用了他们的嵌入式处理平台。例如,NXP i.MX应用处理器就满足了广泛的性能需求。与固定SoC平台不同,NXP的处理器系列得益于许多嵌入式计算市场所必需的供应商长期支持和供货保证。i.MX 8M等器件为边缘AI设备需求提供了良好的基础。其内置的视频解码加速功能,使其能够在一个处理器上支持4个压缩的1080p视频流。通过i.MX应用处理器与Kinara的Ara-1加速器的配合,可以实现对多个视频流进行推理或具备处理复杂模型的能力。

运行多个建模

主处理器中,每个加速器可以在每个无切换时间和零负载的帧上运行多个AI模型,从而提供实时执行复杂任务的能力。与一些为最大吞吐量而依赖于多帧批处理的推理管道不同,Ara-1针对1个批处理以及最大响应性,进行了专门优化。

这意味着,如果加速器正在对另一帧或一帧的一部分执行推理,则智能相机设计不需要依赖主处理器来执行重新识别算法。两者都可以卸载到Ara-1上,以利用其更高的速度。在需要更多性能的地方,例如在边缘AI设备中,不同的多种应用可能都需要执行推理任务,此时可以并行使用多个加速器。

不仅通过支持智能相机或设备PCB上的芯片向下集成,而且还支持插件升级,从而可以实现更高的可扩展性。对于芯片向下集成,Ara-1支持行业标准和高带宽PCIe接口,以便轻松连接到包含PCIe Gen 3接口的主处理器。第二个集成路径是利用可以直接插入可升级主板的模块,利用PCIe接口并提供处理多达16台相机输入的能力。对于一些使用现成硬件的系统和原型,还有另外一种选择,就是内在支持USB 3.2。利用简单的电缆连接,可以在笔记本电脑上测试AI算法,利用硬件评估包启动生产,或对现有系统进行简单升级。

用于无缝过渡的软件基础架构

开发人员可以选择多种方法来简化加速器与处理器及其相关软件堆栈的集成。对于模型的部署和管理,在运行时利用C++或越来越流行的Python应用程序编程接口(API),运行环境为Arm的Linux环境或x86的Windows环境。Kinara的运行时API支持多种命令,包括加载和卸载模型、传递模型输入、接收推理数据以及推理和硬件设备的所有控制。

图3:示例开发业务流。

GStreamer环境提供了访问加速器性能的另一种方式。作为一个为构建媒体处理组件的计算图形而设计的库,GStreamer可以很容易地实现过滤管线,这些过滤器可以植入能够对导入视频和传感器馈送状态的变化做出反应的一些更复杂应用中。

对于AI推理,Kinara等SDK可以采用多种不同形式的训练模型,包括TensorFlow、PyTorch、ONNX、Caffe2和MXNet,并直接支持YOLO、TFPose、EfficientNet等数百种模型以及变压器网络。从而提供了一个完整的环境来优化性能,手段包括利用量化、利用自动调整确保模型精度的保持、并在运行时调度执行。有了这样的平台,就有可能深入理解模型的执行,以促进性能优化和参数调整。工程师可以利用精确的仿真器,在硅片实施之前对性能进行评估。

总之,随着人工智能成为越来越多的嵌入式系统的组成部分,能够将推理功能集成到广泛的平台中来满足不断变化的需求是非常重要的。这意味着能够部署具有相关SDK的灵活加速器,从而允许客户将高级AI加速与已有或新的嵌入式系统结合起来。

(参考原文:Using edge AI processors to boost embedded AI performance

本文为《电子工程专辑》2023年3月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
最近,全国大学生电子设计竞赛下设的信息前沿专题邀请赛颁奖典礼在南京邮电大学举办。我们看到了其中的几个一等奖作品,其中获得“瑞萨杯”的是用AI技术做的餐柜。
在3月15日凌晨1点,OpenAI发布GPT-4最新语言模型,而这距离ChatGPT的上线仅仅过去了4个月时间......
近日,微软副总裁兼首席营销官尤瑟夫·迈赫迪(Yusuf Mehdi)在博客文章中宣布了一个里程碑事件,就是其Bing搜索引擎的日活跃用户首次突破1亿。这款新版本的Bing搜索引擎融入了Open AI团队的ChatGPT技术......
如今各类电子设备都有海量高密度数据传递到AI服务器进行训练处理,而所有传输都基于不断演进的PCIe。PCIe通道中任何设计修改都可能导致成本升高甚至是设计失败。为了评估通道性能,裕度测试是一项关键性测试。本文介绍了自动测试如何为裕度测试提供有效保证,使极为复杂的裕度测试变得更为简易和有效。
《头脑风暴》节目中,对于数字时代女性领导力的核心关键词,爱芯元智创始人、董事长兼首席执行官仇肖莘博士给出了“洞察力”与“刚柔相济”的答案。“一方面是洞察外部世界,另一方面是洞察自己”,在仇肖莘看来……
目前,除了手机之外,小米还有跨界造车的计划,因此都需要芯片企业的支持,同时集成电路股权投资基金聚焦的投资方向也需要芯片企业助力。因此,该基金还将聚焦小米汽车业务协同投资方向。
语音是人类交流的重要方式,但说话人的健康状态(例如神经疾病、癌症、外伤等原因导致的声音障碍)和周围环境(噪音干扰、传播介质)往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度,但会导致更大的设备体积……
随着技术的进步与完善,智能手表的功能日益丰富,在健康监测、运动健身、信息处理、通讯和定位等方面实现了功能加持,与此同时,智能手表的科技感和高颜值为它带来了作为时尚单品使用的又一价值。一是为健康,二是为便利,或者我们也可称之为智能化,附加一个时尚搭配的需求,在手机销量持续走低的今天,全球智能手表市场依然呈现一个增长态势,智能手表成为了数码市场的新宠儿。
在 600 / 750V 这一层次电压功率 FETs 类别中,Qorvo 第四代 (Gen 4) SiC FETs 产品的主要性能:比如导通电阻和输出电容方面领先业界。此外,在 TOLL 封装中,Qorvo 的器件具有最低 5.4 mΩ 的导通电阻,比目前市场同类产品中最好的 Si MOSFETs、SiC MOSFETs 和 GaN 晶体管的导通阻抗还要低上 4-10 倍。
从零到一 如何构建一款先进的数字仿真器
阿里巴巴创始人马云:“下一个暴利风口来了,将造就大批富翁,抓住就能致富!▼看看身边成功的朋友,看看富豪榜排前十的人,皆因看准风口而富甲一方!●15年前,供几套房,一辈子不愁吃穿;●10年前,开淘宝店,
2023 年 3 月 13 日,中国上海讯 - 全球半导体解决方案供应商瑞萨电子(TSE:6723)今日宣布,由瑞萨电子冠名赞助的全国大学生电子设计竞赛——2022年度“瑞萨杯”信息科技前沿
点击上面↑“电动知家”关注,记得加“星标”!电动知家消息,美国电动车制造商马伦科技(Mullen Automotive) 今天宣布,它已重新获得前途K50在北美和南美的知识产权和经销权。此后,该公司将
点击上面↑“电动知家”关注,记得加“星标”!电动知家消息,20日晚间,针对蔚来实习生事件,蔚来在内部发布了调查报告。报告显示,该实习生未能留用的原因为所在岗位没有编制,且所在团队在2023年亦没有校招
广告分割线"美国芯片法案"计划的成功取决于建立一个生产集成电路(IC)基板的试点设施,根据一份新的行业报告,尽早、循序由地完成比完美地完成要好。由领先公司和组织的近20名技术专家组成的IPC首席技术专
Power Integrations宣布推出900V氮化镓(GaN)器件,为InnoSwitch3™系列反激式开关IC再添新品。新IC采用特有的PowiGaN™的技术,可提供高达100W的功率,效率超
很多朋友都加入到了芯片供应商的行业,希望自己的库存和型号被尽可能多的客户看到,我们芯片超人手握大量订单和流量,所以有现货的朋友快来联系我们啦~优质供应商速速看过来~推荐阅读:▶ 血氧仪卖爆,带飞哪些芯
论文下载链接链接:https://pan.baidu.com/s/11BJ4UdCeT5NBHeHrfmUVOQ提取码:cw13介绍这篇论文总体上不难理解,背景是开发智能网卡的团队在验证智能网卡IP过
邀请函峰会背景‍‍‍‍‍‍‍2022 年,受通货膨胀、地缘政治、疫情反复等不确定外部因素影响,消费电子市场低迷,但是 Mini/Micro LED 应用市场却保持逆势成长,持续成为抵御行业下行的强劲动
汽车行业的跳槽热浪过去了一波之后,平静的朋友圈被一个前同事的咨询打破了。这哥们也是资深BMS软件开发工程师了,前两年混迹了一圈各大主机厂,从传统自主品牌跳到合资品牌再跳到头部新势力企业,拿捏得了算法、