广告

提高 TinyML、ML-DSP 和深度学习工作负载的能效

时间:2023-11-08 作者:Moshe Sheier, Vice President of Marketing, CEVA 阅读:
近来,对实时决策、降低数据吞吐量以及注重隐私的需求,已将人工智能处理的很大一部分工作转移到边缘。这一转变催生了大量边缘人工智能应用,每种应用都有着不同的要求,面临着不同

近来,对实时决策、降低数据吞吐量以及注重隐私的需求,已将人工智能处理的很大一部分工作转移到边缘。这一转变催生了大量边缘人工智能应用,每种应用都有着不同的要求,面临着不同的挑战。据预测,2025 年人工智能 SoC 市场规模将达到 500 亿美元 [资料来源:Pitchbook Emerging Tech Research],边缘人工智能芯片预计将在这一市场中占据重要地位。

人工智能处理向边缘转移及提高能效势在必行

人工智能处理向边缘转移标志着一系列应用(从物联网传感器到自主系统)进入了实时决策的新时代。这一转移有助于:减少延迟,这对即时响应起到决定性作用;通过本地处理提高数据隐私保证;支持离线功能,确保在远程或具有挑战性的环境中不间断运行。由于这些边缘应用在电池供电的设备上运行,能效有限,因此能效在这一变革中会成为焦点。

边缘人工智能工作负载本质多元

确保边缘人工智能处理能效的关键难题之一是工作负载本质多元。不同应用的工作负载大不相同,带来独特挑战。总体而言,所有人工智能处理工作负载可大致分为 TinyML、ML-DSP 及深度学习工作负载。

TinyML:声音分类、关键词识别及人体存在检测等任务需要在传感器附近进行低延迟、实时处理。此处涉及的工作负载称为 TinyML,牵涉到在资源有限的边缘设备上运行轻量级机器学习模型。TinyML 模型专为特定硬件定制,支持顺利执行人工智能任务。定制硬件处理器和高度优化的软件库对于满足 TinyML 严格至极的功耗要求至关重要。

深度学习:相较而言,深度学习应用程序是一种计算密集型工作负载。此类应用程序涉及运行复杂的计算,通常出现在高级计算机视觉、自然语言处理及其他经典和生成式人工智能密集型任务中。深度学习具有计算密集型特性,通常需要专门的硬件,如神经处理单元 (NPU)。NPU 采用多层神经网络结构,能够高效地处理各种复杂的计算任务。NPU 可为高级人工智能任务提供所需的计算能力,而且能效很高。

ML-DSP:介于上述两类工作负载之间的是 ML-DSP 工作负载,涉及 DSP 处理、过滤及清理信号,然后才能执行人工智能感知任务。雷达属于此类工作负载,是一种涉及点云图像分析的常见应用。

工作负载决定采用的架构

为了应对边缘人工智能工作负载的多面性及其带来的能效挑战,人们开发了各种架构和硬件引擎。为各工作负载选择有针对性的架构和硬件是为了在提供最佳计算性能的同时最大限度地降低功耗。就此而言,TOPS/Watt(每秒万亿次运算/瓦)是常用的能效指标。选择合适的架构来处理 TinyML、ML-DSP 及深度学习工作负载,是满足所需能效指标的关键。

标量处理架构最适合 TinyML 工作负载,此类负载通常涉及用户界面管理、基于时间数据制定决策以及非密集型计算需求。矢量处理架构非常适合同时处理多个数据元素的运算,及在人工智能感知之前涉及信号处理的工作负载。张量和矩阵处理架构是涉及复杂矩阵运算、图像识别、计算机视觉及自然语言处理等深度学习任务的理想选择。  能够以尽量高的能效高效处理涉及大型矩阵和神经网络的任务。人工智能处理器通常结合利用这些架构来高效处理各种任务。请参阅下图。

CEVA 产品可应对各种人工智能工作负载 

CEVA 提供一系列产品,希望满足 TinyML、ML-DSP 及深度学习工作负载的需求。我们的产品包括 CEVA-BX、SensPro2 及 NeuPro-M,品质优越,既能支持搭载人工智能功能的边缘设备,也能确保能效。

CEVA-BX 处理器高度灵活,能够根据具体应用配置和优化,包括音频、语音处理及人工智能相关的工作负载。其架构旨在实现性能和能效平衡,因此适用于广泛的边缘计算应用。

CEVA 的 SensPro2 是一种高度可配置且独立的矢量 DSP 架构,针对浮点和整数数据类型进行标量和矢量处理。专为计算机视觉和其他传感器中的并行高带宽数据应用而设计。能够高效处理多达 5 TOPS 的人工智能工作负载,集成多达 1,000 个 MAC。SensPro2 是需要高带宽数据和人工智能处理能力的视觉和雷达系统的合适选择。

CEVA 的 NeuPro-M 是一款神经处理单元 (NPU) IP,涵盖在 CEVA 深度学习人工智能处理器 NeuPro 系列中。NeuPro-M 旨在处理当今大多数经典和生成式人工智能网络模型,包括Transformer。专门针对低功耗、高效率处理优化,包括一个矢量处理单元 (VPU) 和许多其他异构处理引擎,如稀疏性、压缩和激活逻辑。随着人工智能网络模型快速发展,NeuPro-M 凭借内置 VPU,可以为边缘人工智能应用提供经得起未来考验的功能。NeuPro-M 目前无法处理的更新、更复杂的人工智能网络层,可以利用 VPU 得到高效管理。

总结

CEVA 的音频人工智能处理器传感器中枢 DSP、NeuPro-M NPU IP 以及相关软件工具和开发套件可满足所有边缘人工智能处理工作负载的需求。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣的文章
相关推荐
    广告
    近期热点
    广告
    广告
    可能感兴趣的话题
    广告
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了