广告

MLPerf发表TinyML测试基准,小型AI系统也能跑分了

时间:2021-07-28 作者:Sally Ward-Foxton 阅读:
产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指针,同时也公布了第一次使用该MLPerf Tiny指针进行的推论系统跑分结果。
广告

机器学习(ML)系统性能测试基准MLPerf的幕后推手、产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指针,同时也公布了第一次使用该MLPerf Tiny指针进行的推论系统跑分结果。

MLPerf已经为高性能运算(HPC)系统、数据中心以及行动装置等级的系统提供性能测试基准,新的TinyML系统性能基准,则是专为那些在资源极度受限环境中执行机器学习工作负载的设备所设计。MLCommons执行总监David Kanter表示,现在MLPerf基准可涵盖微瓦(microwatts)到千瓩(megawatts)等级的机器学习系统。

他指出:“如果你检视一些我们的训练以及HPC性能测试基准,HPC基准可在全球最大超级计算机上的1万6,000个节点上执行;在Tiny基准方面,则是关于我们如何量测那些最小、最低功耗的设备(参考下图)。”

MLPerf性能测试基准的涵盖范围从TinyML装置到大型数据中心设备。

(图片来源:MLCommons)

通常TinyML系统意味着以嵌入式微控制器/处理器在传感器节点执行传感器数据推论的系统,可能是来自麦克风、摄影机等感测装置的数据。一个这种等级的典型神经网络装置可能数据量只有100kB或更少,而且受限于电池电量。

尽管TinyML并没有明确的定义,该名词通常是指以微控制器为基础的系统;MLPerf已经将之延伸了一点点,因此也涵盖包括Raspberry Pi在内的系统。MLPerf Tiny推论性能测试基准工作小组主席、美国哈佛大学(Harvard University)教授Vijay Janapa Reddi则表示,开发这个领域的性能测试基准是一项挑战。

“任何推论系统都有复杂的堆栈,但在TinyML,所有的东西都是与传感器数据──音频、视觉、惯性量测单元(IMU)──有关,生态系统特别复杂;”Janapa Reddi表示:“在嵌入式领域特别具挑战性,是因为大多数的硬件有其客制化工具链…这使得性能基准检验极具挑战。我们必须从头特制很多基础架构,那不是能轻易从MLPerf推论性能基准借用的。”

他补充指出,有鉴于该堆栈的所有部分都有广泛的创新,要定义一个固定的性能测试基准以有效展现那些硬件、软件、工具以及算法的创新,在TinyML领域是特别大的挑战。

工作负载选择

MLPerf工作小组是与嵌入式微处理器性能测试基准联盟(Embedded Microprocessor Benchmark Consortium,EEMBC)合作开发TinyML的性能测试基准,利用了EEMBC的测试工具(EnergyRunner框架),MLPerf工作小组则是定义工作负载、规则以及性能测试基准。

与其他的MLPerf性能测试基准一样,各组织能提交执行一个或多个不同工作负载的硬件与软件系统跑分结果,但TinyML性能基准要支持多样性的应用案例,让系统可选择工作负载来呈现常见的应用会特别困难。为此,MLPerf Tiny推论工作小组将之缩小为四种工作负载:

  • 关键词识别(Keyword spotting)──利用Google的语音指令数据集(Speech Commands Dataset),以DS-CNN模型进行有限词汇的语音识别。
  • 异常侦测(Anomaly detection)──利用机器以Deep Autoencoder模型运作ToyADMOS声音数据集,进行音频时间序列异常侦测。
  • 视觉唤醒词(Visual wake words)──这是一个两类别影像分类的工作负载,影像被区分为“人”或“非人”,利用MobileNetV1 0.25X模型执行视觉唤醒词数据集(Visual Wake Words Dataset )。
  • 影像分类(Image classification)──以ResNet-8模型进行CIFAR10数据集的多类别(10类)影像分类。

如同其他MLPerf性能测试基准,MLPerf Tiny推论基准也有“封闭”与“开放”两种赛程(division),以尝试提供相似系统的可比性,还有展示创新方法的灵活性;此外,也让提交者展示其附加价值,无论他们要聚焦在堆栈的哪一个部份。由MLPerf工作小组定案的性能指针是既定预测准确度下的延迟性,以及既定预测准确度下的功耗。

该基准的延迟性分数是必选项,功耗量测则是可选的。但因为TinyML系统通常会在功耗与性能之间有谨慎的平衡折衷,我们是否真的能在不同时看到两种指标的情况下,得到一个清晰的系统性能评分结果?

对此,MLCommons的Kanter表示:“我们把这个版本的测试基准叫做0.5版,有部份原因是因为这是我们第一次的MLPerf Tiny推论跑分结果。取得结果、订定规则以及打造性能测试基准套件实际上是非常重要的任务,而在其上产生功耗/能耗结果又添加了一层复杂性…”

“我坚信要先学爬、再学会走路,然后才能跑,要让事情开始、动起来,然后再优化、或者添加一些额外的能耗/功耗量测复杂性;”他接着指出:“我想,在我们下一轮的跑分结果中,应该会看到更多能耗量测。”

Janapa Reddi也同意以上观点,补充指出该TinyML测试基准将会随着产业进展更进一步提供清晰度;“这是一个还在萌芽的领域,正尝试找到立足点。我们可以等个三年让它成熟,因为在不同地方都会有大量的TOPS以及每瓦TOPS数字;然后我们可以尝试进行某种程度的标准化,或者从一开始就与产业界合作,协助他们设定一个合理的方向…”

他表示:“对我来说,这与确切的数字或系统无关,更多是关于为这个社群提供清晰度与能见度,让他们能加速进展。”

TinyML系统的技术堆栈相当复杂。

(图片来源:MLCommons)

 TinyML领域厂商情况与数据中心系统业者迥异,有更多新创公司以及中小型企业。MLPerf的TinyML工作小组共同主席Colby Banbury表示,他们也将这个特性纳入了考虑;“我们在设计测试基准的一开始就想到这个,因此特别着重参考实例并尝试构建出来。我认为其重要性程度在先前几代的MLPerf推论基准中不一定存在,因为没有那么多需求。”

由工作小组提供的参考实例是一组所有工作负载都是在意法半导体(ST) Nucleo-L4R5ZI开发板上执行的延迟性与功耗跑分;选择该开发板是因为其开放平台、广泛可取得性以及成本可负担性。该开发板采用STM32 Arm Cortex-M4微控制器,如果有需要,完整的实例能提供未来提交者使用,作为他们自己的系统的起跑点。

Banbury举例指出,理论上,一家软件供货商能采用该参考实例堆栈,更换为他们自己特定的零组件并相当容易地执行。

第一轮跑分结果

MLPerf Tiny推论性能测试基准的第一轮跑分结果,在封闭赛程中有4套系统提交分数(包括参考系统),开放赛程则是有一套系统提交份数。在封闭赛程中,美国软件开发商Latent AI提供了执行在Raspberry Pi的两套纯软件解决方案,该公司不挑硬件的Latent AI Efficient Inference Platform (LEIP)软件开发工具包能用以优化运算、能耗与内存效率。

Latent AI提交的4种工作负载延迟性分数都分别以FP32与INT8精度模型来跑分,执行关键词识别工作负载的延迟性结果为0.39 ms (FP32模型)或0.42 ms (INT8模型),而参考系统的结果是181.92 ms。中国的一家研究机构鹏城实验室(Peng Cheng Laboratory)所提交的系统,是将4种工作负载的跑分作为其TinyML应用自制RISC-V微控制器组件的概念验证,该系统的关键词识别执行结果为325.63 ms,参考实例则为181.92 ms。

另一家美国业者Syntiant所提交的系统是唯一使用了硬件加速器的,在执行关键词识别任务的延迟为5.95 ms (参考实例系统的延迟为181.92 ms)。该公司的NDP120系统单芯片就是为了关键词识别所设计,采用Arm Cortex-M0处理器CPU核心,加上Syntiant的Core 2加速器。

在开放赛程只有hls4ml一个提交系统;hls4ml实际上是一个神经网络最佳化工作流程,是为了欧洲核子研究组织(CERN)的大型强子对撞机(Large Hadron Collider)所开发,现在则是由一个科研社群Fast Machine Learning for Science负责开发。hls4ml优化模型以双核心的Arm Cortex-A9处理器以及Xilinx FPGA加速器执行,在影像分类工作负载的延迟为7.9 ms,准确度77%;同样的系统执行异常侦测工作负载的延迟为0.096 ms,准确度82%。

除了参考实例,MLCommons公布的第一轮TinyML系统性能测试不包含能耗表现,完整的跑分结果请参考此连结

(参考原文:MLPerf Launches TinyML Benchmark for Smallest AI Systems,by Sally Ward-Foxton)

 编译:Judith Cheng

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
  • 国产MCU发展的五大驱动力 对国产MCU厂商来说,“国产替代”和“芯片短缺”反而成为推动其MCU产品线打入大中型OEM厂商供应链,甚至汽车供应链的驱动力。据《电子工程专辑》分析师团队调查了解,凡是能够保证代工厂和封测合作伙伴正常供应的国产MCU厂商,都享受到了销售和利润同时增长的甜头。
  • 未来MCU设计的六个方向 随着AI和IoT的发展与融合,微处理器(MCU)的设计也更加复杂,逐渐从传统单一功能的微控制器转向集成更多功能特性、计算性能更强的系统级芯片(SoC)。ASPENCORE《电子工程专辑》分析师团队识别出如下六个MCU设计的发展方向。
  • 现在到处都是传感器,我该怎么办? 现在,对于运输、机器人、家庭自动化、智能城市、工厂和仓库管理中许多可能的应用来说,通过视觉、雷达或激光雷达传感来进行物体识别和碰撞警告,通过超声波传感器实现短距离的接近侦测,通过IMU进行运动和姿势检测,基于声学的危险声音检测已经很普遍了。说实话,这个清单是无穷无尽的。我们拥有建立一个由智能传感驱动的未来主义的、几乎是科幻小说的世界所需要的所有原材料。但是怎么做呢?
  • 清微智能王博谈智能安防硬核技术之智能感知、图像/视 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是清微智能CEO王博就智能感知、图像/视频处理和边缘AI计算方面的问答访谈。
  • 思特威欧阳坚谈智能安防硬核技术之智能感知 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是思特威副总经理欧阳坚就智能安防硬核技术的智能感知进行的问答访谈。
  • 亿智电子魏唯谈智能安防硬核技术之图像/视频处理和AI 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是亿智电子安防产品部VP魏唯就图像/视频处理、CMOS图像传感器,以及AI计算方面进行的问答访谈。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • EMC对策产品: TDK推出用于移动设备 TDK株式会社(TSE:6762)推出用于移动设备的TCM0403M系列小型薄膜共模滤波器
  • 比科奇ORANIC板卡获行业大奖,5G小基 比科奇(Picocom)日前宣布:该公司荣获全球小基站论坛(SCF)一项大奖,其全新的ORANIC板卡赢得了全球小基站论坛(SCF)2021年度“小基站芯片及组件杰出创新金奖”。
  • 小米汽车来了! 点击蓝字关注我们9月1日,小米集团董事长雷军在微博上表示,小米汽车正式注册,公司名为小米汽车有限公司,注册资金100亿,小米董事长兼CEO雷军担任法人代表。小米汽车公司的正式注册成立,被视为小米集团进
  • 为什么DDR电源设计时需要VTT电源 往期精彩1、超全超详细Mos管元件特性及工作原理介绍;2、超详细开关电源芯片内部电路解析;3、70G硬件设计资料汇总分享;【友情推荐】4、分享一份老工程师(某为工作15年)经常使用的pcb企业封装库包
  • 美国插手中韩半导体领域关键收购案 ▲ 更多精彩内容 请点击上方蓝字关注我们吧!近些年来,虽然中国面板产能持续提升,已成为全球最大的显示面板生产国,但驱动芯片却仍以进口为主,成为中国面板产业发展的一大瓶颈。  今年3
  • 汽车标准:全球EMC试验标准汇总! key点击蓝字关注我们EMC测试是汽车整车或零部件开发过程中常常涉及到的测试内容,EMC测试的主要目的是确保车辆或零部件在其工作的电磁环境中能够不受影响正常工作,同时也不对其他部件或系统造成电磁干扰。
  • 惊艳!大佬用200个LED做了一个智能手表(附PCB) 最近在hackaday上逛的时候,看到一个还在制作中的非常炫酷的手表项目,分享给大家。背景作者正在造的这个ESP32 Pico Watch有WIFI、BT、Mesh、一个振动马达、一个RTC、4个按钮
  • 采样电阻选型详析 电流检测电阻的基本原理根据欧姆定律,当被测电流流过电阻时,电阻两端的电压与电流成正比.当1W的电阻通过的电流为几百毫安时,这种设计是没有问题的.然而如果电流达到10-20A,情况就完全不同,因为在电阻
  • Q2晶圆代工排名公布:台积电第一、中芯国际第五 8月31日,集邦资讯公布了Q2季度全球晶圆代工市场最新排名,总产值达到了244.07亿美元,环比增长6.2%,创下了2019年Q3季度以来连续8个季度增长的新高。在TOP10厂商中,台积电一家独大,Q
  • 增速最快!中芯国际Q2晶圆代工表现抢眼 快科技消息,8月31日,集邦资讯公布Q2季度全球晶圆代工市场最新排名,总产值达到了244.07亿美元,环比增长6.2%,创下了2019年Q3季度以来连续8个季度增长的新高。在TOP10厂商中,台积电一
  • 光刻与键合:超越摩尔器件制造设备成了香饽饽 文︱立厷图︱网络近日,“国产光刻机取得关键性进展,ASML始料未及”的报道,由于没有过多细节,振奋还是为时过早。如果国产光刻机能达到国际水平,国内科技水平的提升将是突飞猛进的,相关行业会得到快速发展,
  • 相见恨晚的Altium Designer使用技巧 首先声明下,写这个专题的目的不是为了做教程,所以前提都是建立在大家对于AD比较熟悉的基础上,旨在为大家减少一些画板过程中的繁琐机械的劳动~本文转载自Altium官方公众号。废话不多说,正文开始!场景一
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了