广告

TOPS:深度学习谎言背后的真相

时间:2021-09-02 08:28:23 作者:Ludovic Larzul 阅读:
AI公司通常都以更高的TOPS(每秒一万亿次操作)作为评判算力的标准。但芯片制造商在推销他们的TOPS指标时,都不会真正提供准确的引导。本文将论述业界因错误标记性能指标而导致的问题,并阐述用户该如何独立评估真实环境中的TOPS。
广告

AI公司通常都以更高的TOPS(每秒一万亿次操作)作为评判算力的标准。但芯片制造商在推销他们的TOPS指标时,都不会真正提供准确的引导。在大多数情况下,他们大肆宣传的数字并不是实际的 TOPS,而是峰值TOPS。换句话说,您认为能在板卡中获得的TOPS 算力,实际上是芯片在不可能存在的理想世界中的最佳表现。

本文将论述业界因错误标记性能指标而导致的问题,并阐述用户该如何独立评估真实环境中的TOPS。

真假TOPS

AI应用开发人员通常以衡量芯片制造商发布的TOPS性能数据是否足以支持他们的项目来开始进行审查。

假设要在U-Net神经网络上以10 fps(每秒帧数)的速度重新制作全高清图像。由于U-Net处理每个图像需要3 TOPS算力,简单的数学计算表明,共需要30 TOPS才能按所需的FPS完成项目。在购买芯片时,您可能认为,那些声称运行50、40 甚至 32 TOPS 的板卡对您的项目来说应该足够了。在理想世界中,的确是这样的;但您很快就会发现,这些板卡很少能达到所宣称的算力。而且我们谈论的不仅仅是几个TOPS的下降,其计算效率可低至所宣扬的10%。

当然,调整神经网络可以从板卡中“榨出”更多的性能,但永远不可能接近供应商给出的峰值TOPS。即使试图获得60%或70%的计算效率,也将耗费巨大的时间成本。如果神经网络发生任何变化,您将不得不返回原点以再次优化所有内容——而且,它甚至可能根本不适用于您的应用。这个问题在小规模样本处理中尤为明显;幸运的话,您也许能够获得峰值TOPS 15%的算力。

计算效率

现在,您也许很想知道该如何计算真实的TOPS?这其实很简单!

要了解一个板卡的实际TOPS是多少,首先需要确定板卡的计算效率。理想情况下,这在目标板卡上运行您需要的神经网络就可以完成。不过有可能此时您还没有板卡。但通过查看更多来自供应商的营销数字细节,您仍然可以进行估算。通常,ResNet50或类似神经网络的性能数据是可以得到的。假设这是一个典型的ResNet50实现,则可以通过GOPS(每秒十亿次操作),而不是TOPS,来计算单个图像的算力。然后,只需将其乘以供应商宣传的每秒图像数量 (IPS),瞧!这样获得的TOPS将更实际,或者说更真实。

而效率也只是真实值除以峰值TOPS所得的比率,即:

峰值TOPS x 计算效率= 真实TOPS

该公式使用户能够在购买芯片之前,对板卡运行神经网络时的真实效率进行比较。您可以重复使用该效率计算需要的TOPS,看看它是否符合需求。虽然功率和样本大小等因素也会影响结果,但如果知道板卡的效率,利用该公式将可以很好地估计其在实际用例中的真实性能。当然,供应商发布的神经网络IPS也令人存疑,但相对于在实际需要的TOPS和板卡峰值TOPS之间进行比较,这种估算方法已经非常有效。

还有一点也值得注意,这不仅仅是GPU的问题。大多数专用ASIC的实际效率也非常低,其宣传效率明显夸大其词。但我们用IPS、已知的网络GOPS和一个简单的乘法,就可以得到一个较实际的数字。

高效替代品

GPU和ASIC在效率和性能方面都存在问题,但有一种替代方案不涉及这两种芯片中的任何一种。

2020年10月的MLPerf结果表明,结合了推理加速的FPGA比其他方案更高效,可以更接近其他芯片制造商宣传的峰值TOPS数据。

根据已发布的每个TOPS数据,比较不同架构下的FPS(来源:Mipsology)

FPGA的高效不仅体现在计算上,还体现在其用于计算时的硅片利用率上。从本质上讲,这些板卡可以实现“事半功倍”,以极低的成本获得更佳的神经网络性能。

再提醒一次:不要落入TOPS的营销陷阱。这是大多数神经网络在现实条件下永远达不到的夸大的性能数据。相反,请利用这个公式:

峰值TOPS x计算效率=真实TOPS

这将帮助您快速、轻松、准确地比较性能需求和实际芯片性能,而不会被任何夸大的供应商声明所误导。

(参考原文:TOPS: The Truth Behind a Deep Learning Lie)

责编:Amy Guan

本文为《电子工程专辑》2021年9月刊杂志文章, 版权所有,禁止转载。点击申请 免费杂志订阅 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 人工智能全球规范化规则到底需要谁来执行呢?(图文) 人工智能全球化是近年来最火热的话题,不仅是科技界投入巨大,全社会各行各业都在绞尽脑汁的争夺这一还未开垦的处女地。 不仅如此,很多其他行业的人也都在为着人工智能发展做出
  • 对智能驾驶来说,存储、感知、计算、连接正在发生怎样的 在12月23日举办的国际汽车电子论坛智能驾驶分论坛上,我们不仅看到像大陆集团、均胜电子、宁德时代、英飞凌这样的老面孔,也能看到造FPGA的赛灵思、造存储器的江波龙、造CIS(CMOS图像传感器)的思特威、相关连接标准与芯片的Valens Semiconductor和信号链MCU的芯海科技,以及属于偏向造车新势力的智己汽车。这也能看出“智能驾驶”时代的产业发展相当热闹,汽车这个词在显著拓展着其边界。
  • 10核GPU真的够用吗?全面解析天玑9000的游戏水平 此前我们写过一篇文章综合评价联发科天玑9000芯片,提到这颗芯片作为明年要大举推向市场的旗舰SoC,有许多令人期待之处。最近一波天玑9000和骁龙8 Gen 1的抢跑成绩,也进一步验证了天玑9000明年定位旗舰的实力——已公开的这波结果也是此前我们没想到的。这其中比较令人惊喜的,是天玑9000的游戏表现……
  • “半导体老兵”芯片销量突破3亿颗,从国家电网进军通用M 中国工控和自动化市场规模持续扩大,预计到2022年将达到2085亿元。传统工控MCU领域向来是TI、ST、ADI和瑞萨等国际大厂的地盘,国内MCU厂商中除了华大半导体的MCU事业部,最近几年,万高、航顺和极海半导体、兆易创新也在发力工业MCU市场。
  • 利用传统存储器支撑日新月异的人工智能 人工智能带来的喧嚣正在消退,它已面临新的工程挑战,而存储器需求正在成为焦点:并非每个机器学习和推理任务都需要先进的存储器技术,而久经考验的传统存储器可以在边缘处理AI,而这类AI(分布式)可能正是5G所需。
  • OPPO发布自研NPU MariSilicon X,主打能耗比、HDR、RAW 手机厂商为什么都热衷于自研芯片?因为自家机器需要什么,只有自己最清楚;也只有自己有芯片,才能在同质化日趋严重的智能手机行业体现出品牌的差异化。作为国产手机四大金刚之一的OPPO,早就流露出了自研芯片的蛛丝马迹,终于在12月14日这颗名为马里亚纳 MariSilicon X的NPU揭开面纱……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • Qorvo® 推出首款单个模块即可支 Qorvo今日推出首款覆盖5.1GHz至7.1GHz频段的宽带前端模块 (FEM),不仅能最大限度地提高容量,而且还能简化设计,缩短产品上市时间,并将前端电路板空间减少50%,适用于Wi-Fi 6E企业级架构。
  • 5G 基础设施的驱动 根据全球移动通信系统协会 GSMA 提供的数据,5G 目前正在顺利推广中,预计将在 2025 年覆盖全球三分之一的人口。另外根据全球领先综合数据库Statista 的调查,主要手机制造商皆已推出 5G 手机,这将使那些希望以理论上高达 50Gb/s 的最大速度传输数据流和视频的人感到满意,预计到 2023 年全球 5G 订阅量将达到 13 亿 。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了