广告

TOPS:深度学习谎言背后的真相

时间:2021-09-02 作者:Ludovic Larzul 阅读:
AI公司通常都以更高的TOPS(每秒一万亿次操作)作为评判算力的标准。但芯片制造商在推销他们的TOPS指标时,都不会真正提供准确的引导。本文将论述业界因错误标记性能指标而导致的问题,并阐述用户该如何独立评估真实环境中的TOPS。
广告

AI公司通常都以更高的TOPS(每秒一万亿次操作)作为评判算力的标准。但芯片制造商在推销他们的TOPS指标时,都不会真正提供准确的引导。在大多数情况下,他们大肆宣传的数字并不是实际的 TOPS,而是峰值TOPS。换句话说,您认为能在板卡中获得的TOPS 算力,实际上是芯片在不可能存在的理想世界中的最佳表现。

本文将论述业界因错误标记性能指标而导致的问题,并阐述用户该如何独立评估真实环境中的TOPS。

真假TOPS

AI应用开发人员通常以衡量芯片制造商发布的TOPS性能数据是否足以支持他们的项目来开始进行审查。

假设要在U-Net神经网络上以10 fps(每秒帧数)的速度重新制作全高清图像。由于U-Net处理每个图像需要3 TOPS算力,简单的数学计算表明,共需要30 TOPS才能按所需的FPS完成项目。在购买芯片时,您可能认为,那些声称运行50、40 甚至 32 TOPS 的板卡对您的项目来说应该足够了。在理想世界中,的确是这样的;但您很快就会发现,这些板卡很少能达到所宣称的算力。而且我们谈论的不仅仅是几个TOPS的下降,其计算效率可低至所宣扬的10%。

当然,调整神经网络可以从板卡中“榨出”更多的性能,但永远不可能接近供应商给出的峰值TOPS。即使试图获得60%或70%的计算效率,也将耗费巨大的时间成本。如果神经网络发生任何变化,您将不得不返回原点以再次优化所有内容——而且,它甚至可能根本不适用于您的应用。这个问题在小规模样本处理中尤为明显;幸运的话,您也许能够获得峰值TOPS 15%的算力。

计算效率

现在,您也许很想知道该如何计算真实的TOPS?这其实很简单!

要了解一个板卡的实际TOPS是多少,首先需要确定板卡的计算效率。理想情况下,这在目标板卡上运行您需要的神经网络就可以完成。不过有可能此时您还没有板卡。但通过查看更多来自供应商的营销数字细节,您仍然可以进行估算。通常,ResNet50或类似神经网络的性能数据是可以得到的。假设这是一个典型的ResNet50实现,则可以通过GOPS(每秒十亿次操作),而不是TOPS,来计算单个图像的算力。然后,只需将其乘以供应商宣传的每秒图像数量 (IPS),瞧!这样获得的TOPS将更实际,或者说更真实。

而效率也只是真实值除以峰值TOPS所得的比率,即:

峰值TOPS x 计算效率= 真实TOPS

该公式使用户能够在购买芯片之前,对板卡运行神经网络时的真实效率进行比较。您可以重复使用该效率计算需要的TOPS,看看它是否符合需求。虽然功率和样本大小等因素也会影响结果,但如果知道板卡的效率,利用该公式将可以很好地估计其在实际用例中的真实性能。当然,供应商发布的神经网络IPS也令人存疑,但相对于在实际需要的TOPS和板卡峰值TOPS之间进行比较,这种估算方法已经非常有效。

还有一点也值得注意,这不仅仅是GPU的问题。大多数专用ASIC的实际效率也非常低,其宣传效率明显夸大其词。但我们用IPS、已知的网络GOPS和一个简单的乘法,就可以得到一个较实际的数字。

高效替代品

GPU和ASIC在效率和性能方面都存在问题,但有一种替代方案不涉及这两种芯片中的任何一种。

2020年10月的MLPerf结果表明,结合了推理加速的FPGA比其他方案更高效,可以更接近其他芯片制造商宣传的峰值TOPS数据。

根据已发布的每个TOPS数据,比较不同架构下的FPS(来源:Mipsology)

FPGA的高效不仅体现在计算上,还体现在其用于计算时的硅片利用率上。从本质上讲,这些板卡可以实现“事半功倍”,以极低的成本获得更佳的神经网络性能。

再提醒一次:不要落入TOPS的营销陷阱。这是大多数神经网络在现实条件下永远达不到的夸大的性能数据。相反,请利用这个公式:

峰值TOPS x计算效率=真实TOPS

这将帮助您快速、轻松、准确地比较性能需求和实际芯片性能,而不会被任何夸大的供应商声明所误导。

(参考原文:TOPS: The Truth Behind a Deep Learning Lie)

责编:Amy Guan

本文为《电子工程专辑》2021年9月刊杂志文章, 版权所有,禁止转载。点击申请 免费杂志订阅 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 存算一体芯片,这几年可能就要覆盖从端到云 随算力增加,处理器核心数增多,每核心可用带宽越来越少,也就限制了整体速度。“搬运数据,成为相当大的瓶颈。”“与此同时能耗也成问题。”从外部存储器,和片内存储搬运数据的能耗差别巨大;而且“数据搬运时间是运算时间的几百倍、上千倍。”
  • 给“无情”的人工智能模型常识和推理能爆发新的技术革 人工智能算法都是冷酷无情的,无论是亚马逊的员工工作监督,还是美团的路径规划算法,都在压榨着人类的极限,而且随着人工智能炒作的偃旗息鼓,美国国防部似乎找到了新的发展方向,通过给人工智能常识和推理能力,让其自主学习,那么究竟是怎样的项目能让社会获得这一“革命”性的进展呢?
  • 此疫绵绵无绝期,穿戴医疗正当时 消费或是医疗性穿戴式产品有各种不同的外观,其中,可以化身为更多“型态”的穿戴式生物传感器要让普罗大众进一步接受,仍有其挑战存在。其中最大的挑战为低功耗与高分辨率芯片设计技术、医疗法规认证的设计考虑、传输接口的稳定设备、软件服务的确效要求、产品设计的医疗规范。
  • 可穿戴领域的趋同推动芯片级创新 数字信号处理技术的进步,使无线连接以及AI与机器学习技术集成到可听戴与可穿戴设备成为可能。易用性和电池寿命长是该技术成功的主要考虑因素。
  • 美国成立国家人工智能咨询委员会 ​​​​​​​人工智能技术已经成为未来数十年的科技制高点之一,不仅在科学界和各应用领域,在国家层面也受到各国的高度重视。美国在周三就成立了国家人工智能咨询委员会。
  • Omdia:RISC-V架构变得越来越受欢迎 随着受欢迎程度和采用率的提升,RISC-V会成为下一代CPU的首选架构吗?未来RISC-V是否会像主导服务器操作系统的Linux一样,成为主导的CPU架构?
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • 瑞萨电子携手豪威科技提供汽车摄像 设计采用瑞萨电子的新型汽车高清链接(AHL)技术和豪威科技的OX01F10 130万像素SoC,以提供低成本的优质视频;于9月15日至16日在比利时AutoSens展会上进行展示
  • 芯查查屹立数字化潮头,赋能电子信息 全球市场对芯片需求进一步扩大,我国集成电路产业布局加快,广东、上海、浙江、天津等多地陆续公布制造业“十四五”规划,集成电路成为各地未来五年的重点发展方向。
  • Cadence 2022校园招聘 - 空中宣讲会来啦 点击阅读原文,直达空宣页面⬇⬇⬇⬇⬇⬇⬇⬇⬇
  • 为什么LED灯会越用越暗?为什么会闪烁? 大家都有这么一个生活经验刚买回来的LED灯,总是特别亮,但是过一段时间后很多灯会变得越来越暗,为什么LED灯具会有这样的一个过程呢?今天就带大家一探究竟!要了解为什么你家的LED灯会越来越暗我们就得先
  • 华为成立第3家超聚变公司,落户郑州 昨日,除了科技巨头苹果发布了几款新品之外,国内科技龙头华为也出现了新的动作。根据相关报道显示,华为近日在河南郑州成立了一家超聚变数字技术有限公司,工商信息显示该公司的法定代表人为郑丽英,注册资本7.2
  • Nano Transport:一种硬件实现的用于SmartNIC的低延迟、可编程传输层 随着摩尔定律中的物理尺寸逐渐逼近极限,但实际应用中人们逐渐通过软件的硬件定制化加速来继续延续着摩尔定律的加速使命,这里面最典型的场景就是计算机网络。如软件的TCP/IP协议栈时延较大,于是就有了硬件化
  • STM32Trust:助你一站式完成安全设计 ▲ 点击上方 关注STM32 导语:STM32Trust是一项关注设备安全性的多级综合策略,将安全知识、工具和ST原厂开箱可用软件包相结合,融合以往的行业实践经验,通过一
  • 单片机串口发送数据很慢?这种方法帮助你提高! 本文介绍如何使用带FIFO的串口来减少接收中断次数,通过一种自定义通讯协议格式,给出帧打包方法;之后介绍一种特殊的串口数据发送方法,可在避免使用串口发送中断的情况下,提高系统的响应速度。一种可1. 简
  • 中国厂商入局1000亿美元存储市场,将如何构建产业生态? 9月14日,主题为“存储标准-存储生态”的2021中国闪存市场峰会在深圳举行。活动吸引了存储产业链上下游人士到场,三星、美光、铠侠、长江存储、英特尔等国内外企业相关代表出席并发表演讲,共同探讨存储产业
  • 中石油,卖车! 点击上面↑“电动知家”可以订阅哦!电动知家消息,日前,据中国石油消息,其与大搜车共同打造的汽车换购店正式开业,这也是中国石油首座汽车换购店。官方表示,在这里,客户能实现买车比市场价低,卖车比市场价高。
  • PI直播|助力快充,选择合适的氮化镓功率器件 PI邀请您参加充电头网主办的线上直播,我们的技术专家将为您介绍USB PD快充的市场趋势。 PI高集成开关电源芯片可为USB PD充电器提供高效率及高可靠的解决方案。在此次直播中,PI将为您
  • 实用电容降压电路 实用的电容降压电路将交流市电转换为低压直流的常规方法是采用变压器降压后再整流滤波,当受体积和成本等因素的限制时,最简单实用的方法就是采用电容降压式电源。采用电容降压时应注意以下几点: 1 根据负载的电
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了