广告

AI加速器性能只用TOPS是比不出来的!

时间:2019-12-17 作者:Sally Ward-Foxton 阅读:
TOPS数字越高并不一定就有更高的处理量,尤其是在样本大小为1的边缘应用中...
广告

在AI加速器世界,芯片的性能通常是以既定算法的TOPS (tera operations per second)来表示,但有很多理由显示,这或许并不是最好的参考数字。如美国的AI加速器开发商Flex Logix执行长Geoff Tate所言:“客户真正要的是每1美元的高处理量(throughput)。”

Tate解释,TOPS数字越高并不一定就有更高的处理量,尤其是在样本大小(batch size)为1的边缘应用中;而诸如数据中心等应用,可透过以较大的样本平行处理多个输入来提高处理量(因为就会有多余的TOPS),但这通常并不适合边缘设备。

举例来说,Tate比较了Flex Logix的InferX X1组件以及市场上的某款领导级GPU,虽然后者的处理量是3~4倍,TOPS是10倍,但需要用到8倍的DRAM;相较之下Flex Logix的组件架构能节省很多资源。

Flex Logix的InfereX X1预计2019年底投片,将提供8.5TOPS左右的算力。

(来源:Flex Logix)

但Tate提出的每1美元处理量指标听起来很合理,实际上也不是都能很容易找到可靠的组件产品价格,以直接进行比较。而像是需要多少DRAM或是某款特定芯片有多大的占位面积能显示成本,但并不精确。

另一个把TOPS当作指标会遇到的问题,是通常会以执行ResNet-50模型来进行测量。“ResNet-50并不是客户关心的测量基准,只是人们最常用的;”Tate解释:“这个模型不是非常重要的原因是,它使用非常小的影像。”

ResNet-50被使用了一段时间而且成为比较TOPS数据的既定标准,但现在被认为已经过时。虽然有很多继续使用这个标准的好理由,包括至少需要让所有接下来的分数能继续进行比较,还有这是所有类型设备(甚至是微小设备)都能使用的标准,但它不足以挑战现今为数据中心推理打造的巨大芯片,也不能充分显示它们的性能。

除了既定标准,当然也有不同的产业组织为AI加速器芯片开发出测量基准,例如MLPerf、DawnBench、EEMBC…等等。而尽管其中MLPerf已经公布了一批推理芯片的跑分结果,但Tate认为这个测量基准太“数据中心导向”。

他举例指出,在单数据流(single-stream)情境中,考虑边缘设备一次处理一个影像(样本数为1),性能指针为90百分位数(90th percentile)延迟;“在边缘,我不认为客户会想知道90百分位数,他们要知道百分之百:你能给我什么保证?”例如自动驾驶就是一个非常重视延迟表现的边缘应用。

像是对象侦测等复杂图像处理任务的表现性能,会更适合用来比较现在的高端AI加速器。

20191217-002.jpg
(来源:Flex Logix)

对于那些在信息于处理器核心与内存之间传递时会遭遇总线竞争(bus contention)的系统,长尾延迟(long tail latencies)是一个典型的问题。虽然目前有很多设备都使用了高带宽内存接口,但因为竞争可能发生,仍然会有一个理论上的尾延迟。

Flex Logix以FPGA为基础的推理处理器设计,号称每一次都有差不多的延迟时间(另一家AI加速器业者Groq也声称他们有同样的性能,但坚称其组件并非FPGA)。

Tate指出:“因为我们在核心中使用共同创办人发明的FPGA互连,有一个内存到乘法累加器(multiply accumulators)、再到触发逻辑并回到内存的专属路径,因此没有竞争问题;”信息流通顺畅,利用率没有到100%,但超越其他所有架构。

而尽管市场竞争激烈,AI加速器新秀如雨后春笋,Tate对于Flex Logix的前景信心十足;“当真正的芯片问世、开始执行软件并且展示,你也看到价格与性能…很快,市场上没办法跑到前四分之一的公司就消失不见。”

Tate预测,未来AI加速器领域只会有10~15家芯片公司的生存空间,以不同的市场(包括训练、推理、数据中心、边缘与超低功耗…等等)为基础;那些在市场上的解决方案在运算性能上跨越很大的数量级,因此不会全部都是直接彼此竞争。

他认为,未来一到两年就会有大量的公司被淘汰,套用一句投资之神巴菲特(Warren Buffett)的名言:“当潮水退去,你就会看到是谁在裸泳。”

编译:Judith Cheng   责编:Yvonne Geng

(参考原文: AI Accelerators: TOPS is Not the Whole Story,by Sally Ward-Foxton)

 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
  • 除了紫壳iPhone 12,苹果还发布了M1处理器的iPad Pro和i 只有1小时的苹果2021春季新品发布会,除了换壳的iPhone 12,苹果还带来了哪些新品呢?首先重头戏是8核M1芯片版的iPad Pro,这也是苹果继iPhone 12之后的第二条5G产品线;然后搭载M1芯片的iMac 也如约而至;爆料很久、却迟迟未见的AirTag也终于现身……
  • 低时延无线系统设计时,工程师都会考虑哪些因素? 无线通信网络的设计通常侧重考虑带宽、工作频率和时延等因素。本文将着重介绍实现低时延性能的设计考虑因素,特别是从设备首次接收到信号,到信号到达其最终目的地之间的时间如何实现最小化。
  • RISC-V一众开源硬件们,能否复制Linux的成功? 当前的RISC-V是一种开放的架构,作为一项标准提供,让开发人员可以自由、灵活且迅速地用它来进行产品设计。但另一方面,硬件更加复杂,有多层堆栈,因此不像软件包那样简单。本文针对RISC-V硬件生态系统的利益相关业者进行了调查,描述开源软硬件的相似性、导入的障碍以及支持社群和生态系统的重要性,最后并探讨开源硬件对商业芯片制造商的意义。
  • iFixit拆解小米11:拆卸方便,为减小厚度内部集成度相当高 iFixit 日前拆解了最新的小米11 手机。虽然外媒对小米11 的报导是“小米11 延续了小米高性价比的旗舰智能机市场战略”,而iFixit 的细致拆解分析表明,为了实现高性价比,小米11 确实在多个方面做了取舍,且大部分与手机的是使用寿命和耐用性有关。
  • 龙芯中科宣布自主指令系统架构LoongArch正式对外开放 目前在国内,构建自主可控的信息技术体系和产业生态已成为共识,同时自主产业生态企业也深切感受到,“在别人的墙基上砌房子,再大再漂亮也可能经不起风雨,甚至会不堪一击”,而指令系统就是信息产业的墙基,基于国外授权的指令系统难以建设自主的信息技术体系和产业生态。在这种情况下,开发自主指令集是规避风险的良策……
  • 国产CPU的技术研发线路和安全可信生态建设 在今年的IC领袖峰会上,来自天津飞腾的郭御风博士受邀作了题为“算力数智世界,用芯携手未来”的演讲。笔者借此机会专门采访了郭御风博士,并就国产CPU研发现状、技术线路规划和生态建设进行了深入交流。
  • 千亿级别的暴涨与暴跌的比特币为啥 比特币暴跌20%或有400亿美金资金爆仓,显卡行业也深受波及,而这背后一方面是政府的禁令频发,另一方面金融犯罪的案例被推到了台面上,再加持众多资本狂割韭菜使得整个市场乌烟瘴气。而纵观发展历史,速度快的CPU为何没有用武之地呢,本文来带你一探究竟。
  • EE快讯——华为2021第18届全球分析 2021年4月12日,华为在深圳举办了第18届华为全球分析师大会,会上华为徐文伟提出了未来10年九大技术挑战与研究方向;轮值董事长徐直军表示:6G比5G快50倍,将在2030年左右推出,同时表示要提升软件能力减少芯片依赖,对海思的态度是养得起,也会一直养着,对于业界一直猜测的麒麟9000芯片库存还有多少,徐直军表示:华为的库存可以支撑公司活得更长一点。另一方面,欧菲光的前途终于有了结果...
  • 紫光展锐:大破大立,做数字世界的生态 4月20日,以“构go”为主题的2021紫光展锐创见未来大会在线上举行。会上,展锐重磅发布了5G业务新品牌——唐古拉系列,推出了Cat.1bis新技术特性,并分享了创新业务AR领域的最新商用进展。此外,展锐重申了公司产业定位——数字世界的生态承载者,并公布了对消费电子业务和工业物联网领域的前瞻预见和战略规划。
  • 安谋中国发布全新“山海”S12解决 安谋中国今天发布面向 AIoT 系统的全栈安全解决方案“山海”S12,包含硬件加解密引擎、安全软件和安全服务三大部分,从芯片的安全 IP 层到云端安全应用和安全管理提供全链路的安全保护。“山海”S12可以广泛应用于智能手机、平板、智能电视及安防等行业,为多种安全解决方案如数字版权保护、AI 安全、身份认证等提供基础安全能力。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了