广告

阿里公布首款AI芯片含光800最新进展:三大AI应用中性能显著提升

时间:2020-09-19 16:35:30 作者:雷锋网 阅读:
阿里首款AI芯片含光800最新进展到底怎样?在AI应用中的性能如何?如何购买含光800?阿里落地的AI应用会有哪些?
广告
EETC https://www.eet-china.com

2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短的介绍了阿里首款AI芯片含光800,这款当时最强AI推理芯片的一发布就引发了巨大关注,可谓高调亮相。今年的阿里线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,图像视频审核,拍立淘等。”

更引人关注的是含光800在具体应用中的表现。

含光800未对外发售,性能通过阿里云输出

科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也表示,阿里巴巴内部有广阔的AI应用,包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

一个典型的例子就是拍立淘,两千多万的日活用户在使用这项功能的时候,要透过一张图片,在4亿多的商品中搜索,在30多亿张图片多库中进行匹配,根据用户的使用习惯进行个性化推荐,这就需要很强的AI能力。

阿里云异构计算产品研发总监龙欣

因此,阿里希望通过自研的含光800从硬件到软件的方案提升性价比。做个简单的回顾,含光800在硬件方面有三个方面的特色,包括:

深度优化CNN及视觉类算法

  • 加速卷积和矩阵乘,支持反卷积、孔洞卷积、3D卷积、插值、ROI等

  • 针对 ResNet-50、SSD/DSSD、 Faster-RCNN、Mask-RCNN、DeepLab等模型优化

高能效、低延时

  • 高密度的计算与存储,极大减少I/O需求

  • 软硬协同支持权重的稀疏压缩,计算的量化压缩

指令集支持可编程模型扩展

除INT8/INT16量化加速外,也覆盖FP16/BFP16的向量计算除直接加速各种ReLu、 Sigmoid、Tanh等,也可支持未来新型激活函数

也就是说,含光800的硬件特别针对CNN算法模型进行设计,但也保持一定的灵活性,再匹配全栈的软件支持在特定应用和算法中实现高性价比。去年张建锋发布含光800时说,“在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。”

不过龙欣在昨天的分享中并没有提及含光800的峰值性能,而是强调其可用性。他表示,“含光800作为并没有在公开市场发售的芯片,通过阿里云输出。”

为了让含光800能够开箱即用,阿里云让购买实例的用户可以自动安装NPU驱动和SDK,系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,提供TensorFlow、MXNet示范教程。

龙欣强调,含光800的应用主要是在数据中心和大型端上,以CNN类模型推理加速为主,可扩展到其他DNN模型中。目前在具体的应用中相比GPU有4-11倍性能提升。

含光800在三大AI应用中4-11倍的性能提升

去年含光800发布时给出的数据是,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

昨天的分享中,龙欣给出的最新数据是,在行人检测应用中,4核含光800克支持100路视频,比主流GPU 25路的推理性能提升4倍。在车辆检测中,同样是4核含光800,可以支持85路视频,比主流GPU支持10路推理性能提升了8.5倍。

在直播、短视频、商品信息流等内容识别应用中的ResNet50 V2模型中,含光800(4核)的帧率可以达到20000 FPS,比主流推理GPU的1800 FPS性能提升11倍,性能加速比11倍。在Inception V4模型中,含光800(4核)的处理帧率达到5000 FPS,比主流推理GPU的460FPS性能加速比高10.8倍。

还有,在直播、点播、短视频等视频质量增强中。4核含光800的直播视频增强性能为500 FPS,对比主流推理GPU的50 FPS,性能加速比是10倍。在点播HDR中,4核含光800多性能是66 FPS。龙欣说:“点播HDR需要用到性能比较强的训练GPU,比如英伟达A100,但即便如此其性能智能达到10 FPS,我们可以实现6.6倍的性能加速比。”

至于在语音交互、自然语言理解等语言方面的应用实例优势,龙欣并未在今年的云栖上给出数据。

EETC https://www.eet-china.com
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 苹果AirPods 3有望配U1芯片, 或等iOS14.6发布同期上市 近日海外媒体有传来关于AirPods 3发布上市最新消息,预测是最早将于本月首次亮相。,也有推测Apple Music的无损音质可能会和AirPods 3一起发布。根据iOS beta之前的更新,iOS14.6的官方版本有望在下个月推出,可能也是AirPods 3的上市日期。
  • 苹果iPhone 12很可能没有耳机 iOS 14代码版本中深处的一个新漏洞似乎强烈表明,苹果公司即将发布的新iPhone,其包装盒很可能没有EarPods耳机。这与分析师Ming Chi-Kuo的预测一致,因为苹果正努力减少其大容量设备提供的配件数量,因此新的iPhone 12系列将不附带电源适配器或EarPods。
  • LCD和OLED要淘汰?Mini LED技术蓄势待发,告别烧屏迎来大屏的王者 晚春”的苹果发布会已经结束,在这里给我们带来了众多吸引眼球的产品,包括新款 iMac、iPad Pro、Airtag。其中最强iPad Pro搭载一块Mini LED材质的屏幕引起了广泛关注,虽然已被业界传闻多时,但是这项技术的优势究竟何在?
  • 国产华星光电真全面屏AMOLED出货,小米旗舰新品将采用 2019年,真全面屏形态早已实现,通过升降前摄、双屏、翻转摄像头、滑盖结构来实现。智能手机实现真全面屏,肯定是2021年终极追求目标
  • iPhone 4到iPhone 5S弃用圆润设计,12系列回归方正握持感怎样昵? 手机设计界别封神的苹果,今天已经发展到12系列新款手机了!
    选择iPhone 4到iPhone 5S用直角造型来实现差异化,设计感或者更激进的审美,实际上放弃了一部分舒适度,对于手感来说无疑是一种倒退。在方正的设计带来的新鲜感和新机销量的刺激面前,或许是苹果不会在意的一个细节。
  • 英特尔将用先进半导体封装技术,助美国军方开发出芯片原型 英特尔集团当地时间周五宣布,将在位于亚利桑那和俄勒冈州的工厂中使用自家的半导体封装技术,助力美国军方开发出芯片原型。这种封装技术能够将来自不同供应商的“小芯片(chiplets)”被集成到一个封装中,从而实现把更多功能整合进一个更小的成品中,同时降低其能耗。
  • 特斯拉Model 3交付时间延长到2个月 随着市场的回暖,特斯拉销量最大的型号Model 3交货时间延长,消费者需要2个月才能提到车。
  • 苹果投资10亿欧元解决“芯片短缺”,在德国萨克森州建设芯片设计 从2020年开始的芯片短缺,“芯片荒”已经在全球蔓延,手机、汽车、无人机等各大行业都受到波及。但戏剧性的是,这也让有德国硅谷之称的萨克森州的芯片行业迎来飞速发展的机遇。最近,苹果和全球著名芯片生产商英飞凌、博世和格芯就先后宣布在萨克森州的投资计划,分别是:苹果10亿欧元,英飞凌24亿欧元,博世10亿欧元,格芯14亿欧元,共计58亿欧元,超69亿美金,近450亿人民币。
  • 百度创始人李彦宏在WAIC 2021的演讲全文:谈人工智能与汽车变革力 百度的智能汽车有没有期待?目前进展如何了呢?具体我们一起看看百度创始人李彦宏在 WAIC 2021 的演讲全文详细讲解!
  • 2022QS世界大学排名榜完整版:分数指标及权重分别多少(中国清华北 今年全国高考已结束,高考后想要留学的看过来,高考分数可以让你就读世界名校,享受优质教育资源。看看最新2022QS世界大学100强震撼发布,实至名归的麻省理工第一、牛津大学第二,看看我国有几所大学入榜,清华北大排在哪?对此世界大学榜单,你怎么看?
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了