向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

Flex Logix 发布InferX™ X1 8TOPS高性能,低功耗,低成本AI边缘推理芯片

时间:2019-04-11 作者:Flex Logix 阅读:
2019年4月10日, Flex Logix Technologies, Inc. 宣布,其在拥有数个专利的业界领先的eFPGA互连技术上,结合专为AI推理运算而优化的nnMAXtm乘加器(MAC), 研发了 InferXtm X1边缘推理芯片。

2019年4月10日, Flex Logix Technologies, Inc.  宣布,其在拥有数个专利的业界领先的eFPGA互连技术上,结合专为AI推理运算而优化的nnMAXtm乘加器(MAC), 研发了 InferXtm X1边缘推理芯片。今天在美国硅谷举办的Linley Processor Conference,Flex Logix介绍了 InferX X1芯片及其性能。作为一款针对于边缘AI推理应用的芯片,InferX X1有着极高的 MAC 利用率以及出众的能效比 — 只需要一颗x32的DRAM, 就可以达到8TOPS的算力。这在边缘推理这种只需 low batch size 的应用场景中显得极为重要。与现有的解决方案相比,InferX X1能以更低的功耗,更低的成本,提供更高的算力。4WuEETC-电子工程专辑

4WuEETC-电子工程专辑
InferX X1可以支持语音,图像,视频等任何基于TensorFlow-Lite或ONNX的模型和算法,特别适用于大型的模型算法和实时识别。例如YOLOv3实时物体识别算法,InferX X1在batch=1的情况下,可以对1Megapixel图像 达到25.4帧每秒(fps)的吞吐量。对2Megapixel高清图像达到12.7帧每秒(fps)。而达到这样的高吞吐量只需要用到一个x32的DRAM。4WuEETC-电子工程专辑

InferX 支持INT8,INT16,BF16并可以在不同的算法层混合使用,方便客户根据自己的需求来优化吞吐量和算法精度。InferX还内置有Winograd变换来加速INT8计算卷积,芯片会自动对适用的矩阵乘法来实时转换weights到Winograd模式,得到将近2.25倍的性能提升。由于InferX的Winograd是用12bits来计算的,所以精度不会有损失。4WuEETC-电子工程专辑

Flex Logix提供客户完整的软件开发环境。客户可以直接将基于TensorFlow-Lite或ONNX的算法直接用Flex Logix的nnMAX Compiler软件来编译。4WuEETC-电子工程专辑

Flex Logix将提供InferX X1芯片。芯片可以通过扩展口来连接数个芯片以增加算力。Flex Logix同时还会提供搭载InferX X1的半高半长PCIe卡给Edge Server和gateway客户。4WuEETC-电子工程专辑

“设计边缘神经网络推理芯片的一个难题是如何降低大量的数据交换及降低功耗,而我们的可编程互连技术是接近完美的解决方案。”Flex Logix CEO Geoff Tate说。”在运算一层网络的时候,我们利用可编程互连将InferX的MAC根据这一层网络的dataflow来连接,等于是专为这一层运算配置了一个ASIC。同时对下一层网进行络pre-load,以实现在这一层运算完后可以最快速地配置下一层。同样的可编程互连也与片上的SRAM连接,将这一层的输出,快速配置成下一层的输入,从而避免了大量的数据交换。所以InferX只需要一颗x32 DRAM就够了。这让我们可以将芯片设计得更小,大大降低了功耗和成本。”4WuEETC-电子工程专辑

Geoff Tate还说, “我们还在芯片里加上了Winograd来加速INT8的运算,这让客户在选择INT8时能得到更高的吞吐量。而同时我们也支持BF16,让对精度更在意的客户在需要时也能运用。客户可以选择根据自己的需求在不同的网络层混合运用来到达高精度,高吞吐量。”4WuEETC-电子工程专辑

一个创新的可编程互连技术,两个高速成长的产品线

Flex Logix在其拥有十余个专利的创新可编程互连技术上研发了EFLX eFPGA IP. Flex Logix已经成为eFPGA IP市场的领先者,已有包括大唐辰芯,美国波音,SiFive RISC-V等十余个客户正在应用Flex Logix的eFPGA IP。4WuEETC-电子工程专辑

最新研发的nnMAX AI IP,即InferX芯片中使用的新推理架构,利用了同样的可编程互连技术,并结合了专为AI推理而设计的乘加器(MAC)和存储单元。这些乘加器能支持INT8, INT16, BF16等AI算法里常见的精度数字。每一颗nnMAX IP单元拥有1024个乘加器以及相应的SRAM,在16nm制程上可以提供2 TOPS的算力。nnmAX IP单元可以根据需求拼接成NxN的阵列,最大可以提供超过100 TOPS的算力。4WuEETC-电子工程专辑

Flex Logix在InferX X1芯片里集成了4个nnMAX IP单元,提供8 TOPS的算力。4WuEETC-电子工程专辑

时间表

InferX X1推理芯片计划于Q3 2019流片,样片和PCIe板可于年底提供。基于台积电16nm的nnMAX IP将于Q3 2019提供授权给客户用于集成到客户自己的ASIC或SoC. 感兴趣的客户可以访问 www.flex-logix.com 来获得我们在 Linley Processor Conference发布的胶片,或联系Flex Logix亚太区销售jim@flex-logix以获取更多信息。4WuEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣的文章
  • 初创公司用整块晶圆做出史上最大芯片 初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列,旨在取代英伟达(Nvidia) GPU在训练神经网络方面的主导地位。这颗面积达到46,225平方毫米的芯片功耗为15千瓦,封装了400,000个内核,并且仅支持在极少数系统中运行,至少已有一家客户采用……
  • 清华开发出全球首款异构融合类脑芯片“天机” 近年来,人工智能技术发展很快,但多数是从某个领域接近或超过人类智能,距离达到人类水平的人工通用智能(AGI,Artificial General Intelligence)还有很长的路要走。发展人工通用智能的方法主要有两种,一种是以神经科学为基础,尽量模拟人类大脑;另一种是以计算机科学为导向,让计算机运行机器学习算法。二者各有优缺点,但都代表人脑处理信息的部分模式。最新一期 《自然》 封面刊登了清华大学开发出的全球首款异构融合类脑芯片“天机”,提出了将神经科学与计算机科学异构融合的架构……
  • 英特尔:效率达CPU一万倍的神经形态芯片发布 近日,英特尔(Intel)官方宣布,英特尔研发一款名为“Pohoiki Beach”的新型神经形态芯片系统产品,该芯片系统是受人类大脑思维方式所启发,将生物大脑原理应用于计算机体系结构。
  • 都在围观最新CPU/GPU,Arm中国这个动向你可曾关注? “孙正义曾说大约在2035年左右,全球可能会有1万亿个在线连接的AIoT设备。坦白的讲,这并不是一个很激进的数字。”Arm中国生态发展副总裁、OPEN AI LAB创始人兼CEO金勇斌日前在接受媒体采访时称,从1991年到2017年,Arm花了26年的时间才实现了1000亿片Arm架构芯片的出货。
  • 利用本性、借力培育打造令人惊叹的AI SoC 将高级AI功能集成到SoC中经常会暴露SoC架构的软肋。 SoC的DNA(其“本性”)强壮程度依赖于其设计环境(其“培育”)所赋能。了解如何选择合适的工具和流程,特别是正确的IP,可以帮助你培育表现出色的AI SoC。探索Synopsys的 DesignWare IP,可助你实现令人惊艳的AI。
  • AI从云端走向边缘需要这样一颗芯片 人工智能(AI)在自动驾驶、物联网和机器人技术中的应用离不开数据处理。目前终端设备需要将采集的大量数据,包括图像、视频、音频等,通过网络传输至数据中心进行AI相关的处理,然后再将结果返回至终端设备。这就带来了网络带宽、数据传输稳定性及安全性等问题。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告