广告

详解FPGA如何实现FP16格式点积级联运算

时间:2020-08-17 作者:杨宇 阅读:
通过使用Achronix Speedster7t FPGA中的机器学习加速器MLP72,开发人员可以轻松选择浮点/定点格式和多种位宽,或快速应用块浮点,并通过内部级联可以达到理想性能。
广告
ASPENCORE

神经网络架构中的核心之一就是卷积层,卷积的最基本操作就是点积。向量乘法的结果是向量的每个元素的总和相乘在一起,通常称之为点积。此向量乘法如下所示:RMJEETC-电子工程专辑

图 1:点积操作RMJEETC-电子工程专辑

该总和S由每个矢量元素的总和相乘而成,因此 RMJEETC-电子工程专辑

本文讲述的是使用FP16格式的点积运算实例,展示了MLP72支持的数字类型和乘数的范围。RMJEETC-电子工程专辑

此设计实现了同时处理8对FP16输入的点积。该设计包含四个MLP72,使用MLP内部的级联路径连接。每个MLP72将两个并行乘法的结果相加(即),每个乘法都是i_a输入乘以i_b输入(均为FP16格式)的结果。来自每个MLP72的总和沿着MLP72的列级联到上面的下一个MLP72块。在最后一个MLP72中,在每个周期上,计算八个并行FP16乘法的总和。RMJEETC-电子工程专辑

最终结果是多个输入周期内的累加总和,其中累加由i_first和i_last输入控制。 i_first输入信号指示累加和归零的第一组输入。 i_last信号指示要累加和加到累加的最后一组输入。最终的i_last值可在之后的六个周期使用,并使用i_last o_valid进行限定。两次运算之间可以无空拍。RMJEETC-电子工程专辑

●配置说明RMJEETC-电子工程专辑

表 1:FP16点积配置表RMJEETC-电子工程专辑

●端口说明RMJEETC-电子工程专辑

表 2 :FP16点积端口说明表RMJEETC-电子工程专辑

●时序图RMJEETC-电子工程专辑

图 2 FP16点积时序图RMJEETC-电子工程专辑

其中,RMJEETC-电子工程专辑

RMJEETC-电子工程专辑

那么,以上运算功能如何对应到MLP内部呢?其后的细节已分为MLP72中的多个功能阶段进行说明。RMJEETC-电子工程专辑

●进位链RMJEETC-电子工程专辑

首先请看下图,MLP之间的进位链结构,这是MLP内部的专用走线,可以保证级联的高效执行。RMJEETC-电子工程专辑

图 3 :MLP进位链RMJEETC-电子工程专辑

●乘法阶段RMJEETC-电子工程专辑

下图是MLP中浮点乘法功能阶段,其中寄存器代表一级可选延迟。RMJEETC-电子工程专辑

图 4 :MLP乘法功能阶段框图RMJEETC-电子工程专辑

MLP72浮点乘法级包括两个24位全浮点乘法器和一个24位全浮点加法器。两个乘法器执行A×B和C×D的并行计算。加法器将两个结果相加得到A×B + C×D。RMJEETC-电子工程专辑

乘法阶段有两个输出。下半部分输出可以在A×B或(A×B + C×D)之间选择。上半部分输出始终为C×D。RMJEETC-电子工程专辑

乘法器和加法器使用的数字格式由字节选择参数以及和参数设置的格式确定。RMJEETC-电子工程专辑

浮点输出具有与整数输出级相同的路径和结构。MLP72可以配置为在特定阶段选择整数或等效浮点输入。输出支持两个24位全浮点加法器,可以对其进行加法或累加配置。 进一步可以加载加法器(开始累加),可以将其设置为减法,并支持可选的舍入模式。RMJEETC-电子工程专辑

最终输出阶段支持将浮点输出格式化为MLP72支持的三种浮点格式中的任何一种。 此功能使MLP72可以外部支持大小一致的浮点输入和输出(例如fp16或bfloat16),而在内部以fp24执行所有计算。RMJEETC-电子工程专辑

图 5:MLP浮点输出阶段框图RMJEETC-电子工程专辑

需要强调的是本设计输入和输出都是FP16格式,中间计算过程,即进位链上的fwdo_out和fwdi_dout 都是FP24格式。具体逻辑框图如下所示:RMJEETC-电子工程专辑

图 6: FP16点积逻辑框图RMJEETC-电子工程专辑

MLP内部数据流示意图:RMJEETC-电子工程专辑

图 7:FP16点积在MLP内部数据流图RMJEETC-电子工程专辑

最终ACE的时序结果如下:RMJEETC-电子工程专辑

RMJEETC-电子工程专辑

作者:杨宇,Achronix资深现场应用工程师RMJEETC-电子工程专辑

责编:Amy GuanRMJEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • AI芯片:技术发展方向及应用场景落地 经过几年的喧闹后,AI应用场景的落地成为最大难题。AI芯片的设计不是简单的高性能微处理器硬件设计,而是涉及应用场景特定需求和算法的软硬件一体化设计。那么,AI芯片的技术发展未来在哪里?如何真正实现AI场景落地实施和商用呢?
  • WSJ:AMD就收购赛灵思进行深入谈判 10 月 9 日消息,华尔街日报(WSJ)援引知情人士消息称,AMD 正在就收购竞争对手、可编程逻辑芯片制造商赛灵思(Xilinx)公司展开深入谈判。这笔交易的价值可能超过 300 亿美元……
  • 将FPGA打造成为边缘智能时代的桥梁枢纽 “技术和产品架构带来的低功耗特性是我们的核心竞争力!”莱迪思(Lattice)亚太区总裁Jerry Xu在接受《电子工程专辑》专访时,向我们展示了Lattice如何依托核心竞争力,在通信、数据中心、汽车、AI和工业IoT等领域中走出一条和其它FPGA玩家截然不同的道路。
  • “新基建”需要什么样的创新国产IC? 今年四月,国家首次明确了“新基建”的范围后,新需求为国产芯片打开了更大的市场。今年的第十届松山湖中国IC创新高峰论坛,以“新基建”最需要的创新国产IC为主题,推介了10款国内先进的IC新品,展示了国内集成电路产业发展的蓬勃生机。
  • 百度AI芯片昆仑1已量产,昆仑2采用7nm性能提升3倍 据透露,百度昆仑1已量产,采用三星14nm工艺,已在百度搜索引擎及云计算用户部署2万片,相比T4 GPU 性能在不同模型下提升1.5-3倍。在本次会议上,同时预发布了采用7nm 先进工艺的百度昆仑2……
  • O-RAN+虚拟化,5G运营商的新宠让电信加速卡秒变竞争“新 数据显示,Open-RAN未来的市场份额有望从2021年的不到10%快速升至2025年的30%,而作为目前业界唯一一款既能运行O-RAN前传协议,又能提供L1层卸载功能的多功能PCIe尺寸规格板卡,赛灵思T1加速卡的出现,能够更好地帮助客户解决Open vRAN市场在O-DU领域面临的挑战。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了