生成式人工智能应用的爆炸式增长,刺激了对人工智能服务器和处理器的需求飙升。目前,这些处理器中的大多采用计算式GPU,如英伟达的GPU。但随着DSP算法的快速发展,DSP是否也能满足AI处理器应用?这些高性能算法是否能够助力DSP取代GPU呢?针对这些问题,且看本文作者的观点分析。

作为一家人工智能芯片初创公司 ,位于加利福尼亚州圣克拉拉市的Lemurian Labs,发明了一种专为人工智能加速而设计的新对数数字格式,并正在为数据中心的人工智能工作负载构建一种利用该格式的芯片。

“2018年我在为机器人技术训练模型时,所用模型中包括部分卷积、部分Transformer和部分强化学习。”Lemurian首席执行官Jay Dawani在接受《电子工程专辑》采访时表示,“即便如此,在多达1万片(英伟达)V100 GPU上训练该模型,仍需要6个月时间……而如今,模型数量呈指数级增长,但很少有人有足够的算力来尝试(这种训练),于是很多工程师的好想法就这样被放弃了。于是,我便一直试图为那些有好点子、但又缺乏算力的普通机器学习工程师构建合适的模型”。

对Lemurian尚未推出的首款芯片进行的仿真结果显示,在新的数字系统和定制设计芯片加持下,其性能将超过英伟达的H100(基于H100最新的结果)。在离线模式下,针对MLPerf版本GPT-J的Lemurian芯片,仿真结果为每秒每片可处理17.54次推理(而H100在离线模式下每秒可处理13.07次推理)。从数字上看好像快得并不多,但Dawani透露,该仿真结果可能还不到真实芯片性能的10%,而且他的团队今后还打算从软件中挖掘更多性能。他认为,通过软件优化再加上稀疏性,还可将性能再提高3~5倍。

对数数字系统

Lemurian的秘诀在于其称之为PAL(并行自适应对数)的新数字格式。

“之所以乐于采用8位整数量化,是因为从硬件角度来看,这是我们所拥有的最有效东西。”Dawani解释道,“其实,并没有哪位软件工程师一定要8位整数!” 

对于当今的大语言模型推理而言,INT8的精度已被证明是不够的,因此业界已转向FP8。但Dawani解释说,人工智能工作负载的性质,意味着数字经常处于非规格范围——接近零区域,而FP8在该区域能表示的数字很少,因此精度较低。FP8在非规格范围内的覆盖率存在差距,这也是许多训练方案需要BF16和FP32等更高精度数据类型的原因。

图1:各种数字格式的覆盖范围比较。与可配置的浮点8(CFP8)、整数8(INT8)和现有对数数字系统8(LNS8)相比,Lemurian的8 位对数数据类型PAL8能够更好地覆盖非规格范围。(来源:Lemurian Labs)

Dawani公司的联合创始人Vassil Dimitrov提出了一个想法,即利用多个底数和多个指数,对已在DSP领域应用了几十年的现有对数数字系统(LNS)进行扩展。

“可以通过交织多个指数的表达式,来重建浮点的精度和范围。”Dawani表示:“这样可以让覆盖范围更广……它自然而然地创建了一个锥形轮廓,在非规格范围内、在重要的地方具有非常高的精度范围。”

这一精度范围可以通过偏置覆盖所需的区域,这与浮点的工作原理类似,但Dawani指出,与浮点相比,它可以对偏置进行更精细的控制。

Lemurian开发的PAL格式从PAL2一直到PAL64,其中14位格式与BF16相当。与FP8相比,PAL8获得了额外的精度,大小约为INT8的1.2倍。Dawani希望其他公司今后也能采用这些格式。

“希望更多的人去采用它,因为该摆脱浮点了。”Dawani表示,“PAL可用于目前使用浮点的任何应用,从DSP到HPC以及两者之间,而不仅仅是人工智能,尽管这是我们目前的重点,也更有可能与其他公司合作(为这些应用构建芯片),促进他们采用该格式。”

对数加法器

由于LNS简化了乘法运算,因此它在大多数运算为乘法运算的DSP工作负载中使用已久。LNS表示的两个数的乘法,其实就是两个对数的加法。然而,将两个LNS数字相加却比较困难。DSP传统上使用大型查找表(LUT)来实现加法运算,虽然效率相对较低,但如果所需的大部分运算都是乘法运算,这种方法已经足够好了。

对于人工智能工作负载来说,矩阵乘法需要乘法和累加。Lemurian的秘诀之一是用硬件实现对数加法,Dawani透露道。

“我们完全摒弃了LUT,创建了一个纯对数加法器。”他表示,“我们有一个比浮点精确得多的加法器。目前仍在进行更多的优化,看能否使它更便宜、更快速。目前,其PPA(功耗、性能、面积)性能已经比FP8高出两倍多。”

Lemurian已为这款加法器申请了多项专利。

“DSP成功的原因在于,对工作负载进行观察,并用数字方法理解它要做什么,然后加以利用,并在硅片上予以实现。”Dawani表示,“这与我们正在做的事情不谋而合。不过,我们并不是在构建只做一件事的ASIC,而是在研究整个神经网络空间的数值,并构建了一个具有适量灵活性的特定领域架构。”

图2:Lemurian数据流架构的高级视图。该芯片是围绕该公司的对数系统设计的。(来源:Lemurian Labs)

软件堆栈

要想高效地实现PAL格式,需要同时得到硬件和软件的支持。

“我们花了很多精力去思考如何让(硬件)更容易编程,因为除非能让工程师的生产力成为加速的第一要素,否则任何架构都不会成功。”Dawani表示,“不得已时,宁愿要一个(糟糕的)硬件架构和一个优秀的软件栈,也不要相反。”

Dawani透露,Lemurian早在开始考虑硬件架构之前,就已经构建了大约40%的编译器。如今,其软件栈已经开始运行,Dawani希望保持它的完全开放性,这样用户就可以对自己的内核和融合进行编写。

上述堆栈包含Lemurian的混合精度对数量化器Paladynn,可将浮点和整数工作负载映射为PAL格式,同时保持精度不变。“我们采纳了神经架构搜索中已有的很多想法,并将它们应用到量化过程中,目的是想让这部分变得更简单。”他补充道。

虽然卷积神经网络相对容易量化,但Transformer则不然。激励函数中存在需要更高精度的离群值,因此总体上Transformer可能需要更复杂的混合精度方法。不过Dawani表示,他们的多项研究工作进度表明,到Lemurian的硅芯片上市时,Transformer可能还不会出现。

未来的人工智能工作负载,可能会遵循谷歌的Gemini和其它产品设定的路径,即运行非确定的步数,这将打破大多数硬件和软件堆栈的假设。

Dawani认为:“如果事先不知道模型需要运行多少步,不知道该如何安排它,也不知道需要多少算力,那么就需要一些更动态的东西,这将影响我们的很多想法。”

该芯片将是一款300W的数据中心加速器,配备128GB HBM3,可提供3.5POPS的高密算力(稀疏性将稍后推出)。总体而言,Dawani的目标是打造一款性能优于H100的芯片,并使其在价格上与英伟达上一代A100具有可比性。目标应用包括(任何行业中的)内部人工智能服务器和一些二级或专业(非超大规模)云业务公司。

Lemurian团队目前有27人,分布在美国和加拿大,公司最近筹集了900万美元的种子资金,目标是在今年第二季度发布首款量产版软件栈,并在接下来的第三季度推出其首款芯片。Dawani透露,目前对于欲“深入了解详情”的客户,公司已可以提供虚拟开发工具包。

(原文刊登于EE Times美国版,参考链接:Can DSP Math Help Beat The GPU for AI?,由Franklin Zhao编译。)

本文为《电子工程专辑》2024年4月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
RISC-V 在新兴应用中具有意义,因为这些领域的开发人员尚未拥有现成的 Arm 产品。人工智能的兴起、用例和功能的增加意味着许多新领域正在萌芽,而RISC-V在所有这些领域都具有潜力……
AI PC现在是个热词,连苹果都打算入局了,6月份的WWDC上大概就能见到。本文尝试盘点AI PC的竞争现状与实质...
AR9481采用12nm工艺,针对市场对高算力、高效能和低功耗的需求打造,具备高CPU主频、高NPU算力、多光谱传感器感知能力、强CV处理能力、宽电压工作范围、低功耗设计等特点……
EIC7700X包括EIC7700/7702及其加强版EIC7700X/7702X,其中EIC7700X是一款性能优异的边缘计算SoC芯片,EIC7702X是一款高算力AI PC芯片。全系产品搭载64位RISC-V乱序执行CPU及自研高性能NPU……
值得一提的是,美国最近几年在产业扶持上大把“撒钱”,比如《芯片与科学法案》《通货膨胀削减法案》,加上高企不下的通货通胀,如果再将巨额的资金投入到AI技术上,将面临较大的财务挑战。
随着气候变化的影响,人们对了解海洋的需求日益迫切,使用遥控潜水器(ROV)和自主水下航行器(AUV)收集数据开始面临独特的挑战。它们的建造和维护成本高昂,通常需要大量专业人员进行部署和回收。它们的庞大体积也给执行任务时的灵活性和机动性带来了挑战。
工程师对某个方案的选取,需要考虑系统性能,器件参数,成本等多个因素。HP1010 的测试数据证实,图腾柱拓扑在收获高效的同时, 可以安全可靠的运行;结合特有的控制算法,电流互感器方案简洁灵活,并且CBC保护性能出色。
2024年第一季度全球云基础设施服务支出同比增长21%,达到798亿美元,增加134亿美元。三大云提供商——AWS、微软Azure和谷歌云——合计增长了24%,占总支出的66%。
当前,5G发展已行至中场,5G Advanced正在加速落地,不仅将进一步释放5G全部潜能,还将为6G奠定技术基础,加速推动未来十年的创新。
Ampere Computing® 今天正式发布年度战略和产品路线图更新,重点介绍 Ampere 在可持续、高效能计算的云和人工智能计算方面的持续创新和发明。
点击上方蓝字谈思实验室获取更多汽车网络安全资讯近日,极星汽车在官网发布消息称,由于未及时提交截至2023年12月31日财年的年度报告,极星汽车已收到纽约纳斯达克证券交易所的通知,通知称极星汽车不符合纳
电池技术一直以来是光伏技术路线之争的焦点。光伏行业里突破性的技术创新往往能重塑行业格局。钙钛矿电池作为火热的下一代光伏技术,几次三番站上风口浪尖。2023年,从小面积到大尺寸、高效率,从实验室到生产线
研究机构Canalys公布2024年第一季度全球智能手机SoC芯片厂商数据,包括出货量以及手机总营收额。联发科保持出货量领先地位,市场份额达39%,而苹果在智能手机总营收方面占据41%的份额,位居第一
NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。本期是解读 NVIDIA GTC 2024 发布的新技术第五期。以下四个知乎甄选问答将为您带来更多关于 NV
根据合肥安赛思半导体有限公司(以下简称:安赛思)官方消息,5月18日,安赛思与新加坡三福半导体科技有限公司(以下简称:三福半导体)签署战略合作备忘录仪式暨安徽大学与三福半导体联合实验室揭牌仪式正式举行
来源:德国之音据报道,中国与西方国家的贸易争端进一步升级:5月19日,中国商务部发布公告,对原产于欧盟、美国、台湾地区、日本的进口共聚甲醛进行反倾销立案调查。这种化工产品广泛应用于汽车配件、电子电器、
根据中国台湾业界透露,苹果公司首席运营官杰夫·威廉姆斯(Jeff Williams)日前低调前往中国台湾,访问台积电,获得台积电总裁魏哲家亲自接待。消息称双方讨论话题包括苹果发展自研人工智能(AI)芯
Perovskite 2024,您共同参与寻找产业解决方案,打造中国光伏名片!第二届钙钛矿材料与器件产业发展论坛2024年5月26-28日江苏·苏州 苏州香格里拉大酒店论坛特邀安徽华晟新能源科技股份有
插播:6月14日,汇川、锦浪、英飞凌、芯联动力、三安、天岳、扬杰科技、蓉矽、普兴、合盛、晶亦精微、希科、丰田商社、大族、泰克、志橙及泽万丰等邀您参加上海SiC大会,详情请点击文末【阅读原文】。SiC已
5月20日, Y200系列新品发布会推出vivo Y200,vivo Y200 GT以及vivo Y200t三款新品,全系标配6000mAh大电池。敏锐洞察到用户对长续航和轻薄耐用的使用刚需,本次新品