Transformer大模型面世之后,场景应用的AI智能边际成本会大幅降低,因为它不太需要再为这些长尾的场景做专门的适配,预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”,一经部署就能达到比较好的效果,从而推动AI在端侧和边缘侧更大范围内的普及和提升。 

Transformer是当前各种大模型所采用的主要结构。从技术角度看,ChatGPT的爆发是深度学习领域演进、发展和突破的结果,背后代表着Transformer结构下大模型技术的飞速进展。

AI新范式拐点的到来

类似ChatGPT的大模型,其核心网络结构均基于Google 2017年的论文提出的Transformer的论文《Attention Is All You Need》。爱芯元智将其称之为“新范式拐点的到来”,认为Transformer大模型虽然本质上是一个预训练的模型,但却改变了传统的开发范式,因为它将构成复杂系统的三部分(如下)中的模型系统的使用成本大幅度降低。数字系统或是复杂场景,都可以分为三大部分:

  • “信息”系统(subsystem of information),从环境当中获得信息;
  • “模型”系统(subsystem of model),对信息做一种表达,进行推理和规划;
  • “行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。

“2022-2023年的拐点是什么?是大模型的出现让获取知识的边际成本开始变成固定成本。”奇绩创坛创始人兼CEO陆奇在4月的一次演讲中称,“一定要记住,任何改变社会、改变产业的,永远是结构性改变。这个结构性改变往往是一类大型成本,从边际成本变成固定成本。”

他举例说,自己在美国读书时,一张地图3美元,获取信息很贵。但后来,Google平均一年付10亿美元做一张地图,每个用户获得地图信息的代价基本上是0。也就是说,当获取信息成本变为0的时候,它一定改变了所有产业。这就是过去20年发生的,今天基本是free information everywhere(免费的信息无处不在)。

而ChatGPT能在历史上第一次两个月1亿活跃用户,挡都挡不住,为什么?因为,

1. 它封装了世界上所有知识。

2. 它有足够强的学习和推理能力。

3. 它的领域足够宽,知识足够深,又足够好用。

加在一起,范式的临界点到了,拐点已经到来。

边缘侧部署Transformer为什么难?

近几年Transformer大有取代卷积神经网络(CNN)之势,因为它可以获取全局特征,有一定的知识迁移性,能够很好地适应各种场景,不仅在COCO榜单上处于霸榜状态,很多以CNN为主的框架也已经切换到了Transformer。

目前来看,Transformer大模型在云端主要还是通过GPU部署,在边缘侧、端侧硬件支撑方面,则更多依赖NPU实现对神经网络的加速。“这倒不是指CPU不能运行Transformer模型,只是它的运行速度无法满足实际应用落地需求。”爱芯元智联合创始人、副总裁刘建伟表示,之所以要强调速度,一是神经网络速度快,意味着终端设备可以运行更多类型的智能网络,更智能;二是即便不需要跑那么多类型的网络,那么某种程度上就可以把神经网络规模做大,提高精度。

另一方面,尽管CNN和Transformer都属于神经网络,但Transformer的计算访存比比CNN低,精度和灵活度高,而此前市面上的一些NPU主要针对CNN网络做了一些过拟合的设计,导致在部署Transformer网络时遇到了功耗、效率等诸多问题,现在需要找到合适的新算力平台,并在算法侧找到能降低大参数模型带宽的新途径。近年来Transformer被广泛应用到计算机视觉的物体分类领域,例如ViT、SwinT等,以及用在目标检测领域的DETR(DEtection TRansformer)。

其实,Transformer大模型方向在2019年就有人提出,当时在思路和训练方法上与传统CNN也并无太大差别,只知道“上限更高”。但近两年,随着自然语言处理(NLP)领域的突飞猛进,大模型通过无监督或是自监督的方式进行训练,正成为AI领域新的趋势。

爱芯元智在研发实践中发现,在以往的AI加速应用中,标准化的人、车、车牌类识别应用做得很好,但在一些更加通用的场景中,落地之所以不那么顺利,是因为它需要用户做更加有针对性的投入,且费用不低。而Transformer大模型面世之后,场景应用的AI智能边际成本会大幅降低,因为它不太需要再为这些长尾的场景做专门的适配,预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”,一经部署就能达到比较好的效果,从而推动AI在端侧和边缘侧更大范围内的普及和提升。 

以河道垃圾监测为例:当河道上出现了一种垃圾,传统流程是采集数据—标注—训练,如果突然出现一种新的垃圾品类,是之前数据标注/训练没有覆盖的,系统就无法识别,就必须重新采集。但有了采用无监督训练的大模型之后,无论出现什么样新类型的垃圾,系统都能自主推理和判断。

高能、低耗、易部署

如前文所述,如何在端侧、边缘侧高效部署Transformer正成为用户选择平台的核心考量。作为人工智能视觉感知芯片研发及基础算力平台公司,爱芯元智在今年3月正式推出的第三代高算力、高能效比的SoC芯片AX650N,为行业探索Transformer在端侧、边缘侧落地方面做出了有益的尝试。

AX650N是一款兼具高算力与高能效比的SoC芯片,集成了八核A55 CPU,43.2TOPs@INT4或10.8TOPs@INT8高算力的NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆Ethernet、USB以及HDMI 2.0b输出,并支持32路1080p@30fps解码。

计算机视觉类是AX650N的核心应用目标之一。但是到目前为止,在计算机视觉建模一直由CNN主导,基于Transformer结构的网络模型长时间停留在各大顶级会议的“刷榜”阶段,真正大规模落地并不突出。直到ICCV 2021的最佳论文《Swin Transformer》才达到了准确率和性能双佳的效果。

同时,类似Swin Transformer的视觉类Transformer网络模型大多数还是部署在云端服务器上,原因是GPU对于MHA结构计算支持更友好,反而边缘侧/端侧AI芯片由于其架构限制,为了保证CNN结构的模型效率更好,基本上对MHA结构没有过多性能优化,甚至需要修改网络结构才能勉强部署。这也间接限制了算法工程师在边缘计算应用上进一步发挥Transformer网络的想象力。

实测数据显示,目前大众普遍采用的Transformer网络SwinT,在爱芯元智AX650N平台表现出色:361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力,都让AX650N在Transformer的落地中有着领先的优势地位。

具体来看,361帧的高性能可媲美汽车自动驾驶领域基于GPU的高端域控SoC;而80.45%的高精度成绩同样高于市面平均水平;199 FPS/W的速度也充分体现出低功耗的特点,对比于目前基于GPU的高端域控SoC有着数倍的优势。

更为重要的,AX650N部署方便,GitHub上的原版模型可以在爱芯元智的平台上高效运行,不需要对模型做修改,不需要QAT重新训练。与此同时,AX650N支持低比特混合精度,用户如果采用INT4,可以极大地减少内存和带宽占用率,可以有效控制端侧边缘侧部署的成本。这些特性都保证了AX650N作为人工智能算力平台,最终落地效果更好用、更易用,大幅提升了用户的效率。

目前,AX650N已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型,在DINOv2也达到30帧以上运行结果,这也使得用户在下游进行检测、分类、分割等操作更加方便,落地更加现实。基于AX650N的产品也已经在智慧城市,智慧教育,智能制造等计算机视觉重要领域发挥出重要作用。

接下来,爱芯元智AX650N将会针对Transformer结构进行持续优化,包括如何对离散型数据实现较高的读取、如何让计算与数据读取匹配、使用INT4来解决大参数量模型、具备稀疏化支持能力和更好的量化精度等等,并且探索更多的Transformer大模型,例如多模态大模型,不断让Transformer在爱芯元智平台上得到更好的落地效果。值得一提的是,爱芯元智还将推出开发板,满足开发者对Transformer深度研究的需求,探索更丰富的产品应用。

“好用”、“易用”、“愿用”,是爱芯元智对Transformer结构落地AX650N平台的定位,而为客户搭建一个足够好用易用的平台成为企业核心目标。为此,在芯片整体架构方面,设计团队采用了异构多核的设计思路,允许特定内核具有可编程性;考虑到有些网络对数据的需求量比较大,在架构上提前做了一些预留;开发工具方面保留标准接口等等。从目前得到的反馈来看,在开发板、文档齐备的情况下,客户只需约一小时就能完成Demo模型的运行。

“在我们与客户的实际接触中,他们最担心两点:一是模型精度从训练到部署有没有失真;二是私有的原版模型在计算平台上能不能直接部署跑起来。”爱芯元智相关负责人说,这就要求芯片公司能在软硬件设计、开发工具、场景适配、灵活性、易用性等多个领域保持优势。

“未来,爱芯元智将在成为人工智能算力平台型公司的道路上继续探索,加速基于Transformer的大模型在端侧、边缘侧落地的节奏,让普惠智能真正落地生根,开花结果。”爱芯元智创始人、CEO仇肖莘女士表示。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
毫无疑问,苹果同样担心错过设备操作方式的潜在重大转变。这跟马斯克一边“抵制”人工智能,一边又大举布局人工智能如出一辙。生成式人工智能有望改变人们与手机、电脑和其他技术的互动方式。这也表明在各大科技巨头纷纷入局大模型的当下,苹果也很难“独善其身”。
xAI公司创立,除了与微软、谷歌这些科技巨头竞争之外,还将与马斯克旗下的企业形成联动,加快大模型的落地应用。而xAI 将使用公开推文来训练其人工智能模型,并且还可能与特斯拉在人工智能软件方面进行合作。马斯克向大模型方向发力,也可以说是下一盘“大棋”。
近日,英特尔面向中国市场推出了AI芯片Habana Gaudi 2,Gaudi 2直接对标英伟达GPU的100系列。此外,英特尔将在中国台湾裁员上百人。目前英特尔在中国台湾的员工约有1000人左右,按上百人的裁员数量,该比例将达到10%以上......
受不断上升的利率、飙升的通货膨胀以及持续疲弱的市场需求继续打击消费者信心,芯片行业的低迷尚未见底。此前,台积电也已将今年的资本支出计划削减至320亿至360亿美元,低于去年的363亿美元。因此,台积电全球扩产计划或受影响,包括在美国、日本以及未来可能在欧洲地区、印度等地区的投资计划。
近期,美国监管机构发起了首次针对人工智能聊天机器人带来的风险的审查,调查OpenAI是否违反消费者保护法。根据一份文件显示,美国联邦贸易委员会对OpenAI发出了一份长达20页的要求,包括了OpenAI是如何获取用于训练大语言模型的数据,ChatGPT生成有关真实个人的虚假陈述的能力......
今年WAIC最热门的当然就是生成式AI了,毕竟ChatGPT在过去这些时间那么火,主要的大算力AI芯片厂商都在WAIC上展示他们的生成式AI成果...
实现“万物互联”是整个物联网行业的终极目标,据IoT Analytic统计,全球活跃的物联网终端数量预计2025年增长至270亿台,但距离业界期待的千亿级市场仍有较大差距。随着物联网场景的深度拓展,终端成本的刚性制约和应用场景带来的供能限制问题凸显。从物联网连接发展的趋势看,未来千亿级的“万物互联”必将建立在无源物联网的基础之上。
7月13日,以“应用引领集成电路产业高质量发展”为主题的第三届中国集成电路设计创新大会暨IC应用博览会(ICDIA 2023)举行。
每一次升级,都代表着品牌的蜕变;每一次蜕变,都源于品牌不断的进步;每一次进步,都将激发品牌的创新;每一次创新,都是品牌更好服务的开始。2023年7月,武汉芯源半导体CW品牌VI全面升
104HT系列适用于需要耐受高温的各种应用,包括电动车辆、太阳能、高压仪器、IC测试仪等。
中国半导体论坛 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓中国半导体行业协会关于维护半导体产业全球化发展的声明。近日,我协会注意到媒体广泛报道了一些美国芯片企业的领导人正试
英国斯特拉思克莱德大学近期宣布开发 MicroLED 新型巨量转移技术,透过连续滚轮转移技术,可精准转移超 7.5 万颗 MicroLED,团队也对转移数量、良率开发自动量测系统。团队指出,滚轮转移制
中国半导体论坛 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓2023年8月29日Cadence 将在上海举办一年一度的Cadence 中国用户大会 - CadenceLIVE
今年上半年,在面板龙头厂商动态控产的背景下,LCD TV面板供需偏紧,加之整机厂商备货需求走强,带动TV面板价格持续稳步上升,而京东方、彩虹股份等厂商盈利能力也逐季改善。不过,在中小尺寸显示领域,由于
LG Display将研究在龟尾车用OLED产线上再引进曝光机的方案。据推测,如果要生产高达50英寸左右的修长车载OLED,现有使用的曝光机存在局限性。据业界透露,LG Display正在考虑在庆尚北
五通道Luxtron® FluorOptic®测温(FOT)平台,可用于极低温和极高温传感,测温精度业界领先。据麦姆斯咨询报道,美国Advanced Energy公司(纳斯达克:AEIS)为高度工程化
7月19日消息,日本显示器(JDI)官网昨日宣布,其子公司 JDIDD 昨日完成了对JOLED的OLED技术开发业务和所有相关业务的收购,如2023年6月28日发布的“JOLED业务收购日期变更”中所
    关注、星标公众号,直达精彩内容出品 | 网络素材1. 前言 玩过Linux的朋友, 是不是对Linux无所不能的串口Shell命令控制台羡慕不已, 要是自己做的STM32F系列低档次的MCU也
当下科技界,个人消费电子市场已成为移动和数字技术最具活力和最先进的市场之一。在2023年6月28日至30日举行的上海世界移动通信大会(MWC)上,生物识别和红外传感解决方案的领导者巴斯夫创迈思(tri
近日,又有两项Micro LED巨量转移技术取得研究新进展,分别是Micro LED连续滚轮转印技术及Micro LED流体自组装技术。英国研究者开发Micro LED连续滚轮转印技术,单次转移超75