芯原从2016年就开始做AI相关的IP了,到现在采用其NPU IP的芯片出货量也突破了1亿颗。芯原的AI相关IP及其生态则覆盖从云到端,这个生态大致上是这样的...

前不久的Computex大会上,黄仁勋在主题演讲中谈自家面向生成式AI数据中心集群的Spectrum交换机,计划中未来的Spectrum-X1600会用于连接百万量级的显卡。换句话说AI数据中心的GPU数量过两年就会来到百万张——要知道现在搞AI的企业能做万卡计算就已经十分了得。

原因很简单,AI模型变得越来越大了,人们对于生成式AI的需求也越来越强烈。最近的芯原AI专题技术研讨会上,乌镇智库理事长张晓东也援引OpenAI的预测,2027、2028年最大的模型需要用1000万张卡来训练。“1000万张卡的功耗会达到GigaWatt级别,相当于美国一个中小型的州。”

生成式AI是否往这个方向走我们不知道,但生成式AI正在深刻变革人与计算机的交互方式,乃至人们的生活方式。芯原执行副总裁、IP事业部总经理戴伟进评价微软Copilot“不只是AI”,而是“深刻影响到与计算机交互方式的某种功能(function)”,“我们甚至无法分辨它是不是AI”。 

随着AI Everywhere走向AI for Everyone的时代到来,包括英伟达、芯原在内的所有市场参与者普遍认同,AI要从数据中心,走向边缘、走向端侧,乃至走向嵌入式应用。今年4月份的IIC Shanghai期间,戴伟进在接受我们采访时就强调了AI全面走向边缘的趋势,而芯原现在正在思考的是如何在算力有限、功耗敏感的设备上,达成这一目标;与此同时芯片要兼顾可编程性与性能。

借着这次研讨会的机会,我们就来看看芯原具体是怎么做的,未来边缘AI又将发展成怎样。对芯片的AI相关IP做探讨,也有机会窥见英伟达之外的AI生态发展情况。

 

AI深入到端侧的时代

戴伟进说,我们现在所处的时代,已经是大模型进入嵌入式设备的时代。他举例谈到智能驾驶应用AI技术;智能手机现在能在本地跑文生图的Stable Diffusion 1.5,以及可进行本地对话的Llama 2-7B,能做以图搜图、实时翻译、智能拍照等;Copilot+PC的Recall特性,实时字幕、渲染交互等,AI PC也进入到了医疗和工业市场。“计算已经不限于CPU,NPU也加入进来;而且NPU最终的计算负载也将高于CPU。”

嵌入式领域内,前不久我们还在探讨MCU的AI化,微控制器都在强调指令级AI加速,以及融合专用的加速器。虽然要跑大模型暂时还不行,但电视、相机、PoS机及各类IoT设备都出现了芯原NPU/GPU/DSP/VPU IP的身影。

戴伟进表示芯原早在2016年就开始做NPU,到现在采用芯原NPU IP的芯片出货量已经突破1亿颗——覆盖72家客户128款AI芯片;GPU全球也累计出货了近20亿颗。从初期的AI视觉,到语音、图形到现如今的自然语言,覆盖AR/VR、自动驾驶、PC、智能手机、可穿戴设备、机器人等不同设备。

“再后来我们也走向了Transformer。”戴伟进在主题演讲中谈到,“所以这8年多的时间,我们和行业、客户共同成长。其实我们很多技术是头部客户驱动的——所以我们能够进入那么多行业。”

上面这张图展示的是芯原的AI软硬件堆栈。除了上层软件和中间件之外,硬件IP部分涵盖具图形单元的GPU,强调shader通用单元的GPGPU,以及着力在MAC加速的NPU。所以戴伟进说芯原“的技术具备相当好的伸缩性”。

IP本身,及其间相互搭配可满足不同的应用场景,加上各模块本身的可伸缩,在通用性和AI加速上实现平衡,“各种新技术都可以在这个组合中得以实现”。当这些IP覆盖不同算力需求的应用场景时,则如下图所示:

边缘和嵌入式设备AI推理与fine-tuning领域,主要采用芯原的VIP9X00系列NPU IP——可以是与其他IP紧耦合类似AI-ISP这样的的DSA加速,也可以是AIoT设备中的专用AI加速——规模上主要是2b-13b参数量的语言模型,以及其他感知和生成模型;

当追求一定的通用性时,考虑GPGPU IP;对于也需要图形渲染加速,兼顾通用与效率的AI PC这类场景,可以选择NPU + GPU IP;另外芯原也有面向数据中心的CCTC-MP方案,大语言模型为70b及更大参数量,这里的Tensor Core GPU IP也是考虑训练场景相对更为多样化,及对通用性的要求。

有关数据中心的解决方案这里多提一句。芯原高级副总裁、定制芯片平台事业部总经理汪志伟大略谈到了某颗数据中心AIGC芯片的少量信息:提及计算核是多核高性能CPU,加速器采用芯原GPGPU-AI IP,存储部分为HBM3;而且整体是基于chiplet方案构建的。

“我们还为客户设计了,和硬件结合、充分挖掘硬件性能的、完整的从底层到中间层的软件协议栈,满足推理、训练要求;包括解决芯片之间、板卡之间互联的通信协议软件。”汪志伟说。

值得一提的是,此前谷歌开启了一个名为Project Open Se Cura的开源项目在“从云到边缘”AI实现上是颇具代表性的,芯原是其中的关键参与者。这是个开源框架,旨在加速安全、可扩展、透明和高效的AI系统开发。

其中提供一系列的开源设计工具和IP库,通过联合设计和开发的方式,加速机器学习负载的全栈系统开发。芯原自然是在IP、芯片设计、BSP开发和商业化的过程中提供自家的专业技能。

戴伟进介绍说这个项目追求边缘与云的协同计算,比如在智能眼镜这样的设备上以低功耗always-on的方式感知环境,而AI模型跑在移动设备和云上。具体到芯片层面,其中的低功耗安全智能传感芯片用于端侧大模型数据采集,其中内置了芯原的多种处理器IP。

本地跑AI模型的价值在于低延时的响应,具隐私和安全性,以及更具个性化(如此例中的情境感知)。“我们每个人都有手机。而当有更高的计算需求时,也可以发往云。”“不仅为数据中心提供了价值,更重要的是AI也进入到了嵌入式设备,而且还是协同计算。”

“我想这其中的价值,是AI真的可以以离我们很近的方式为我们赋能,而且十分自然(less intrusive,少打扰)。”

 

从端到云的生态概况

谈得再具体一点,芯原NPU IP研发副总裁查凯南展示了NPU IP架构大致的框图:

芯原的NPU核心部分,大框架有个可编程引擎——可类比于GPU里面的shader核心,可做“通用运算,不管是科学运算还是训练网络的优化、损失函数等”;中间是我们日常所说真正用于AI加速的tensor core,进行矩阵乘的密集型运算;另外还有前文提到DSA相关的诸如AI-ISP、AI-Video加速的部分。

值得一提的是,在Transformer成为绝对的主流以后——包括视觉、音频、LLM等方面的全面开花,很多AI芯片也逐渐开始加入所谓的Transformer引擎——即便这并非一个单独的物理模块。查凯南在演讲中提到了芯原的NPU IP在Transformer加速上的考量。

包括数据格式的混合精度支持,INT4/INT8/FP8/FP16都是常规,还有AF16W4, AF16W8——查凯南解释说是16×4, 16×8“一些比较特殊的数据格式,把权重做4bit和8bit的量化压缩,大幅降低带宽消耗”;矩阵运算GEMM/GEMV(General Matrix Multiplication/General Matrix-Vector Multipilication)加速支持,矩阵转置引擎,流处理器等...

“在VIP9000架构里面,我们针对Transformer网络的性能提升达到了10倍。”

再来是软件栈的情况——这也是AI芯片竞争的关键。应用层的PyTorch, TensorFlow, ONNX Runtime支持都算是常规。推理部分的工具,芯原自研了Acuity Toolkit,“可通过工具链直接导入所有流行的框架”,“内部嵌入了模型转换、量化,及优化的相关功能”,“可直接生成易于部署的network binary”;

LLM推理引擎选择的则是支持vLLM(Vectorized Large Language Model)——一个开源的LLM推理库,查凯南说这是芯原最新做出的适配;硬件支持主流数据格式INT4/INT8/INT16/FP16/BFP16/FP8。

训练部分的框架,则主要是PyTorch 2.0的Torch Dynamo以及TensorFlow XLA后端接入;“芯原提供完整的计算库,包括可编程tensor core的引擎”;还有“我们自己写的”AI Compiler部分,以及再往上层分布式训练所需对接的Megatron和DeepSpeed支持。

有关训练比较值得一提的是支持Triton——Triton本身是OpenAI开发用于GPU编程的开放语言,一般我们说它是打破CUDA霸权的关键技术,也是诸多AI技术企业打算对接的新标准。“PyTorch 2.0之后的inductor会包含Triton的编译器。硬件厂商就可以直接通过编译的方式去接入Triton。我们的后端编译器也可以通过Triton接进来。”查凯南表示芯原计划于今年10月“完整接入Triton”

从整个结构来看,芯原的AI生态走的也是开放路线。这也是在英伟达AI制霸时代下的常规思路。

最后有关芯原NPU IP性能有个粗线条数据:VIP核心构成48TOPS算力的NPU,设定20 steps迭代跑Stable Diffusion 1.5生图<2秒;Llama2-7B模型推理则达成20 tokens/s的性能。虽然这个数据还是模糊了点,但总体都是相当出色的指标。

 

AI的征程刚刚开始

AI专题技术研讨会也可以算作是芯原AI生态布局的一环。所以研讨会上,我们也看到了不少采用芯原AI技术相关IP的芯片企业参与,比如AI-ISP,比如所谓具身智能机器人所需的3D空间计算芯片——“机器人加上大模型,能够与人进行更自然的交互。”戴伟进说,“计算机未来能够移动,一直在你身旁,跟着你,甚至能对你笑。”

神顶科技(南京)有限公司董事长、CEO袁帝文说PC、手机和嵌入式领域的AI发展,会为机器人大模型的发展提供助力;但与此同时,机器人本身还需要感知世界、导航避障、与物理空间交互。而且机器人也同时作为一个典型的端侧、边缘设备,AI算力需求又将远高于PC这样的端侧,因为其感知和交互是多维的,还涉及空间计算。

近两年英伟达开发者大会都将机器人技术视作AI从数字世界走向物理世界的关键,这其中涉及到方方面面的技术,“3D空间计算芯片+NPU,是掀起物理AI浪潮的必备组合。”而机器人在我们看来也会是AI、生成式AI下一个要全面应用和大力发展的市场,并由此影响到工业制造、医疗健康、零售、智慧城市千行百业。半导体这个万亿规模的产业,也会因此撬动全球经济。

芯原创始人、董事长兼总裁戴伟民在圆桌环节说,“前三次工业革命我们起步晚,不过我们有机会追得上;但这次我们不加快步伐的话,恐怕就永远追不上了。”“因为这是相关各行各业的技术,不是汽车、手机、PC或者任意的某一个领域。”“所以这一次,我们没有选择,无论如何非追上不可。”这大概也是芯原在生成式AI时代下努力加强技术研发,加强合作的动力之一。

张晓东说,“以前物理学家费曼说微积分是上帝的语言;但现在上帝的语言已经变成了图灵机。”而“图灵机是最广义的计算装置”;与此同时“所有的学习问题等价于图灵机求逆”,“所有的学习问题等价于next token prediction”......似乎生成式AI现如今的发展是计算机科学走向的必然。

从历史尺度来看,自然语言处理从过去几十年才进入新范式,到10年一迭代,以及后续以年为更新单位,“到今天大模型的迭代速度已经以周为单位了,几周就会有新的东西出现。”这似乎让我们看到了AI快速行进的开端,以及未来的无限可能。生成式AI的征程才刚刚开始。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
从弱智能到强智能,AI技术正逐步向通用人工智能乃至超级人工智能迈进,但随着AI模型规模和训练计算量不断增长,各大公司在AI领域的竞争中的“百模大战”实际却造成了计算资源的巨大消耗。
上海,作为中国最早推动RISC-V发展的区域,早在2015年的时候上海热心的一批企业就参与了RISC-V国际基金会的组建。经过近十年的创新发展,上海凭借其开放的姿态和对新技术的拥抱,已发展成为国内外人才最密集的地区之一,并在RISC-V生态文明创新发展中处于国际前沿。
我国首颗由高职院校师生自主研发的32位MCU“苏信一号” 流片成功,该项目与龙芯中科合作,基于国产CPU内核。早年间,产学合作这种事都是国外芯片公司在做,也为他们收获了大量创新人才和口碑,如今本土企业也意识到了这一点……
作为全面计算解决方案(Total Compute Solutions, TCS)的直接继任者,Arm终端CSS包括最新的Armv9.2 CPU、Arm Immortalis GPU、基于3纳米工艺生产就绪的CPU和GPU物理实现、CoreLink系统互连和系统内存管理单元(SMMU)。此外,Arm还同步推出了包含KleidiAI和KleidiCV的Arm Kleidi软件库,助力软件开发者无缝取得 Arm CPU 上的最佳性能。
中国亟需拥有一款自主可控、“正牌官方授权”EtherCAT 从站控制器的工业级高性能MCU。这家成立不到4年的年轻公司做到了……
近日有外媒报道称,头字节跳动与美国博通达成合作,共同研发先进的5纳米定制化AI芯片。6月24日晚间,字节跳动对问询媒体表示,该消息不实。
为了不断追求更好的视觉效果,显示技术行业在增强对比度、亮度和能效方面都面临着挑战。其中一个重要障碍是实现有效的"局部调光",即屏幕特定区域可独立变暗或变亮的技术。
AONZ66412 XSPairFET™ 占地面积紧凑,可简化 PCB板内设计,有助于提高功率密度,同时满足高效Type C应用性能需求。
市场大量需要能够快速、省电地提供定位详细信息的物联网设备,全球价值达到9万亿美元的物流和运输行业领域更是如此[1]。在电子商务蓬勃发展和消费者网购偏好转变的推动下,物流企业正在运送数量惊人的包裹。最大型电子商务公司亚马逊在2022年处理了47.9亿份美国快递订单,相当于每天处理1313万份订单[2]。
IAR与芯驰科技宣布进一步扩大合作,最新版IAR Embedded Workbench for Arm已全面支持芯驰科技的E3119/E3118车规级MCU产品。
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,7月10日,中汽协发布数据显示。6月,乘用车国内销量181.2万辆,环比增长8%,同比下降7.4%;乘用车出口40.3万辆,环比增长1.4%
【摘要/前言】 7月初,上海,艳阳高照。制造业风起云涌,电子元器件领域群雄逐鹿。Electronica如日中天。Samtec以创新智连,化身进击的老虎,强势面对一切挑战,从容把握所有机遇。
联发科日前公布的2024年6月及第二季度财报显示,2024年第二季度,联发科合并营收1272.7亿元新台币(约合284亿人民币),环比减少4.6%,同比增长29.7%,优于此前预期。2024年上半年,
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,7月10日,工信部发布“公开征求对《道路机动车辆产品自我检验管理办法(试行)(征求意见稿)》的意见”(以下简称《意见》),其中最重要的内容就
论坛信息会议名称:第七届半导体大硅片论坛会议时间:2024年9月26-27日会议地点:浙江丽水主办单位:亚化咨询日程安排9月25日16:00~20:00   会议注册9月26日09:00~12:00 
互联网与科技企业每日重点资讯文 | 苏丁巨头动向腾讯薪酬调整!分摊服务奖和房补至月薪腾讯发布全员邮件,对员工薪资福利政策进行调整。这次调整涉及到两个方面,均为基于员工的具体诉求针对性调整。一是将服务奖
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
半导体制程中,从一个工艺单元转移到下一个工艺单元前,需要进行清洗和干燥来处理硅片上的污染物。保证硅片的清洁清洗设备主要有以下几个分系统组成①处理系统:化学槽、冲洗槽、干燥阶段→批量式的情况。喷淋和旋转
近两年在多端互通趋势和高品质新作的共同推动下,端游市场逆势回升,成为行业新的增长极。伽马数据《客户端游戏市场营销发展报告》显示,端游市场收入已连续三年实现同比增长,在2023年创下662.83亿元的历
点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,7月11日,据凤凰网报道,马斯克“冷落”印度内幕曝光:中国这个机会更重要。一位知情人士表示,马斯克担心取消访问会让莫迪感到尴尬,但被他的团队