在全球人工智能(AI)技术飞速发展的背景下,RISC-V与AI的结合成为了业内关注的焦点。尽管国产AI芯片在硬件性能方面取得了显著进步,但在软件生态方面仍然面临巨大挑战。特别是与英伟达的CUDA生态相比,国产AI芯片在生态系统上仍然显得薄弱——CUDA自2006年推出至今,已经累计为生态投入120亿美元,拥有450万开发者,形成了一个强大的软件生态。
反观其他AI算力软件生态,呈现小、散、弱局面,国产AI芯片软件生态投入严重不足、碎片化,不具备核心竞争力。虽然国内高端AI芯片企业达40余家,但软件栈层面各自为战,无法形成合力,整体市场份额不足10%。
近日,第四届滴水湖中国RISC-V产业论坛在上海临港滴水湖畔召开,北京大学讲席教授、RISC-V国际基金会人工智能与机器学习专委会主席谢涛发表了题为《万物智联时代RISC-V+AI之路》的演讲,深入分析了RISC-V与AI技术的结合及其发展路径。
北京大学讲席教授、RISC-V国际基金会人工智能与机器学习专委会主席谢涛
当前,许多国产芯片公司为了快速适应市场需求,选择兼容CUDA生态,虽然短期内有效,但长期来看,这种“打不过就加入”的思路仍然受制于人。另一些公司选择自主开发的道路,却面临着开发成本高、人才稀缺等问题,这使得它们在市场竞争中处于不利地位。
RISC-V+AI的发展机遇
在移动设备领域,安卓(Android)曾经以开放生态系统的多样化硬件选择、开放源代码的自由度和广泛的应用服务,对苹果封闭的生态系统带来了挑战。因此人提出,可否借鉴安卓震撼iOS生态的模式,来震撼CUDA生态?
对此谢涛教授认为,在这样的背景下,RISC-V因其开放性、灵活性和高度可扩展性成为了AI芯片领域的一个理想选择。RISC-V架构允许芯片设计者根据具体需求定制AI加速器,这种灵活性特别适合应对快速变化的AI工作负载,有望成为撼动CUDA生态的力量。
此外,RISC-V的指令集可以根据需要扩展,以提升AI计算的性能和效率。这些优势使RISC-V在低功耗和高效能领域具有显著优势,特别是在边缘计算和智能终端等应用场景中。
谢涛教授引用了孙凝晖在《中国科学院院刊》中提出的信息技术新体系的三种模式:
A体系(高铁模式),我国信息化的主流平台被X86、Arm生态所占领,海光、海思等国产处理器的道路强调“全兼容”---“离了你,我不行”;
B体系(北斗模式),强调“全自主”,以龙芯和申威为代表,因为不跟市场主流兼容,所以生态弱 ---“离了你,我勉强行”;
C体系(5G模式),走“全开放”的道路,全世界一起来建生态,谁也不控制谁,谁也不能卡谁,比如RISC-V---“你中有我、我中有你”。
谢涛教授表示,如果采用A体系,意味着加入CUDA阵营(例如璧仞/阿里平头哥等),这样研发会永远处于“跟随”状态,被人牵着鼻子走,难以绕过的大量专利,只能靠开源的编译器规避诉讼。虽然容易获得客户,但是反而加强了CUDA生态;如果选择B体系,就要采用自定义编程语言(如华为昇腾/寒武纪等),缺点是成本高昂,各公司需维护一整套软件工程团队,积累数十年研发投入,这个行业的系统软件、编程语言、编译器人才本就稀缺,这样以来会导致力量分散,各公司各自为战,难以形成有效合力与CUDA抗衡。
因此谢涛教授认为,RISC-V代表的是C体系,也就是全开放道路。“基于RISC-V构建AI算力是必然趋势,也是全球共识。”
RISC-V AI芯片的主要模式
2024年4月11日,RISC-V国际基金会理事会在基金会社区官宣,2024年RISC国际基金会顶级关键战略优先级为:人工智能/机器学习、安全以及车载。
AI之于RISC-V是一个重大机遇,就像PC之于x86生态,手机之于Arm生态。
基于RISC-V构建AI算力的优势在于其开放性、灵活性、高度可扩展性、功耗和效率优势,以及生态系统和社区的强有力支持。RISC-V的精简指令集和定制化扩展能够满足AI工作负载快速变化的需求,同时提升计算速度和能效。
谢涛教授进一步介绍了RISC-V AI芯片的两种主要模式:
- Integrated模式(紧耦合):适合低功耗领域(RISC-V+AI)。以CPU主干为骨架,将AI计算单元集成在CPU内部,共享PC(程序计数器)、寄存器堆等流水线单元,仅在执行单元部分增加了矩阵或向量单元。
紧耦合模式
- Attached模式(松耦合):适合大算力领域(AI+RISC-V)。AI计算单元外挂在CPU上,有自己独立的流水线、寄存器堆、缓存等。它是“协处理器”,可以接收来自一个或多个CPU的指令,异步地执行不同CPU提交过来的任务。
松耦合模式
应对挑战的战略思路
针对我国RISC-V+AI生态存在的生态碎片化、资源投入严重不足、缺少组织统筹以及产学研协同不紧等挑战,谢涛教授自下而上、从端到云、工具创新的整体思路,并分享了几项核心策略:
- 自下而上:以RISC-V AI 指令集扩展(推动成RISC-V 国际基金会标准)+ 开源系统软件栈为公共开源根去利用国际开放/开源社区去长叶(基于开源根的商业软件/芯片) ,形成“根技术开源”与“叶技术竞争”的技术生态布局。
- 从端到云:聚焦边缘/终端侧(多样性、碎片化且大数量算力场景,比如智能终端、AI PC 等)来推动软件生态的发展与应用,以带动云上的软件生态。
- 工具创新:依托日益强大的RISC-V软硬件生态,聚焦全球开源工具创新。
具体破局思路
谢涛教授提出了国际标准+开源社区两抓手的具体破局思路:
- 以推动RISC-V 国际标准为抓手到国际借力:把握“根技术”,从我国领军企业共识出发,快速布局新时代的新市场(智能终端、AI PC 等),以推动国际基金会标准来依托上游国际开源社区来贡献系统软件栈。
- 以共建国际开源软件生态为抓手到国际借力:贡献到方兴未艾的国际开源软件生态(Triton/SYCL),发出中国强声音、展现中国大体量、强技术。
其中的国际标准指的是RISC-V AI 扩展指令,开源软件/芯片指的是Triton、SYCL、RISC-V AI 芯片IP。“推动RISC-V+AI 国际标准是手段,最终目的是系统软件栈。” 谢涛教授说道。
采用Triton的优势在于,各硬件厂商只需关注如何从Triton 层编译到硬件代码,即可高效支持上层的各类AI 框架(例如PyTorch 、JAX等)。相比 CUDA,Triton 编程难度更低、实现更高效、生态兼容负担更小,仍能实现接近于CUDA 极限优化的性能,超过直接使用PyTorch API。
谈到SYCL,谢涛教授形象地比喻道:“CUDA是编程模型中的x86,SYCL 就是编程模型中的RISC-V。”
以x86、CUDA为代表的封闭架构/生态,无授权无法二次开发和扩展,其垄断模式让技术走向完全掌握在美国寡头公司手中。这种模式经过长时间沉淀,兼容性最好,技术沉淀最深,但我国在该领域技术积累薄弱,软硬件系统设计的优化难以迁移到其它架构。
反观RISC-V和SYCL,无授权问题,技术走向由开源社区决定(编译器社区、编程模型社区)。虽然兼容性最弱,技术沉淀最浅,但各国的技术积累持平,软硬件协同设计的优化易于迁移到其它架构。
甲辰计划的推出
在2024年春节前,ASE、PLCT 、算能公司联合发起发起了“甲辰计划”。据介绍,“甲辰计划”的愿景使命是在下一个丙辰年(2036 龙年)之前,基于 RISC-V 实现从数据中心到桌面办公、从移动穿戴到智能物联网全信息产业覆盖的开放标准体系及开源系统软件栈,使RISC-V 软硬件生态的成熟度达到或超过其它主流架构的生态成熟度。
该计划的目标主要有以下几点:
1.联合100 家以上处理器及方案厂商、500 家以上软件企业,在18 个以上基础关键行业领域完成面向RISC-V 的适配与优化,合作完成超过 1000 款重要行业及商业软件的移植与部署。
2.围绕SG2380 、香山等高性能RISC-V 处理器及IP,帮助业界完成基于RISC-V 的、可以商业交付落地的行业解决方案,包括并且不限于智算加速、边缘计算、存储、机器人、工业仿真、医疗辅助等领域。
3.建立RISC-V 人才识别体系,连接超过1 万名具备RISC-V 硬件设计、软件开发、社区运营、教育培训专业人才,实现RISC-V 人才领域的互认合作。
目前,已经有超过40家的开源社区企业加入计划,谢涛教授也呼吁大家一起来RISC-V建设开源软硬件生态,