由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的研究团队,日前宣布在智能计算硬件方面取得领先突破——国际上首次实现了基于存算一体技术的高效排序硬件架构(A fast and reconfigurable sort-in-memory system based on memristors),解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题。
在与《电子工程专辑》的对话中,陶耀宇研究员表示,在这一极难攻克的人工智能基础算子加速领域形成优势,意味着后续将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用,提供更加高效的算力支持。目前,该成果已在国际顶级学术期刊《自然∙电子》上发表。
存算一体架构发展现状
其实,“存算一体”或是“存内计算”并不是什么全新的概念,“存储墙”一词在上世纪70年代就有人提出过。只是进入人工智能时代后,信息量呈现爆炸式增长,考虑到时延、安全、成本等原因,把所有数据都放到云端去进行处理、存储和分析并不合适。而传统的冯•诺依曼(von Neumann)架构在数据密集型任务中,又会因为频繁的数据搬运造成了严重的“存储墙”问题,成为制约系统性能提升的关键因素。
图1:冯•诺依曼计算系统面临“存储墙”问题,存算分离使性能与效率提升困难(图源:北京大学)
于是,算力下沉的趋势开始呼唤一项新的技术,要求能够在追求更好性能、更高效率的同时,实现低功耗、低延迟和低成本。
在此背景下,“存算一体”(Processing-In-Memory, PIM或Compute-in-Memory, CIM)技术应运而生。其核心理念是通过将计算单元直接集成在存储器附近甚至内部,避免传统“计算—存储—搬运”的瓶颈,从而达到有效减少数据搬运带来的延迟与能耗的目的。同时,简化的存算结构也更易于硬件实现,更符合AI时代的要求。
图2:存算一体芯片与系统成为后摩尔时代打破算力、能效瓶颈的重要路径(图源:北京大学)
回顾“存算一体”的发展历程,我们大致可将其划分为“初步探索期(1990s–2010)”、“再次兴起期(2010–2017)”和“应用突破期(2017–至今)”三个阶段:
其中,初步探索期以加州大学伯克利分校IRAM和伊利诺伊大学FlexRAM等为代表,基于DRAM/Flash等传统存储器进行“近存计算”尝试,但受限于工艺和集成度,未形成广泛影响。后续,随着具有非易失、高密度、可变阻特性的新型存储器(如RRAM、PCM、STT-MRAM)的兴起,模拟计算型PIM得到了快速发展,为AI推理等新兴场景提供了契机。
从2017年起,随着摩尔定律减缓、AI工作负载增加,以及数据密集型应用的兴起,PIM/CIM开始从理论研究走向实际落地,逐步进入实用阶段。例如多篇Nature、ISSCC论文展示了大规模阵列实验成果,以三星HBM-PIM和微米级阵列为代表的原形产品陆续推出,“从论文走向芯片”的PIM开始成为推动新型智能芯片架构演进的重要方向。
表1:主流PIM技术类型与挑战
但按照陶耀宇研究员的说法,尽管“存算一体”在矩阵计算等规则性强的数值计算中取得了显著成果,被公认为是突破传统硬件架构计算瓶颈的关键技术。但目前国际主流的“存算一体”架构均无法解决大数据排序问题,使之成为制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。
排序加速,存算一体的“硬骨头”
排序,是人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。
例如在智能驾驶场景中,车辆在高速公路等简单环境中,只需对周边几台车的行进路线进行排序就能判断是否会对自身安全产生影响,整个耗时可控制在毫秒级别。但在复杂的城市环境中,风险来自周边的数百个乃至更多的各类交通参与者,排序的复杂程度和硬件延迟大幅提高。
图3:排序决定了消费级AI应用产品的响应速度与服务质量(来源:北京大学)
再比如,在抖音、小红书等平台大的规模检索与推荐系统中,用户点击、评分、相似度计算后,常需要对海量的候选内容进行快速排序,找出最相关项,排序性能直接影响系统的响应时间和可扩展性。此外,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。
图4:排序了决定机器人的反应效率与续航能力(图源:北京大学)
“逻辑复杂、操作非线性、数据访问不规则,缺乏通用高效的硬件排序原语,是当前大规模非线性排序难以在端侧或边缘设备高效完成的主要原因。如果再考虑传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,更是极大制约了具身智能、智能驾驶等新兴技术的发展与普及。“陶耀宇研究员说。
他进一步解释称,之所以会出现上述情况,是因为现有的“存算一体”设计大多依赖于规则化的数据流模式与高度结构化的计算任务,一旦涉及到复杂控制流和逻辑判断频繁的计算,系统的灵活性与性能就会大打折扣。
而排序操作本质上恰恰是一类典型的非线性、多分支运算,其核心在于大量的元素比较、条件判断与数据重排。这些特点导致其难以直接映射到现有的存内计算阵列中,尤其是逻辑操作与数据移动无法依赖矩阵运算中的稀疏或并行特性加速。
图5:过去10年里,存算一体始终没有突破复杂非线性排序操作(图源:北京大学)
我们可以从以下四方面对排序操作的复杂性做更深层次的解读:
1. 非线性控制复杂
排序涉及大量“if-else”逻辑、条件判断和比较交换,控制流不规则,与PIM擅长的线性向量运算存在本质差异。
2. 数据访问不规律
排序中数据不断比较、交换位置,内存访问模式高度动态,不利于CIM中的稀疏阵列与规则访存设计。
3. 并行能力受限
多数排序算法存在“数据间强依赖”,后续操作依赖前一步结果,难以大规模并行,降低CIM并行性优势。
4. 通用性适配难
现有PIM架构主要面向神经网络、图像处理等结构化任务设计,不支持复杂控制逻辑的灵活计算单元。
由此可见,排序之所以成为CIM发展中迟迟未突破的难点,归根结底在于其“非结构化”、“控制密集”的计算特性,与当前以存内线性加速为核心的PIM设计理念存在很大的不同。
实现排序速度与能效的数量级提升
根据陶耀宇研究员的介绍,科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升,主要突破包括:
开发了一套基于新型存内阵列结构的高并行比较机制,支持多数据精度与多通道并行策略,打破传统排序模式下“精度固定”、“难以并行”的限制。
开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计,在能效方面实现了6.23-183.5倍的提升,显著降低系统运行成本。
在算子层面,优化了面向人工智能任务的算法-架构协同路径,同时兼容现有矩阵计算,实现了3.3-7.7倍的速度提升。
完全自主设计的器件-电路-系统级技术栈整合,具备完全国产化、自主可控能力。
图6:北京大学在存算一体超高性能排序加速架构领域实现重大突破(图源:北京大学)
北京大学集成电路学院博士生、论文第一作者余连风介绍称:“排序的核心在于比较运算,需精准完成‘条件判断+数据搬移’。在复杂应用场景中,要对不同因素的优先级进行比较,这使得排序逻辑颇为复杂。通常,排序过程需要构建能支持多级‘比较-选择’的比较器单元,然而传统存算一体架构主要针对‘乘加’、‘累加’等操作,难以支撑此类复杂运算。我们的研究成功攻克这一难题,设计出一种‘无比较器’的存算一体排序架构。”
实测结果显示,该硬件方案在典型排序任务中提升速度超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。
据悉,该技术展现出高速度与低功耗的显著优势,具有广泛的应用前景,可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。例如,在智慧交通场景中,系统有望在毫秒级内完成十万级事件优先级评估,为超大规模交通决策、应急响应调度等提供高效的实时算力支持。
根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘AI芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。更重要的是,在社会层面,该技术有望推动新一代智慧交通、智慧医疗、智能制造、数字政府系统更加高效运行,释放数据价值,助力新质生产力形成。
陶耀宇研究员表示,正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从“适合特定应用”走向“可支持更广泛的通用计算”,为人工智能相关任务构建了全链路的底层硬件架构支持。
结语
存算一体超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动,有望成为中国在下一代AI技术与智能硬件竞争中的坚实底座与新一代智能算力体系的“加速引擎”。
