北京大学研究团队日前宣布在智能计算硬件方面取得领先突破——国际上首次实现了基于存算一体技术的高效排序硬件架构,解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题。

由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的研究团队,日前宣布在智能计算硬件方面取得领先突破——国际上首次实现了基于存算一体技术的高效排序硬件架构(A fast and reconfigurable sort-in-memory system based on memristors),解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题。

在与《电子工程专辑》的对话中,陶耀宇研究员表示,在这一极难攻克的人工智能基础算子加速领域形成优势,意味着后续将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用,提供更加高效的算力支持。目前,该成果已在国际顶级学术期刊《自然∙电子》上发表。

存算一体架构发展现状 

其实,“存算一体”或是“存内计算”并不是什么全新的概念,“存储墙”一词在上世纪70年代就有人提出过。只是进入人工智能时代后,信息量呈现爆炸式增长,考虑到时延、安全、成本等原因,把所有数据都放到云端去进行处理、存储和分析并不合适。而传统的冯•诺依曼(von Neumann)架构在数据密集型任务中,又会因为频繁的数据搬运造成了严重的“存储墙”问题,成为制约系统性能提升的关键因素。

图1:冯•诺依曼计算系统面临“存储墙”问题,存算分离使性能与效率提升困难(图源:北京大学)

于是,算力下沉的趋势开始呼唤一项新的技术,要求能够在追求更好性能、更高效率的同时,实现低功耗、低延迟和低成本。

在此背景下,“存算一体”(Processing-In-Memory, PIM或Compute-in-Memory, CIM)技术应运而生。其核心理念是通过将计算单元直接集成在存储器附近甚至内部,避免传统“计算—存储—搬运”的瓶颈,从而达到有效减少数据搬运带来的延迟与能耗的目的。同时,简化的存算结构也更易于硬件实现,更符合AI时代的要求。 

图2:存算一体芯片与系统成为后摩尔时代打破算力、能效瓶颈的重要路径(图源:北京大学)

回顾“存算一体”的发展历程,我们大致可将其划分为“初步探索期(1990s–2010)”、“再次兴起期(2010–2017)”和“应用突破期(2017–至今)”三个阶段:

其中,初步探索期以加州大学伯克利分校IRAM和伊利诺伊大学FlexRAM等为代表,基于DRAM/Flash等传统存储器进行“近存计算”尝试,但受限于工艺和集成度,未形成广泛影响。后续,随着具有非易失、高密度、可变阻特性的新型存储器(如RRAM、PCM、STT-MRAM)的兴起,模拟计算型PIM得到了快速发展,为AI推理等新兴场景提供了契机。

从2017年起,随着摩尔定律减缓、AI工作负载增加,以及数据密集型应用的兴起,PIM/CIM开始从理论研究走向实际落地,逐步进入实用阶段。例如多篇Nature、ISSCC论文展示了大规模阵列实验成果,以三星HBM-PIM和微米级阵列为代表的原形产品陆续推出,“从论文走向芯片”的PIM开始成为推动新型智能芯片架构演进的重要方向。

表1:主流PIM技术类型与挑战

但按照陶耀宇研究员的说法,尽管“存算一体”在矩阵计算等规则性强的数值计算中取得了显著成果,被公认为是突破传统硬件架构计算瓶颈的关键技术。但目前国际主流的“存算一体”架构均无法解决大数据排序问题,使之成为制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。

排序加速,存算一体的“硬骨头”

排序,是人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。

例如在智能驾驶场景中,车辆在高速公路等简单环境中,只需对周边几台车的行进路线进行排序就能判断是否会对自身安全产生影响,整个耗时可控制在毫秒级别。但在复杂的城市环境中,风险来自周边的数百个乃至更多的各类交通参与者,排序的复杂程度和硬件延迟大幅提高。

图3:排序决定了消费级AI应用产品的响应速度与服务质量(来源:北京大学)

再比如,在抖音、小红书等平台大的规模检索与推荐系统中,用户点击、评分、相似度计算后,常需要对海量的候选内容进行快速排序,找出最相关项,排序性能直接影响系统的响应时间和可扩展性。此外,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。

图4:排序了决定机器人的反应效率与续航能力(图源:北京大学)

“逻辑复杂、操作非线性、数据访问不规则,缺乏通用高效的硬件排序原语,是当前大规模非线性排序难以在端侧或边缘设备高效完成的主要原因。如果再考虑传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,更是极大制约了具身智能、智能驾驶等新兴技术的发展与普及。“陶耀宇研究员说。

他进一步解释称,之所以会出现上述情况,是因为现有的“存算一体”设计大多依赖于规则化的数据流模式与高度结构化的计算任务,一旦涉及到复杂控制流和逻辑判断频繁的计算,系统的灵活性与性能就会大打折扣。

而排序操作本质上恰恰是一类典型的非线性、多分支运算,其核心在于大量的元素比较、条件判断与数据重排。这些特点导致其难以直接映射到现有的存内计算阵列中,尤其是逻辑操作与数据移动无法依赖矩阵运算中的稀疏或并行特性加速。

图5:过去10年里,存算一体始终没有突破复杂非线性排序操作(图源:北京大学)

我们可以从以下四方面对排序操作的复杂性做更深层次的解读:

1. 非线性控制复杂

排序涉及大量“if-else”逻辑、条件判断和比较交换,控制流不规则,与PIM擅长的线性向量运算存在本质差异。

2. 数据访问不规律

排序中数据不断比较、交换位置,内存访问模式高度动态,不利于CIM中的稀疏阵列与规则访存设计。

3. 并行能力受限

多数排序算法存在“数据间强依赖”,后续操作依赖前一步结果,难以大规模并行,降低CIM并行性优势。

4. 通用性适配难

现有PIM架构主要面向神经网络、图像处理等结构化任务设计,不支持复杂控制逻辑的灵活计算单元。

由此可见,排序之所以成为CIM发展中迟迟未突破的难点,归根结底在于其“非结构化”、“控制密集”的计算特性,与当前以存内线性加速为核心的PIM设计理念存在很大的不同。

实现排序速度与能效的数量级提升

根据陶耀宇研究员的介绍,科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升,主要突破包括:

开发了一套基于新型存内阵列结构的高并行比较机制,支持多数据精度与多通道并行策略,打破传统排序模式下“精度固定”、“难以并行”的限制。 

开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计,在能效方面实现了6.23-183.5倍的提升,显著降低系统运行成本。

在算子层面,优化了面向人工智能任务的算法-架构协同路径,同时兼容现有矩阵计算,实现了3.3-7.7倍的速度提升。

完全自主设计的器件-电路-系统级技术栈整合,具备完全国产化、自主可控能力。

图6:北京大学在存算一体超高性能排序加速架构领域实现重大突破(图源:北京大学)

北京大学集成电路学院博士生、论文第一作者余连风介绍称:“排序的核心在于比较运算,需精准完成‘条件判断+数据搬移’。在复杂应用场景中,要对不同因素的优先级进行比较,这使得排序逻辑颇为复杂。通常,排序过程需要构建能支持多级‘比较-选择’的比较器单元,然而传统存算一体架构主要针对‘乘加’、‘累加’等操作,难以支撑此类复杂运算。我们的研究成功攻克这一难题,设计出一种‘无比较器’的存算一体排序架构。”

实测结果显示,该硬件方案在典型排序任务中提升速度超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。

据悉,该技术展现出高速度与低功耗的显著优势,具有广泛的应用前景,可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。例如,在智慧交通场景中,系统有望在毫秒级内完成十万级事件优先级评估,为超大规模交通决策、应急响应调度等提供高效的实时算力支持。 

根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘AI芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。更重要的是,在社会层面,该技术有望推动新一代智慧交通、智慧医疗、智能制造、数字政府系统更加高效运行,释放数据价值,助力新质生产力形成。

陶耀宇研究员表示,正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从“适合特定应用”走向“可支持更广泛的通用计算”,为人工智能相关任务构建了全链路的底层硬件架构支持。

结语

存算一体超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动,有望成为中国在下一代AI技术与智能硬件竞争中的坚实底座与新一代智能算力体系的“加速引擎”。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
从深层逻辑来看,美国限制东南亚的根本目的是要封堵中国供应链迂回路径,也将进一步推动全球半导体产业链形成“中美双核心+区域藩篱”格局。
吸引我加入Synaptics的不仅是职位头衔,更是将愿景转化为芯片的机会 —— 无论是字面意义还是象征意义上……
近日,华为推出的盘古Pro MoE 72B混合专家模型,被指与阿里巴巴通义千问Qwen-2.5 14B模型存在高度参数相似性,华为研发团队于7月5日发布声明,坚决否认抄袭指控……
作为一种基于硅桥的2.5D封装技术,EMIB是颇具代表性的;最近Intel也更新了迭代版的EMIB-T,适配HBM4/4e。这次我们尝试更细致地看看这项技术。
这项交易若未通过,可能成为继英伟达-Arm后,又一桩被地缘政治阻断的半导体并购。
未来,英特尔能否通过14A工艺赢得大客户的订单,并在AI和数据中心市场与英伟达等竞争对手抗衡,将是其战略调整成功与否的关键。
当传统生产工艺与智能数据采集相结合时,AI 与全维度数字孪生技术将成为实现下一代数据驱动型制造的核心推动力。
能量收集并不是一个时兴的名词,但是物联网技术的进步以及诸如Silicon Labs的物联网产品以及开发套件,使能量收集技术的应用也变得更加的实际和广阔。
人工智能(AI)已不再仅仅是一项高性能计算任务,它已成为推动边缘AI片上系统(SoC)设计的主要动力。从智能手机和摄像头,到工业自动化与自动驾驶汽车,AI正在日益塑造现代SoC的架构。这
用于电动汽车供电网络(PDN)的高压母线转换器 48 V电源模块
扫描文末二维码,加入半导体交流群除了 iPhone 17 系列之外,苹果下半年最重要的新品,可能是自研的 M5 系列芯片。据 MacRumors 报道,苹果将在下半年发布一系列新硬件——包括 iPad
简易的电池电量指示,功耗低,节省空间,无需MCU。无MCU的简易电池电量指示S-82F9/82D9系列可以点亮5个或4个LED,并监控电压,以提供简单的剩余电池电量显示。将多个电压监控功能集成到单个
今日光电  有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----机器视觉助
前段时间宋佳二封白玉兰女主角的新闻冲上热搜,我上网搜索,本来只是想了解一下女神的过往经历,点开她的百科,却发现这个页面跟从前大不一样。以前都是以文字为主,出生日期、生平履历、作品列表等简历式陈列。而宋
限时狂欢:7月9日 - 7月18日这个暑假,不虚度!凡亿教育开启【暑假技能充电季】超级活动——降价+赠礼+满减券,助你技能满格,职场领先一步!凡亿教育暑期专属福利正式开启!福利1:满减神券,立减更划算
点击上方蓝字谈思实验室获取更多汽车网络安全资讯7月8日消息,长城汽车董事长魏建军魏建军今日于微博宣布即日开启“35+计划”,面向全球35岁以上人才开启专场招聘。视频中,魏建军激昂慷慨的表示,35岁不是
点击上方蓝字谈思实验室获取更多汽车网络安全资讯01CAN简介CAN总线简称Controller Area Network,是ISO国际标准化串行通信协议。CAN总线具有很高的可靠性,广泛应用于汽车电子
  一、引言   压电叠堆作为一种高性能的压电材料,广泛应用于精密驱动、微机电系统(MEMS)和传感器等领域。然而,压电叠堆在长期使用过程中会面临老
7月7日,鹏鼎控股发布2025年6月营收简报称,公司该月合并营业收入为人民币288,835万元,较去年同期的合并营业收入增加36.43%。鹏鼎控股主营业务是各类印制电路板的研发、设计、制造、销售与服务
(广告分割线)美国对等关税政策即将出炉细节与后续,台湾电路板协会(TPCA)理事长暨燿华董事长张元铭7月7日受访时强调,这项政策对景气影响很大,从产业来看,目前第3季初步看来仍是旺季,预期低轨卫星、服