本文来自“新型人工智能存储研究报告(2025)”。新型AI 存储是指专为人工智能应用和服务设计的数据存储系统,具备超高性能、超大容量、极致安全、数据编织等特征,可以有效支撑海量数据的分析和学习,是AI 基础架构不可或缺的组成部分,作为大模型的数据载体,新型 AI 存储与大模型数据归集、预处理、训练、推理等全生命周期流程紧密相关,且逐步成为 AI 数据全生命周期服务与管理平台的重要组成部分。
当今在不同行业和组织内部具备形成多元化数据集的条件下,新型 AI 存储正在成为数据资源的统一管理平台,并以此为基础构成跨域跨部门的 AI 数据湖,为数据赋能提供关键的技术支撑。
1、人工智能存储是发力大模型的基础
大模型正在从基础大模型向行业大模型演进。大模型的应用场景日渐丰富,正在加速向各个行业渗透。大模型很大程度上打破了AI 场景化和行业化的瓶颈,为上层应用提供更多通用性的基础能力,同时企业不再需要按场景从零开始开发和训练独立的基础模型,仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据,即可进一步实现大模型的专业训练,满足特定领域对准确度和安全性等方面的诉求。根据 IDC 的分析及预测,未来 95%的大中型企业将基于专属数据自建行业大模型,例如银行的风控数据、车企自动驾驶数据、医疗 PACS 数据等。
数据决定人工智能高度。大模型三要素是数据、算力和算法。随着 AI 技术快速成熟,各企业所使用的算力已逐渐趋同;各企业采用的算法也同样逐渐收敛,大多依托 Transformer 模型基础架构和以 Pytorch、TensorFlow 等为代表的开发框架;因此真正体现大模型差异性的要素是数据。根据公开数据显示,Meta 开发的LLaMA3 拥有 700 亿参数和 15TB 训练数据,而 OpenAI 的 GPT-3.5拥有 1750 亿参数和 570GB 训练数据,尽管 LLaMA3 在参数规模上还不到GPT-3.5的一半,但其表现能力在大部分基准上均超过后者。
AI 存储逐步成为大模型的关键基础设施。AI 存储是大模型数据收集、预处理、训练、推理的关键一环,决定了能保存利用的数据容量、训练及推理的数据存取效率、基础设施可用度以及数据安全。
一是 AI 存储与大模型数据处理效率紧密相关,AI 存储直接影响数据访问速度,从而影响大模型训练和推理速度。
二是 AI 存储是模型规模和数据量激增时平衡成本的重要因素。模型参数增大会伴随训练数据集规模的指数级增长,从而大幅增加数据储存成本。
三是大模型行业落地需要依托 AI 存储来加速数据在各环节的自动流转,保护数据安全,并形成统一的数据管理。面对大模型带来的大量数据处理和工程化工作,也需要结合 AI 存储中的相关技术一并解决。
2、新型人工智能存储关键技术
新型人工智能存储(面向 AI 的存储系统)具备极致性能、数据安全、大模型数据范式、高扩展性、数据编织和绿色节能 6 大关键特征,极致的性能密度可以加速数据供给,缩短训练数据的归集与预处理、CheckPoint 数据的保存以及断点续训等造成的算力等待,提升 AI 全流程效率;支持向量、张量、KV Cache 等大模型数据范式,能显著加速数据的融合检索,更好的支持推理应用;AI 存储 99.9999%的可靠性提升 AI 基础设施的持续服务时间,防勒索和存储加密进一步保障数据安全;跨域跨集群的 AI 数据湖支撑异构计算,近存计算的扩展;数据编织提供全局数据可视、可管,实现数据流动效率的倍数提升,并通过数据版本管理和数据血缘管理,保证数据质量不被破坏;绿色的 AI 存储,可降低每 TB 数据的能耗和占用空间。
构建先进的 AI 存储,要从存储介质、系统、架构、数据编织、数据范式和数据安全等多方面发力,协同提升大模型数据存储能力。
长记忆存储通过多级 KV Cache 助力大模型推理成本降低,用户体验增强。长记忆存储是专业记录大模型思考结果的存储,作为内存的扩展,以分级的方式实现月级、年级、乃至“终身”的记忆能力,让大模型推理具备慢思考能力,一方面,大模型推理过程中需处理长序列以获取准确的上下文信息、生成高质量输出,模型的计算成本和内存需求通常随序列长度的增加而显著增加,通过 KVCache 缓存机制,可以有效降低模型长序列推理的内存占用和计算开销,实现有限硬件条件下的高效推理。另一方面,基于高性能长记忆存储技术构建的多级 KV Cache 缓存机制,可以保证 KV Cache 具备随时在线和全局池化共享能力,配合以查代算算法,实现从持久化的KV Cache“长记忆”中调取前期已执行过的计算结果,减少推理过程中的重复计算。
近数据向量知识库提高大模型检索效率,减少输出幻觉。近数据向量知识库基于快速知识生成、大库容高召回率与多模融合检索关键能力,可实现百亿知识库秒级检索。通过分布式合并建图技术,实现近数建库,根据企业实践,知识生成从月级降至天级,建库时长缩短5 倍,实现知识实时更新。同时利用存储侧容灾备份特性组合,可提供数据库高可用保障,消除单点故障引发重新建库的巨大开销。
大模型时代,AI 存储架构从传统的层次化、主从服务器架构,向全对等、全直通的超节点架构转变。超节点存储能够构建全对等、全直通的架构,实现“DC as a Computer”。存储与计算之间高并行数据直通,通过开放的协议标准,既支持 Scale-up 扩展容量,也支持Scale-out 扩展性能的超节点架构。一方面在宏观上存算分离,计算、存储资源独立部署,通过高通量数据总线互联,统一内存语义访问数据,实现计算、存储资源解耦灵活调,资源利用率最大化。目前,模型训练仍然需要通过 CPU 去访问内存,但由于 CPU 的发展逐步放缓,导致内存的带宽和容量成为瓶颈。以 CXL(Compute Express Link)为代表的高速互联总线,将系统中的计算、存储、内存等资源彻底解构,各自形成统一的共享资源池,让 GPU 可以直接通过 CXL 总线以更快的速度访问内存与存储,从而极大提升大模型的数据加载及流转效率,实现以数据为中心的超节点架构。
篇幅有限,完整内容请参考“新型人工智能存储研究报告(2025)”。
来源:中国信息通信研究院、中国人工智能产业发展联盟
下载链接:
8、《3+份技术系列基础知识详解(星球版)》
《300+份DeepSeek技术报告合集》
《42篇半导体行业深度报告&图谱(合集)
亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。