多模态AI是当下的热门概念,其结合了文本、语音、图像、视频、传感器数据、3D环境感知和图形等多种模态,通过标记化后送入大语言模型(LLM),可以实现更自然、高效的处理。
“通过将传感器数据转化为统一的神经编码(Token),可穿戴设备有望突破算力与带宽瓶颈,成为多模态 AI 生态的核心交互节点”。在 4 月 16 日举办的芯原股份可穿戴专题技术论坛上,芯原 NPU IP 研发副总裁查凯南发表《分布式神经级联中的图像标记化》主题演讲,深度解析 “神经级联” 架构如何通过图像标记化(Tokenization)技术,实现端侧设备与云端 / 边缘端的高效协同计算 。
芯原 NPU IP 研发副总裁查凯南
图像标记化:从数据采集到神经编码
查凯南首先定义 “标记化(Tokenization)”为 “将传感器模态转化为神经编码的过程”,其核心价值在于将图像、语音等多模态数据归一化为统一的低维向量表示,实现跨设备高效传输与处理。他以经典视觉模型为例:
- ResNet 等卷积网络通过特征提取生成图像标记,为目标检测、分割等任务提供高层语义表示;
- 自动编码器(AutoEncoder)通过压缩编码,在保持关键信息的同时减少数据量,实现 “传输功耗与存储容量的双重优化”。
这种技术突破使多模态 AI 基础模型(如谷歌 PaliGemma)能够高效处理跨模态数据:“SigLIP 视觉编码器将图像转化为 Token,与 Gemma 语言模型的文本 Token 融合,最终实现‘拍照的人躺在海边吊床’等复杂场景的自然语言理解”,展现了标记化技术在多模态交互中的核心作用。
神经级联架构:端云协同实现算力分配
针对大模型算力需求与端侧设备限制的矛盾,查凯南介绍了 “分布式神经级联”方案:通过轻量化门控模型(Gating Model)在端侧进行数据筛选,仅将有效 Token 传输至边缘或云端,形成 “端侧感知 - 边缘决策 - 云端推理” 的三级协同架构。
在端侧预处理方面,可穿戴设备搭载轻量级 Token 化模型(如蒸馏后的学生模型),实时检测环境信息(如 “是否存在动物”),仅向云端传输有效 Token,减少无效数据传输。实测显示,该机制可降低 70% 的网络带宽消耗,适配 AR 眼镜等低功耗设备。
在跨设备协同方面,以谷歌智能家居生态为例,摄像头、手表、眼镜等端侧设备通过 Token 化技术统一数据格式,边缘服务器基于门控模型动态分配算力,实现 “本地设备快速响应 + 云端复杂推理” 的无缝协作。
神经级联可以协调边缘设备和云端设备,实现新的GenAI体验。芯原与谷歌合作的Open Se Cura项目已验证该方案的可行性。通过RISC-V架构的Kelvin处理器(256+ MACs/Cycle)与VIP9X00系列NPU的协同,实现了从端侧AR眼镜到云端服务器的无缝衔接。
查凯南强调,“这种架构让端侧设备从‘数据采集器’升级为‘智能过滤器’,显著提升系统整体能效比”。
如何从IP产品到技术落地?
查凯南表示,芯原致力于通过 “硬件 IP + 软件框架”双重布局,推动标记化技术商业化落地。
在端云协同上,芯原的 IP 矩阵包括:
- 端侧的VIP9X00 系列 NPU:支持 40TOPS 算力(适配 7B 参数模型)至 160TOPS(支持 70B 模型),支持INT4/INT8量化,加上DECNano数据压缩技术可满足从智能手表到 AI 眼镜的差异化算力需求;
- 边缘侧的VIP9X00CC异构IP(NPU+GPGPU),提供3D堆叠内存架构,满足256TOPS算力需求;
- 云端的CC9X00TC-MP训练芯片,支持Transformer模型分布式训练。
据悉,芯原积极推动Open Se Cura 生态计划,联合谷歌构建端云协同开发框架,提供从 Token 化模型蒸馏、量化到跨设备通信协议的全套工具链。典型案例中,图像 Token 传输量较原始数据压缩 90% 以上,端云协同延迟控制在 20 毫秒以内,为实时翻译、工业巡检等场景提供技术支撑。
行业挑战与未来方向
面对分布式神经级联的技术落地,查凯南坦言三大挑战:
- 算力与能效平衡:边缘设备需在无 DDR 内存条件下运行轻量化模型,依赖稀疏化、低比特量化等技术进一步压缩模型规模;
- 软件生态统一:需定义跨设备 API 标准,解决不同品牌终端(如手表、眼镜、手机)的协同协议兼容性问题;
- 数据安全与隐私:在 Token 传输过程中引入 CHERI 安全扩展等技术,确保用户数据在端云交互中的安全性。
另外,模型碎片化需要不同设备需适配多样化的压缩与蒸馏策略;硬件异构性需要考虑从RISC-V到ARM架构的兼容性问题;生态协同上则要考虑如何建立统一的API标准与数据交换协议。
展望未来,他指出 “标记化技术将推动可穿戴设备从‘功能孤岛’融入‘分布式 AI 网络’,成为连接物理世界与数字生态的神经节点”。随着芯原 端侧感知、移动端的VIP9X00系列和云端的CC9X00TC架构在客户项目中的落地,2025 年有望成为端云协同 AI 大规模商用的元年。
