中国首个通用具身基座模型“智元启元大模型GO-1”正式发布,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶......

3月10日,上海智元机器人联合创始人、原华为“天才少年”稚晖君(彭志辉)的微博预告如期兑现,中国首个通用具身基座模型“智元启元大模型(Genie Operator-1,简称GO-1)”正式发布。

彭志辉自2022年12月离开华为,于2023年2月创立了智元机器人关联公司上海智元新创技术有限公司(简称,智元新创)。 

企查查显示,智元新创的实际控制人舒远春总持股比例为29.1674%,大股东桑蓬(上海)科技合伙企业(有限合伙)持股30.3775%。

比亚迪于2023年8月投资智元新创,认缴出资额为191.497万元,持股比例为2.5074%。除了比亚迪,其投资方包括高瓴创投、BV百度风投、奇绩创坛、经纬中国、蓝驰创投、沃赋创投、奇煜投资等。

彭志辉现任上海智元新创技术有限公司董事,桑蓬(上海)科技合伙企业(有限合伙)股东,并持有桑蓬科技13.79%的股份。

彭志辉,人称“稚晖君”、“野生钢铁侠”,原华为天才少年,2015年本科毕业于电子科技大学生命科学与技术学院,2018年研究生毕业于电子科技大学信息与通信工程学院。毕业后,他加入OPPO研究院AI实验室担任算法工程师。2020年,彭志辉加入“华为天才少年计划”,从事昇腾AI芯片和AI算法相关研究工作。2022年1月,他获得哔哩哔哩“2021年度百大UP主”称号。

据介绍,智元新创公司一直致力于AI与机器人的融合创新,打造世界级领先的具身智能机器人产品及应用生态。2023年8月,智元机器人发布第一代通用型具身智能机器人原型机——远征A1。时隔一年,智元机器人家族系列商用产品发布,在交互服务、柔性制造、特种作业、科研教育及数据采集等场景开启商用量产。

作为联合创始人,彭志辉于3月7日在微博上预告了即将发布的“好东西”,引发了广泛关注。

GO-1:VLA进化到ViLLA

智元发布的研究论文报告提到,2024年底,智元机器人公司推出了 AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景(家庭、零售、工业、餐厅和办公环境)的大规模高质量真机数据集。基于这一数据集,智元公司发布其首个通用具身基座大模型——Genie Operator-1 (GO-1)

GO-1 基于 ​Vision-Language-Latent-Action (ViLLA) 架构构建,相比传统的 ​Vision-Language-Action (VLA) 架构,ViLLA 通过预测 ​Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。

智元机器人表示,ViLLA 架构是为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力而提出的。

ViLLA架构由VLM (多模态大模型) 和 MoE (混合专家) 组成,其中 VLM 负责场景感知和指令理解,MoE 中的 Latent Planner 负责动作理解和规划,MoE 中的Action Expert 负责精细动作执行。

报告指出,​Latent Planner通过 ​Latent Action Model (LAM) 获取当前帧和历史帧之间的隐式动作,预测离散的 Latent Action Tokens。

混合专家一:Latent Planner(隐式规划器)

Action Expert采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

混合专家二:Action Expert(动作专家)

在推理过程中,VLM、Latent Planner和Action Expert三者协同工作:

VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

智元表示,“三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。”

报告表示,“通过Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

实验结果

GO-1大模型的创新

报告提到,GO-1大模型具备以下四个关键特性:人类视频学习、小样本快速泛化、一脑多形、持续进化,具体来说:

  • 人类视频学习:结合互联网视频和人类示范数据,增强对人类行为的理解。
  • 小样本快速泛化:在极少数据甚至零样本下,快速适应新场景和新任务。
  • 一脑多形:支持在不同机器人形态之间迁移,快速适配到不同本体。
  • 持续进化:通过数据回流系统,从实际执行中持续学习,越用越聪明。

智能机器人在发展过程中面临多方面的难题,这些难题涉及技术、数据、环境、成本等多个维度。

尤其在数据方面,机器人需要大量高质量的动作数据来学习复杂任务,但真实世界中的机器人操作数据(如真机示教数据)获取成本高、规模有限。现有数据集往往局限于特定场景或任务,缺乏多样性,难以支持机器人在开放环境中的泛化能力。互联网上的海量视频数据(如人类操作视频)无法直接用于机器人训练,需要复杂的“翻译”过程。

AgiBot World 数据集提供大规模、高质量的真机示教数据,支持复杂任务的训练。

ViLLA 架构通过 ​Latent Actions 和 ​MoE(混合专家)​ 架构,充分利用互联网视频数据和真机数据,提升模型的泛化能力和执行能力。

GO-1 大模型整合视觉、语言、动作等多模态输入,实现从感知到执行的高效闭环,支持长时程任务和复杂场景。

随着 ViLLA 架构 和 GO-1 大模型 的发布,机器人不仅拥有了大量真实和仿真的数据资源,还获得了快速学习和迁移的能力。这不仅扩展了它们的运动能力,还赋予了它们更强的AI能力,如理解自然语言指令和进行语义推理。这些进步使得机器人在各种应用场景中的作业能力大幅提升,从而真正具备了实用价值。

换句话说,机器人不再仅仅是按照固定程序运行的工具,而是能够自主学习、理解和执行复杂任务的智能助手,能够在更多领域发挥重要作用。

研究论文:

https://agibot-world.com/blog/agibot_go1.pdf

责编:Amy.wu
  • 支持一步一腳印進行實用的人.
阅读全文,请先
您可能感兴趣
该加速器表示,《数字市场法案》为美国人工智能、搜索和消费者应用领域的初创企业创造了重要机会,并防止大型科技公司排挤小型企业。
根据渠道反馈,长江存储零售品牌致态也将于4月起面向渠道上调提货价格,幅度或将超过10%。
这份调查由AspenCore旗下《EE Times》与《EDN》每两年进行一次,每一版的结果总是能客观、全面地呈现电子产业工程师们在职场与专业领域的行为模式与想法,指导工程师们从入门迈向专业。
谷歌的提议引发了广泛的争议。一方面,支持者认为这将促进AI技术的创新和应用;另一方面,反对者担忧这可能损害内容创作者的权益,并破坏现有的版权保护体系。
头部新势力蔚来汽车被曝启动新一轮裁员,涉及售后、能源、门店运营及销售团队,整体裁员比例约10%,部分部门调整幅度高达50%。
现任社长内田诚(Makoto Uchida)将于3月底卸任,接替他的是公司首席规划官伊万·埃斯皮诺萨(Ivan Espinosa),这一变动自4月1日起生效。
鉴于过去几十年技术变革的速度,预测趋势似乎是一项吃力不讨好的任务。但我们认为拥有前瞻性的视角很重要,以下是我们对未来几年可能持续塑造和重塑行业的因素的预测。
Nexchip(晶合集成)虽面临面板相关DDI拉货放缓的挑战,但有CIS、PMIC产品维系出货动能,2024年第四季营收季增3.7%至3.44亿美元,市占排名上升至第九名,为此次唯一有变动的名次......
MLX80142作为首款兼容MeLiBu® 2.0协议的LED驱动芯片,最多支持为每个MeLiBu®子网驱动500个RGB LED,显著提升车辆的照明性能。
本届峰会以“存储格局、价值重塑”为主题,汇聚了全球存储产业链与终端应用企业,共同探讨技术创新与产品升级如何为客户创造更大价值。作为超可靠存储创新解决方案商,康盈半导体在峰会上展示了多款创新产品,尤其是在AI应用存储领域,展现了其在智能穿戴设备中的卓越表现。
点击蓝字 关注我们 主页右上「· · ·」添加星标 更新不错过!欢迎来到《电源设计小贴士集锦》系列文章本期,我们将介绍反激式转换器的两个不同变体相关知识在标准形式的反激式转换器中,变压器的漏电感会在初
求是芯缘,十载同行。2015年-2025年,求是缘半导体联盟迎来了成立10周年。为了更精准务实地服务会员,我们在梳理会员类型的基础上,为不同细分领域的联盟会员搭建高效的沟通交流机制,促进联盟会员的融合
点击左上角“锂电联盟会长”,即可关注!近年来,新能源汽车行业的蓬勃发展推动了动力电池技术的持续进步。作为电池包模组的重要组成部分,CCS集成母排逐渐成为行业瞩目的焦点。其技术发展不仅追求高安全性,还致
在半导体制造流程中,有一种极其重要的设备,这就是等离子体电源,它是半导体制造中不可或缺的核心设备,广泛应用于刻蚀、薄膜沉积、离子注入和清洗等关键工艺。其性能直接影响半导体制造的质量、效率和先进性。随着
 智能汽车网络与数据安全新媒体 (谈思汽车讯)宝马集团日前宣布了其董事会的人员调整,其中宝马集团的研发负责人Frank Weber将在完成宝马“新一代车型”(Neue Klasse)的系列开发后正式退
01引言2024年人形机器人从科幻走向现实,成为科技领域的焦点。2025年,这一领域将迎来量产元年,2026年有望迎来商业化爆发。多家科技巨头和初创公司纷纷进入这一领域,推动了人形机器人技术的快速发展
2025年汽车行业报告汇总(点击进入)压缩机是汽车空调的关键部件,是影响空调性能的决定性因素之一。新能源汽车空调电动压缩机由电池提供动力,控制器控制电机转速,进而控制制冷量,调节温度。(电动压缩机结构
点击左上角“锂电联盟会长”,即可关注!第一作者:Jung-Hui Kim, Nag-Young Kim, Zhengyu Ju通讯作者:Je-Young Kim, Guihua Yu, Sang-Yo
芝能智芯出品陈立武(Lip-Bu Tan)将正式接任英特尔首席执行官(CEO),这一任命恰逢NVIDIA GTC 2025召开之际,标志着英特尔在经历一系列困境后迎来了新的转折点。作为硅谷资深人士,陈
 智能汽车网络与数据安全新媒体 (谈思汽车讯)3月14日,上海蔚赫信息科技有限公司(以下简称“蔚赫信息”)欧洲分公司——Vehinfo Global R&D Centre GmbH宣布,公司已成功获得