今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。
预训练:核心是让模型见过更多推理模式
数据:着重挖掘富推理语料,并合成约200B tokens推理数据。
训练:进行了三阶段训练,逐步提升训练难度,总训练25T tokens。
后训练:核心是高效稳定的强化学习算法和框架
算法:提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练。
框架:设计了Seamless Rollout系统,使得RL训练加速2.29倍,验证加速1.96倍。
MiMo 来自全新成立不久的「小米大模型Core团队」的初步尝试。
此前,小米公司招聘事件吸引了业界的广泛关注。据悉,小米创始人雷军亲自出手,以千万年薪招募到了一位备受瞩目的95后AI天才少女——罗福莉,她正是开源大模型DeepSeek-V2的核心开发者之一。
罗福莉,一个从四川小城走出的普通女孩,凭借自己的努力和天赋,在AI领域大放异彩。她在北京师范大学本科阶段误入计算机专业,但凭借不懈的努力,从成绩垫底逆袭至前列,并成功保研进入北京大学计算语言学研究所。2019年,她在NLP国际顶级会议ACL上发表了8篇论文,其中2篇为第一作者,迅速走红网络,被誉为“95后AI天才小萝莉”。
小米在AI大模型领域的布局虽然相对较晚,但此次雷军的亲自招募无疑彰显了其对这一领域的重视。小米AI实验室早在2016年就组建了AI团队,并在2023年4月设立了专门的大模型团队,由栾剑担任负责人。然而,相较于其他厂商,小米在AI大模型上的发力确实稍显滞后。尽管小米在发布会上曾宣布全面拥抱AI大模型,但其主力突破方向仍是“轻量化”和“本地部署”。
小米作为全球拥有最丰富AI入口和应用场景的公司之一,其AIoT平台已连接的IoT设备数超8.61亿,同比增长23.2%。然而,在多模态交互与跨App联动等方面,小米与竞品相比仍显不足。为了在新一轮的高端智能手机军备竞赛中占据优势,小米必须加注大模型技术的研发。
雷军曾表示,小米将继续加大在AI、物联网(IoT)等前沿技术的投入。近年来,小米在AI领域取得了不少成果,发布了自研芯片澎湃C1、成立了自动驾驶团队和小米机器人实验室,其AI相关团队已超过3000人。近期,小米大模型也已升级至第二代,并在多个应用场景中落地。
(Xiaomi MiMo)