许多人认为这可能是 AI 模型训练领域的一次重大突破,预示着未来 AI 模型的训练和应用将更加平民化。然而,随着更多细节浮出水面,事实似乎并不像最初报道的那样简单。

近日,一则关于李飞飞团队以不到50美元成本训练出一个名为s1的人工智能推理模型的消息在网上发酵。

2025 年 2 月,斯坦福大学和华盛顿大学的研究人员宣布,他们成功训练出了一个名为 s1 的人工智能推理模型。据报道,该模型的训练成本极低,仅需不到 50 美元的云计算费用,且仅用了 16 个英伟达 H100 GPU 进行了 26 分钟的训练,就让该模型在数学和编码能力测试中的表现能够与OpenAI的o1和DeepSeek的R1等尖端推理模型相媲美。

斯坦福s1论文原文注明模型是以阿里通义千问模型为基础微调图片来源:论文《s1: Simple test-time scaling》

许多人认为这可能是 AI 模型训练领域的一次重大突破,预示着未来 AI 模型的训练和应用将更加平民化。然而,随着更多细节浮出水面,事实似乎并不像最初报道的那样简单。

基于阿里云 Qwen “预算强制”监督微调

首先,需要澄清的是,李飞飞团队并没有从头开始训练一个新的DeepSeek R1模型。实际上,他们基于阿里云的通义千问(Qwen)模型进行监督微调,得到的是一个叫做s1-32B的模型。

这个模型是通过蒸馏法提炼出来的,利用了开源的基础模型,训练仅使用了 1000 个样本数据,这些数据是从谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中提炼出来的,并通过对 Qwen 模型进行微调而实现。

AI数据公司Databricks研究员奥马尔·哈塔布(Omar Khattab)评价称,(李飞飞团队的)论文似乎是关于Qwen模型的某种发现。

图片来源:X

谷歌DeepMind资深研究员Wenhu Chen同样表示,“真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。”

s1-32B研究的核心则是一种称为“预算强制”的技术,这种方法允许研究人员控制模型在测试时花费的计算资源量,从而引导模型对答案进行二次检查或修正推理步骤。

图片来源:论文《s1: Simple test-time scaling》

“预算强制”具体分为两种情况:

1、若模型生成的推理 token 超过设定上限,则强制结束推理过程并附加思维结束 token,促使模型进入答案生成阶段;

2、若希望模型在问题上投入更多测试时计算资源,则抑制思维结束 token 的生成,并在推理轨迹中追加「Wait」,鼓励模型进行更深入的推理探索。

例如,当被问到“raspberry”中有几个“r”时,模型首先进行了初步推理,并得出了错误的初步结果:有2个r。但推理过程并没有就此结束,模型又重新进行推理,优化了上次回答的结果,输出了最终的答案:3个r。

图片来源:论文《s1: Simple test-time scaling》

此外,他们还构建了一个名为s1K的小型数据集,也就是上面提到的1000个样本数据,包含高质量的问题及其推理过程。研究团队从 16 个不同来源收集了 59,029 个问题,这些数据主要来自 NuminaMATH、OlympicArena、OmniMath 等数据集,并通过难度、多样性和质量三个标准进行筛选和处理。他们检查样本、排除格式不佳的数据集,选择推理链路长的问题,最终创建了s1K 数据集。

“50美元成本”的说法从何而来?

传统AI模型的训练通常需要耗费大量的计算资源和资金。例如,训练像GPT-3这样的顶级模型可能需要数百万美元的计算成本。

尽管李飞飞团队成本低至50美元的说法确实吸引了眼球,但实际上,这指的是使用云计算服务训练模型所需的成本。具体来说,这一费用反映了在16块NVIDIA H100 GPU上仅需26分钟的训练时间。值得注意的是,这并未包括硬件本身的成本,因为这些资源通常由云服务提供商承担。

也就是说,s1-32B是站在了“巨人肩膀”上,50美元的成本并没有涵盖Qwen模型的基础训练费用。

参与该项目的斯坦福大学研究员,论文作者尼克拉斯·穆宁霍夫(Niklas Muennighoff)更是表示,如今,只要约20美元就能租到所需的计算资源。

此外,s1 模型并非只训了一轮,研究人员还做了很多其他的实验和测试,因此,实际成本远高于宣传的 50 美元。正如DeepSeek-V3不到600万美元的训练成本,实际上也只包括了训练时的GPU算力费用。

这项工作的意义在于展示了如何通过有效的算法创新、数据选择以及训练策略来显著降低训练高性能AI模型的成本。虽然s1模型并非直接复制了DeepSeek R1,但它证明了即使是中等规模的模型,在经过适当的优化后,也能在特定任务上实现顶尖的表现。

业内争议:技术突破还是被夸大的成果?

争议:s1 模型是否真的媲美 o1 和 R1?

尽管 s1 模型在某些测试集上表现不俗,但多位专家指出,s1 并未真正超越顶尖模型 o1 和 R1。根据论文数据,s1 是样本效率最高的开放数据推理模型,表现明显优于其基座模型(Qwen2.5-32B-Instruct),并且在 AIME 2024 和 MATH 500 两个测试集中可以超过 o1-preview。

图片来源:论文《s1: Simple test-time scaling》

但无论在哪个测试集,s1 都没有超过“满血版” o1 和 DeepSeek-R1,差距还很大。此外,s1 的表现依赖于精心挑选的训练数据和特定的测试集,其泛化能力仍有待验证。

争议二:低成本训练的局限性

多位专家指出,s1 模型的低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。此外,1000 个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。因此,s1 模型的低成本训练虽然展示了 AI 训练的潜力,但其局限性也不容忽视。

未来AI 模型训练的新方向

s1 模型的出现以及此前 DeepSeek 的成功,都彰显了开源大模型对行业格局的重要影响。例如,DeepSeek 在发布 DeepSeek-R1 时,将其推理能力蒸馏 6 个模型开源给社区,其中 4 个模型来自 Qwen,基于 Qwen-32B 蒸馏的模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

开源社区 HuggingFace 的数据统计显示,海内外开源社区中 Qwen 的衍生模型数量已突破 9 万,2024 年,仅视觉理解 Qwen-VL 及 Qwen2-VL 两款模型全球下载量就突破 3200 万次,大模型开源生态正在迅速发展。

李飞飞团队的工作揭示了一种新的可能性,即通过聪明的技术手段和策略,可以大幅减少开发先进AI模型所需的资源。s1 模型的成功展示了知识蒸馏与微调结合的强大潜力。通过从大型模型中提炼关键知识,并将其传递给小型模型,可以在极低的成本下实现高性能。

研究显示,新模型s1-32B在使用该技术后,性能与测试时的计算资源成正相关

都去“蒸馏”了,还有人踏实做数据积累吗

对于DeepSeek这样的公司而言,这种发展可能既带来了挑战也提供了机遇。一方面,低成本的高效模型可能会对其商业模式构成威胁;另一方面,这也提示了未来发展方向,即更加注重算法和方法上的创新,而非单纯依赖昂贵的计算资源。

这种方法不仅适用于推理模型,还可以推广到其他类型的 AI 模型训练中,这对于推动人工智能技术的普及和发展具有重要意义。随着训练成本的降低,更多的企业和研究机构将能够参与到 AI 模型的开发和应用中。这将推动 AI 技术在更多领域的落地,加速行业的数字化转型。

不过,s1的出现也引发了行业的担忧。此前,OpenAI曾指控DeepSeek不当使用其API数据进行蒸馏。有分析人士质疑,如果任何人都可以轻易复制和超越现有的顶级模型,那么大型AI公司多年的研发投入和技术积累可能会受到威胁。而且,尽管蒸馏技术在以较低成本复现AI模型方面表现出色,但其对新AI模型性能的提升效果并不显著。

公众和媒体应当谨慎解读此类消息,避免过度夸大其实际影响。

责编:Luffy
  • 蒸馏是几乎所有AI公司都普通使用过的手段,甚至openai也不敢说他自己就没有用过。。。。
  • 不管怎么说Deepseek横空出世打破了丑国的AI用钱堆算力卖高价的“竭泽而渔”搞垄断的死胡同,DeepSeek的出现给AI发展指出了正确的道路,用开源AI的民主化打破了丑国对AI的封闭垄断,给全世界人民带来共享AI红利的新希望。
阅读全文,请先
您可能感兴趣
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
2月以来,一些人形机器人头部企业高薪案例值得关注。其中,宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位,月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元,年薪超百万(15薪制)。
除了医疗诊断之外,DeepSeek利用其强大的计算能力和数据分析能力,还可以加速药物研发过程。
该报告认为,韩国在工艺和量产方面领先于中国,但在技术、原创及设计领域则落后于中国。因此,韩国专家担忧,随着中国在基础技术研发上的持续投入,韩国半导体领域的优势局面可能难以长期维持。
目前,LPU芯片正凭借其创新的技术架构和出色的性能表现,在AI推理芯片市场中占据一席之地,而且很有可能为中国芯片厂商打开另一片新天地。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
回顾2024年,碳化硅和氮化镓行业在多个领域取得了显著进步,并经历了重要的变化。展望2025年,行业也将面临新的机遇和挑战。为了更好地解读产业格局,探索未来的前进方向,行家说三代半与行家极光奖联合策划
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----编者荐语特征提取是计算机
数据民主化终极拷问:借助大模型问数,究竟能不能实现灵活、准确、深入的数据洞察?“华东区会员复购率是多少?”——业务提需求3天,IT排期2周,口径对齐5轮。“为什么A产品毛利异常?”——指标定义模糊,数
点击上方蓝字谈思实验室获取更多汽车网络安全资讯01摘要近年来,电子控制单元(ECU)不再局限于简单的便利功能,而是将多种功能整合为一体。因此,ECU 拥有比以往更多的功能和外部接口,各种网络安全问题也
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
前不久,“行家说三代半”报道了长安汽车采用氮化镓OBC车载电源(点击查看)。近期,比亚迪、广汽埃安两家车企又相继公布了氮化镓应用进展:比亚迪&大疆:车载无人机采用氮化镓技术3月2日,比亚迪、大疆共同发
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----来源: 逍遥设计自动化申
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
在3月4日北京市政府新闻办公室举行的发布会上,北京经济技术开发区(北京亦庄)发布消息称,将于4月13日举行北京亦庄半程马拉松赛,全球首个人形机器人半程马拉松赛将同期举行。会上表示,人形机器人将与运动员