近日,一则关于李飞飞团队以不到50美元成本训练出一个名为s1的人工智能推理模型的消息在网上发酵。
2025 年 2 月,斯坦福大学和华盛顿大学的研究人员宣布,他们成功训练出了一个名为 s1 的人工智能推理模型。据报道,该模型的训练成本极低,仅需不到 50 美元的云计算费用,且仅用了 16 个英伟达 H100 GPU 进行了 26 分钟的训练,就让该模型在数学和编码能力测试中的表现能够与OpenAI的o1和DeepSeek的R1等尖端推理模型相媲美。
斯坦福s1论文原文注明模型是以阿里通义千问模型为基础微调。图片来源:论文《s1: Simple test-time scaling》
许多人认为这可能是 AI 模型训练领域的一次重大突破,预示着未来 AI 模型的训练和应用将更加平民化。然而,随着更多细节浮出水面,事实似乎并不像最初报道的那样简单。
基于阿里云 Qwen 和“预算强制”监督微调
首先,需要澄清的是,李飞飞团队并没有从头开始训练一个新的DeepSeek R1模型。实际上,他们基于阿里云的通义千问(Qwen)模型进行监督微调,得到的是一个叫做s1-32B的模型。
这个模型是通过蒸馏法提炼出来的,利用了开源的基础模型,训练仅使用了 1000 个样本数据,这些数据是从谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中提炼出来的,并通过对 Qwen 模型进行微调而实现。
AI数据公司Databricks研究员奥马尔·哈塔布(Omar Khattab)评价称,(李飞飞团队的)论文似乎是关于Qwen模型的某种发现。
图片来源:X
谷歌DeepMind资深研究员Wenhu Chen同样表示,“真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。”
s1-32B研究的核心则是一种称为“预算强制”的技术,这种方法允许研究人员控制模型在测试时花费的计算资源量,从而引导模型对答案进行二次检查或修正推理步骤。
图片来源:论文《s1: Simple test-time scaling》
“预算强制”具体分为两种情况:
1、若模型生成的推理 token 超过设定上限,则强制结束推理过程并附加思维结束 token,促使模型进入答案生成阶段;
2、若希望模型在问题上投入更多测试时计算资源,则抑制思维结束 token 的生成,并在推理轨迹中追加「Wait」,鼓励模型进行更深入的推理探索。
例如,当被问到“raspberry”中有几个“r”时,模型首先进行了初步推理,并得出了错误的初步结果:有2个r。但推理过程并没有就此结束,模型又重新进行推理,优化了上次回答的结果,输出了最终的答案:3个r。
图片来源:论文《s1: Simple test-time scaling》
此外,他们还构建了一个名为s1K的小型数据集,也就是上面提到的1000个样本数据,包含高质量的问题及其推理过程。研究团队从 16 个不同来源收集了 59,029 个问题,这些数据主要来自 NuminaMATH、OlympicArena、OmniMath 等数据集,并通过难度、多样性和质量三个标准进行筛选和处理。他们检查样本、排除格式不佳的数据集,选择推理链路长的问题,最终创建了s1K 数据集。
“50美元成本”的说法从何而来?
传统AI模型的训练通常需要耗费大量的计算资源和资金。例如,训练像GPT-3这样的顶级模型可能需要数百万美元的计算成本。
尽管李飞飞团队成本低至50美元的说法确实吸引了眼球,但实际上,这指的是使用云计算服务训练模型所需的成本。具体来说,这一费用反映了在16块NVIDIA H100 GPU上仅需26分钟的训练时间。值得注意的是,这并未包括硬件本身的成本,因为这些资源通常由云服务提供商承担。
也就是说,s1-32B是站在了“巨人肩膀”上,50美元的成本并没有涵盖Qwen模型的基础训练费用。
参与该项目的斯坦福大学研究员,论文作者尼克拉斯·穆宁霍夫(Niklas Muennighoff)更是表示,如今,只要约20美元就能租到所需的计算资源。
此外,s1 模型并非只训了一轮,研究人员还做了很多其他的实验和测试,因此,实际成本远高于宣传的 50 美元。正如DeepSeek-V3不到600万美元的训练成本,实际上也只包括了训练时的GPU算力费用。
这项工作的意义在于展示了如何通过有效的算法创新、数据选择以及训练策略来显著降低训练高性能AI模型的成本。虽然s1模型并非直接复制了DeepSeek R1,但它证明了即使是中等规模的模型,在经过适当的优化后,也能在特定任务上实现顶尖的表现。
业内争议:技术突破还是被夸大的成果?
争议一:s1 模型是否真的媲美 o1 和 R1?
尽管 s1 模型在某些测试集上表现不俗,但多位专家指出,s1 并未真正超越顶尖模型 o1 和 R1。根据论文数据,s1 是样本效率最高的开放数据推理模型,表现明显优于其基座模型(Qwen2.5-32B-Instruct),并且在 AIME 2024 和 MATH 500 两个测试集中可以超过 o1-preview。
图片来源:论文《s1: Simple test-time scaling》
但无论在哪个测试集,s1 都没有超过“满血版” o1 和 DeepSeek-R1,差距还很大。此外,s1 的表现依赖于精心挑选的训练数据和特定的测试集,其泛化能力仍有待验证。
争议二:低成本训练的局限性
多位专家指出,s1 模型的低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。此外,1000 个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。因此,s1 模型的低成本训练虽然展示了 AI 训练的潜力,但其局限性也不容忽视。
未来AI 模型训练的新方向
s1 模型的出现以及此前 DeepSeek 的成功,都彰显了开源大模型对行业格局的重要影响。例如,DeepSeek 在发布 DeepSeek-R1 时,将其推理能力蒸馏 6 个模型开源给社区,其中 4 个模型来自 Qwen,基于 Qwen-32B 蒸馏的模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
开源社区 HuggingFace 的数据统计显示,海内外开源社区中 Qwen 的衍生模型数量已突破 9 万,2024 年,仅视觉理解 Qwen-VL 及 Qwen2-VL 两款模型全球下载量就突破 3200 万次,大模型开源生态正在迅速发展。
李飞飞团队的工作揭示了一种新的可能性,即通过聪明的技术手段和策略,可以大幅减少开发先进AI模型所需的资源。s1 模型的成功展示了知识蒸馏与微调结合的强大潜力。通过从大型模型中提炼关键知识,并将其传递给小型模型,可以在极低的成本下实现高性能。
研究显示,新模型s1-32B在使用该技术后,性能与测试时的计算资源成正相关
都去“蒸馏”了,还有人踏实做数据积累吗?
对于DeepSeek这样的公司而言,这种发展可能既带来了挑战也提供了机遇。一方面,低成本的高效模型可能会对其商业模式构成威胁;另一方面,这也提示了未来发展方向,即更加注重算法和方法上的创新,而非单纯依赖昂贵的计算资源。
这种方法不仅适用于推理模型,还可以推广到其他类型的 AI 模型训练中,这对于推动人工智能技术的普及和发展具有重要意义。随着训练成本的降低,更多的企业和研究机构将能够参与到 AI 模型的开发和应用中。这将推动 AI 技术在更多领域的落地,加速行业的数字化转型。
不过,s1的出现也引发了行业的担忧。此前,OpenAI曾指控DeepSeek不当使用其API数据进行蒸馏。有分析人士质疑,如果任何人都可以轻易复制和超越现有的顶级模型,那么大型AI公司多年的研发投入和技术积累可能会受到威胁。而且,尽管蒸馏技术在以较低成本复现AI模型方面表现出色,但其对新AI模型性能的提升效果并不显著。
公众和媒体应当谨慎解读此类消息,避免过度夸大其实际影响。
- 蒸馏是几乎所有AI公司都普通使用过的手段,甚至openai也不敢说他自己就没有用过。。。。
- 不管怎么说Deepseek横空出世打破了丑国的AI用钱堆算力卖高价的“竭泽而渔”搞垄断的死胡同,DeepSeek的出现给AI发展指出了正确的道路,用开源AI的民主化打破了丑国对AI的封闭垄断,给全世界人民带来共享AI红利的新希望。
