创造历史!DeepSeek超越ChatGPT登顶中美AppStore

芯片之家 2025-01-27 12:41

机器之心报道

机器之心编辑部

DeepSeek 20 日发布以来获得的热度至今依然没有任何消退的迹象。一觉醒来,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。
不少网友都认为这是他们当之无愧。
毕竟,正如 a16z 合伙人、Mistral 董事会成员 Anjney Midha 说的那样:从斯坦福到麻省理工,DeepSeek-R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。
甚至有网友认为 DeepSeek 是 OpenAI 与英伟达都未曾预见的黑天鹅。
与此同时,围绕 DeepSeek-R1 的各路消息也正层出不穷 ——Hugging Face 等组织正在尝试复现 R1、DeepSeek 之前接受的采访被翻译成了英文版并正在 AI 社区引发热议、开发了 Llama 系列模型的 Meta 似乎陷入了焦虑之中…… 下面我们就来简单盘点一下最近两天围绕 DeepSeek 的几个热点议题。
DeepSeek 创始人梁文锋之前接受的采访被翻译成了英文版,正在 AI 社区引发热议
AI 社区开启 R1 复现热潮
DeepSeek-R1 是开源的,但也没有完全开源 —— 相关的训练数据、训练脚本等并未被公布出来。不过,因为有技术报告,也就有了复现 R1 的指导方针,也因此,最近有不少人都在强调复现 R1 的重要性与可行性。
𝕏 博主 @Charbax 总结了 DeepSeek 文档中没有介绍的地方以及复现 R1 的一些难点。
  • 训练流程的细节。虽然其技术报告中介绍了强化学习阶段和蒸馏,但省略了关键的实现细节,包括超参数(例如,学习率、批量大小、奖励缩放因子)、用于生成合成训练数据的数据管道(例如,如何编排 800K 蒸馏样本)、需要人类偏好对齐的任务的奖励模型架构(多语言输出的「语言一致性奖励」)。
  • 冷启动数据生成。报告中虽然提到了创建「高质量冷启动数据」(例如,人工标准、少样本提示)的过程,但缺乏具体的示例或数据集。
  • 硬件和基础设施。没有关于计算资源(例如,GPU 集群、训练时间)或软件堆栈优化(例如,DeepSeek-V3 的 AMD ROCM 集成)的详细信息。
  • 复现难题。缺少多阶段强化学习的脚本等组件。

当然,也确实有些团队已经开始行动了。

Open R1:复现一个真・开源版 R1
在复现 R1 的各式项目中,最受人关注的当属 Hugging Face 的 Open R1 项目。
  • 项目地址:https://github.com/huggingface/open-r1

Open R1 宣称是 DeepSeek-R1 的「完全开放复现(A fully open reproduction)」,可以补齐 DeepSeek 没有公开的技术细节。该项目目前还在进行中,已经完成的部分包括:

  • GRPO 实现
  • 训练与评估代码
  • 用于合成数据的生成器
Hugging Face CEO Clem Delangue 的推文
据其项目介绍,Open R1 项目计划分三步实施:
第一步:复现 R1-Distill 模型,具体做法是蒸馏一个来自 DeepSeek-R1 的高质量语料库。
第二步:复现 DeepSeek 用于创建 R1-Zero 的纯强化学习管线。这一步涉及到编排一个新的大规模数据集,其中包含数学、推理和代码数据。
第三步:通过多阶段训练从基础模型得到强化学习微调版模型。
7B 模型 8K 样本复现 R1-Zero 和 R1
另一个复现 R1 的团队是来自香港科技大学的何俊贤(Junxian He)团队,并且他们采用的基础模型和样本量都非常小:基于 7B 模型,仅使用 8K 样本示例,但得到的结果却「惊人地强劲」。
  • 项目地址:https://github.com/hkust-nlp/simpleRL-reason

需要注意,该团队的这个实现的实验大都是在 R1 发布之前完成的。他们发现,仅使用 8K MATH 示例,7B 模型就能涌现出长思维链 (CoT)和自我反思能力,而且在复杂的数学推理上的表现也非常不错。
具体来说,他们从基础模型 Qwen2.5-Math-7B 开始,仅使用来自 MATH 数据集的 8K 样本直接对其进行强化学习。最终得到了 Qwen2.5-SimpleRL-Zero 与  Qwen2.5-SimpleRL。
或者按其博客的说法:「没有奖励模型,没有 SFT,只有 8K 用于验证的 Math 样本,得到的模型在 AIME 上成绩为(pass@1 准确率)33.3%、在 AMC 上实现了 62.5%、在 MATH 上实现 77.2%,优于 Qwen2.5-math-7B-instruct,可与使用多 50 倍数据和更复杂组件的 PRIME 和 rStar-MATH 相媲美。」
Qwen2.5-SimpleRL-Zero 的训练动态
所得模型与基线模型的 pass@1 准确度
基于 3B 模型用 30 美元复现 R1
TinyZero 则是一个尝试复现 DeepSeek-R1-Zero 的项目,据其作者、伯克利 AI 研究所在读博士潘家怡(Jiayi Pan)介绍,该项目是基于 CountDown 游戏实现的,完整配方有一句话就能说完:「遵照 DeepSeek R1-Zero 的算法 —— 一个基础语言模型、提示词和 ground-truth 奖励,然后运行强化学习。」
实验过程中,模型一开始的输出很蠢笨,但逐渐发展出修改和搜索等策略。下面展示了一个示例,可以看到模型提出解决方案,自我验证,并反复修改,直到成功。
实验中,该团队也得到了一些有意思的发现:
基础模型的质量很重要。0.5B 的小模型在猜测一个解答之后就会停止,而从 1.5B 规模开始,模型会开始学习搜索、自我验证、修正解答,从而可以得到远远更高的分数。
基础模型和指令模型都可行。实验发现,指令模型的学习速度更快,但性能会收敛到与基础模型同等的程度;同时指令模型的输出更加结构化、更可读。
具体采用什么强化学习算法并不重要。该团队尝试了 PPO、GRPO 和 PRIME,但它们的差异并不大。
模型的推理行为严重取决于具体任务。对于 CountDown 游戏,模型会学习执行搜索和自我验证;对于数值乘法,模型会学习使用分配律分解问题并逐步解决。
模型学会乘法分配律
而最惊人的是,整个项目的计算成本不到 30 美元。
Meta 的焦虑:下一代 Llama 可能赶不上 R1
数天前,机器之心报道文章《Meta 陷入恐慌?内部爆料:在疯狂分析复制 DeepSeek,高预算难以解释》引起广泛关注与讨论。
文章中, Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌。
今日,The Information 最新的文章爆料出更多内容。
在文章中,The Information 爆料称包括 Meta 人工智能基础设施总监 Mathew Oldham 在内的领导表示,他们担心 Meta Llama 的下一个版本性能不会像 DeepSeek 的那样好。
Meta 也暗示 Llama 的下一个版本将于本季度发布。
此外,文章也爆料,Meta 生成式 AI 小组和基础设施团队组织了四个作战室来学习 DeepSeek 的工作原理。
其中两个作战室,正在试图了解幻方是如何降低训练和运行 DeepSeek 模型的成本。其中一名员工表示:Meta 希望将这些技术应用于 Llama。
其中一些开发人员透露,尽管 Meta 的模型是免费的,但它们的运行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通过批量处理其模型客户的数百万条查询来降低价格。但是,使用 Llama 的小型开发人员却没有足够的查询来降低成本。
据一位直接了解情况的员工透露,第三个作战室正在试图弄清楚幻方可能使用哪些数据来训练其模型。
第四作战室正在考虑基于 DeepSeek 模型的新技术,重构 Meta 模型。Meta 考虑推出一个与 DeepSeek 相似的 Llama 版本,它将包含多个 AI 模型,每个模型处理不同的任务。这样,当客户要求 Llama 处理某项任务时,只需要模型的某些部分进行处理。这样做可以使整个模型运行得更快,并且以更少的算力来运行。
不知道,在这样的压力下,2025 年 Meta 会拿出什么样的开源模型?说不定,Meta 也会加入到复现 R1 的浪潮中。
不过可以预料的是,在 DeepSeek 这条鲶鱼的搅动下,新一年的大模型格局正在发生转变。
对新一年的 AI 技术发展与应用,你有什么样的期待?欢迎留言讨论。
参考链接:
https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley


评论
  • 一、 平流层超压气球:极端环境下的监测挑战  平流层超压气球长期悬浮于18-40公里高空,持续承受-70℃至+85℃的剧烈温变、不足地面10%的低压环境(30km高度约10hPa)及强宇宙辐射。传统MEMS压阻传感器在此环境下易出现零点漂移、灵敏度衰减,导致高度控制失准或科学数据失真。  典型案例:2021年印尼弗洛雷斯海7.3级地震监测中,平流层气球需在3000公里外检测次声波引发的微帕级压力波动——相当于海平面气压的百万分之一。此场景对传感器的分辨率与抗干扰能力
    传感器晨穹 2025-06-23 13:58 482浏览
  • 在智能制造浪潮席卷全球的今天,MES系统(制造执行系统)作为连接企业管理层与车间生产层的“神经中枢”,其重要性日益凸显。它能有效打通信息孤岛,实现生产全流程透明化、可控化与智能化,是企业迈向“数字化智造”的核心引擎。面对众多国内厂商,如何选择最适合的MES系统?本文将为您揭晓综合实力领先的五大国内MES厂商,并提供实用的选型策略。 国内五大MES系统厂商综合实力排名 1.  盘古信息l 核心优势:盘古信息IMS智能制造系统,通过智能柔性计划排程系统,实时展
    盘古信息IMS 2025-06-24 16:47 133浏览
  • 文/Leon编辑/cc孙聪颖2025年刚刚过半,中、韩面板企业正展开新一轮的专利大战。据韩媒报道,LG Display(以下简称“LGD”)于当地时间6月13日,向美国得克萨斯州东区地方法院提起诉讼,指控天马微电子侵犯其7项专利。据悉,LGD在诉状中提及专利涵盖OLED面板、车载LCD(液晶)面板、移动LCD面板等,诉求则是要求天马通过正当手段获得专利许可。(详情见:抱紧苹果的大腿,LGD单季度扭亏为盈)《华尔街科技眼》就该事件联系了LGD和天马微电子的相关工作人员,均未获得回应。这不是中、韩面
    华尔街科技眼 2025-06-20 17:44 193浏览
  • 要有效预防电磁铁损坏,需要从电气防护、环境控制、操作规范和定期维护四个方面采取综合措施。在电气防护方面,要严格控制工作电压,确保其与额定值的偏差不超过±15%,对于高压电磁铁还需加装短路保护装置。同时要做好绝缘保护,shou次使用前必须测量绝缘电阻,在潮湿环境中要增加检测频率。环境控制同样重要,要根据工作环境的温湿度条件选择合适的电磁铁型号,ji端环境下要采取特殊防护措施。运输过程中要做好缓冲包装,避免机械损伤。操作时要注意控制通电时间,监测线圈温度,避免超负荷运行。多台电磁铁同时使用时,要保证
    锦正茂科技 2025-06-23 11:35 417浏览
  • 记得是1989年在中美合资企业工作时,质检部任职,一次清理寿命实验后不要了的产品时,看到即将扔掉的有好有坏的产品中一个自己经手过的还可以使用的万用表,就留了一个,拿回家使用,都正常,后来,用的少了,放在柜子里,没有拿出电池,时间长了,电池泄露,腐蚀的一塌糊涂!做了清除,这是2017年的事了。这是2017年当时拆开来的状况:用酒精做了仔细的清洗,接下来就想着到哪儿找到可以利用的电池极片呢?买也不容易,总想着废物利用,手头有其它废弃的产品上拆下了保留着的,都不适用,反正不急。正好家人我们要外出一段时
    自做自受 2025-06-24 22:57 223浏览
  • 电磁铁损坏通常由电气、机械、环境和操作等多方面因素共同导致。电气系统异常是zui常见的原因,包括电压超标和绝缘失效。电压偏离额定值15%以上容易造成线圈过热烧毁,而潮湿环境则会导致绝缘电阻骤降,引发击穿故障。机械结构问题也不容忽视,铁芯卡滞、异物堵塞以及超负荷运行都会加速部件磨损,影响电磁铁寿命。环境因素对电磁铁的影响主要体现在温湿度和散热条件上。高温环境会加速绝缘材料老化,潮湿则可能导致非防水型号的性能下降。此外,散热设计缺陷或连续通电时间过长都会使线圈温度异常升高。操作和维护不当同样会引发故
    锦正茂科技 2025-06-23 11:11 376浏览
  • 一、引言自5G正式商用以来,全球通信产业经历了前所未有的变革。5G以其超高带宽、超低时延、海量连接的能力,使得智能制造、自动驾驶、AR/VR、物联网等新兴产业得以快速落地。但随着5G的广泛应用,其在实际部署过程中仍面临一系列挑战:网络覆盖有限、边缘性能不足、上行能力偏弱等问题日益凸显。为解决这些瓶颈并为6G的演进奠定基础,3GPP于Rel-18阶段提出了“5G Advanced(5G-A)”标准。5G-A不仅是5G的增强版本,更是迈向6G的关键过渡技术,其将深度融合通信、感知、智能、控制、安全等
    用户1750544933504 2025-06-22 21:15 8029浏览
  • 当下,智能手机市场越来越卷,各大品牌纷纷绞尽脑汁,试图凭借各类卖点抢占市场份额。华为首款全系标配HarmonyOS 5.1的高端直屏旗舰Pura80系列亮相后,热度一路飙升,迅速开启市场狂飙模式。该机于6月5日开启预约,截至6月11日,华为商城上华为Pura 80 Pro和华为Pura 80 Pro+预约数已达28.4万。近日,华为Pura 80系列终于开卖了!开售后,Pura 80系列手机迅速在全国多地掀起抢购热潮,北京、上海、深圳等地的华为旗舰店外出现排长队抢购新机的场面。难道就因为余承东说
    用户1742991715177 2025-06-22 11:28 298浏览
  • 一、引言随着汽车新四化“电动化、网联化、智能化、共享化”全面推进,几乎每一项新技术的诞生都离不开汽车电子的身影。其中,电子控制单元(Electronic Control Unit,ECU)作为汽车电子控制系统的核心。与传统ECU相比,采用AUTOSAR(AUTomotive Open System ARchitecture,汽车开放系统架构)这种分层架构,极大降低了汽车嵌入式系统软、硬件耦合度。图1 传统软件架构与AUTOSAR架构对比此外,随着国内新能源汽车相关控制器正向开发需求的增长,AUT
    康谋 2025-06-25 10:10 56浏览
  • 射频同轴连接器材料领域近年来取得显著突破,主要体现在导体、绝缘介质和结构件三个方面。在导体材料方面,高强度铜铍合金的应用大幅降低了信号失真,其热稳定性提升至175℃,特别适合毫米波连接器使用。纳米晶合金的引入使得外壳厚度缩减至0.35mm,同时保持you异的电磁屏蔽性能,为微型化设备提供了可能。绝缘材料方面,交联PEEK等高温聚合物可耐受300℃高温环境,PTFE微粉注塑技术则实现了超薄绝缘层的低损耗传输。复合绝缘结构的一体化成型设计不仅提升了性能,还显著缩短了生产周期。结构件创新包括轻量化航空
    锦正茂科技 2025-06-25 10:02 45浏览
  • 摘要核工业安全监测对压力传感器的精度、稳定性及抗极端环境能力提出了严苛要求。石英谐振压力传感器凭借其基于石英晶体压电效应的独特工作原理,在高精度测量、抗辐照、宽温域适应性等方面展现出显著优势。本文系统解析石英谐振压力传感器在核工业中的核心应用场景,包括反应堆压力容器监测、管道泄漏检测及放射性物质运输监控,并结合晨穹石英谐振压力传感器的技术特性与实际案例,论证其在核安全领域的不可替代性。研究表明,晨穹 RPS01 系列石英绝压压力芯体通过全金属密封封装、双通道温度补偿及 AI 自校准算法
    传感器晨穹 2025-06-23 10:43 329浏览
  • /*************  功能说明    **************本例程基于AI8051U为主控芯片的实验箱进行编写测试.使用Keil C251编译器,Memory Model推荐设置XSmall模式,默认定义变量在edata,单时钟存取访问速度快。edata建议保留1K给堆栈使用,空间不够时可将大数组、不常用变量加xdata关键字定义到xdata空间。下载时, 选择时钟 24MHZ (用户可自行修改频率).*******************
    丙丁先生 2025-06-21 07:36 4968浏览
  •   再次拆开来,干脆放上电池看看,呵呵,转呀!  嘀嗒嘀嗒声好听,小齿轮转啊转尊,挺有活力啊!  莫非是活动关节受阻?  仔细,用放大镜观察,真是的!轴承与转杆接触位有污垢。  拆解下来,用酒精仔细清洗干净,看看纸上是刷子擦下来的污迹。  顺便把PCB、其他可能的零部件,也用酒精擦一擦  清洗清洁后的的各个零部件。  再看看电极接触点,有磨损,露出了底下的铜金属。  想想,用焊锡填补吧!  金属表面不太接受,总算有了一点焊锡,试试看吧!  再组装回去,装上电池,不转动!  再拆开来,到底是那个零
    自做自受 2025-06-21 12:19 2611浏览
  •  汽车轮胎质量,轮胎胎压,等等,关系到汽车行驶安全,做车人,开车人生命安全,汽车轮胎胎压关系到汽车能否正常行驶,所以时刻监测胎压各种参数非常重要,下面我们对一款胎压监测传感器产品进行拆解和分析:  胎压监测传感器产品技术数据和外观图片介绍如下:胎压监测传感器技术数据如下:电池寿命:≥6年;工作温度:-40℃--+105℃;储存温度:-40℃--+125℃;工作湿度:<90%;频率:314.95MHz&433.92MHz;压力监测范围:0-800kpa;
    开发工匠 2025-06-25 12:07 48浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦