应激的Llama,开源的困局

原创 脑极体 2025-04-24 18:04


在DeepSeek R1-V3、GPT-4o、Claude-3.7的强势围攻下,Meta坐不住了。曾作为开源之光的Llama在一年的竞争内连连失利,并没有研发出让公众惊艳的功能。创始人扎克伯格下达死命令,今年4月一定要更新。


于是我们迎来它仓促的答卷——一款在实测中让人大跌眼镜的模型Llama4,号称10m token的上下文长度频频出错、初代小球测试难以完成、9.11>9.9的比大小失误……这场本应扎眼的亮相从期待变成群嘲。上线几天内,高管离职、测试作弊等丑闻被内部员工爆料证实。



作为开源生态的标杆,Llama系列曾以Llama 2的辉煌战绩——衍生超过7000个变体、累计下载超3亿次,定义了商业级开源大模型的黄金时代。而短短两年间,这场由Meta主导的开源运动在技术内卷中逐步迷失初心,进入到一种缺乏创新的恶性内卷。


再加上,开源模型并不靠C端会员制付费变现,短期盈利无望。既如此,Llama为何急着更新?国内外的开源模型又在卷什么呢?



Meta最新发布的Llama 4系列包括Scout(1000万Token上下文窗口)、Maverick(编码与推理对标DeepSeek V3)和尚未发布的Behemoth(2880亿活跃参数),官方声称其是有史以来最强多模态大模型。


不过,24h就被打脸了。


发布第二天就有内部员工爆料,Llama4的基准测试存在严重造假,模型远远达不到开源sota标准,但为了赶在四月底前发布,领导将各个benchmark的测试集混合在post-training过程中,拿出了一个“看起来可以”的结果。


显而易见,技术掺水的后果是关键性能的严重缺陷。在社交媒体X和Reddit的用户实测中,Llama4多项任务明显落后于前代产品与同量级模型,公众并不为这样的噱头买单。


代码能力差强人意。在Polyglot编程测试中,Maverick版本的正确率仅为15.6%~16%,几乎垫底,与Meta声称的“编码能力超越DeepSeek”严重不符。其402B的参数规模并未带来优势,反而被32B参数的Qwen-QwQ等模型超越,基准测试结果严重失真。



核心卖点多模态能力未达预期,用户实测发现其图像理解能力甚至不如谷歌去年开源的Gemma 2,且在长上下文任务中表现不稳定,随着token长度增加性能显著下降。



Llama4的登场不仅没什么亮点,还面临着刷分造榜、砸钱走下坡路等污点。既然完全没训练好,Meta干嘛上赶着自己给自己找不快呢?


它太焦虑了,焦虑到即使只是一个登不上台面的残次品,也要黔驴技穷似地端上桌。


一方面,GPT-4o、Claude3.7等头部闭源模型在多模态、代码能力上的领先让Meta在海外市场苦不堪言;另一方面,DeepSeek V3等后起之秀的登场又让它在开源社区作为引领者的光环黯然失色。


内外夹击下,扎克伯格不得不设立四月ddl逼研发团队拿出作品,试图挽回公众的信心,但如此高压的战线反而弄巧成拙。没有时间搞创新的技术部不得不压缩测试周期,在模型未达预期情况下强行上线。


竞争和管理的双重高压让团队在内卷中丢失了技术本位的初心。其沿用的传统技术DPO虽简化了RLHF流程,但在数学、代码等复杂任务上表现不稳定。而相比GPT-4o的多模态架构,Llama 4的改进更像是仰赖Scaling law的小修小补,疯狂堆叠参数,忽略了对底层架构的探索。


急于求成的Meta,既没有耐心打磨技术,也没有遵守行业伦理,陷入了恶性内卷的开源困境。



从2023年起,一月一更新的头部模型军备赛让模型竞争陷入了恶性内卷。相似的训练数据、趋同的架构让众多产品高度同质化乏善可陈。GPT-4o、Claude等实力雄厚的闭源模型便脱颖而出。


让人疑惑的是,选择开源路径Llama,为何也要焦虑?它不靠会员订阅盈利,是否更新好像并不能带来更多实质的利润。


实际上,开源并不意味着放弃商业化,开源和闭源有着不同的盈利逻辑。闭源是直接卖产品,通过订阅付费赚钱,开源是为了构筑坚实的生态壁垒靠定制化服务占领未来的市场。


开源如何赚钱?通俗地讲,开源就相当于美食店的试吃,店家每天出100份免费甜点,为的是让顾客买更多的甜点。模厂开放免费的token使用次数,就是像美食店一样打响自己的名气,吸引有实力的企业和开发者购买定制化服务。


开源模型的第一笔生意是高性能API的销售。基础服务虽免费,但企业可提供高性能API服务,按调用量收费。DeepSeek-R1的API定价为每百万输入Token 1元,每百万输出tokens 16元。免费token额度用完了或者基础API满足不了需求,用户就倾向于使用付费版保持业务流程的稳定性。



此外,实力雄厚的政企客户是大模型商业化的主力军。出于高保密性和定制化需求,不少企业会购买模厂的私有化部署服务。厂商收取技术费用,根据需求提供定制化的模型训练、微调以及后续的系统维护升级服务。据悉,大模型私有化底座建设基本是千万打底,某模厂销售透露,部署他们公司最新的模型最少2000万,可以理解为五星级餐厅的私人晚宴和满汉全席。


其次,部分厂商选择开源与闭源并行的双轨路线。开源基础版满足通用需求,闭源高级版服务付费市场。相当于先给你一道开胃菜,你自己选择要不要再上主食。2023年的智谱就是一个典型,公司开源ChatGLM-6B等模型建立生态,同时推出闭源的千亿参数模型GLM-130B,向B端收费。



最后,开源其实是一道商业化的桥梁,目的是建构开发者生态社区,通过降低门槛、提高粘性、分层变现。举个例子,饭店提供试吃小菜建立了自己的吃货群,但同时也卖碗筷、卖调料品、卖店里游乐设施的体验服务。


大模型也是一样的道理,开源吸引的一大批开发者就是他的生态,可以植入广告收取广告费,可以卖云服务,也可以卖配套的AI产品。


实际上,开源就是为了抢生态。用户越多,未来的盈利渠道越丰富,但一旦性能被超越,开发者流失,会引发连锁反应。


所以Meta这么着急发布Llama4就是怕自己再不努力,开发者就会转向DeepSeek等更优模型。而前期苦心经营的AI生态一松动,看不到用户基数的云计算合作伙伴(如微软Azure)也会离席,导致间接盈利渠道萎缩,商业变现受阻。


更重要的是,前期AI大模型主要是打口碑效应,一旦落后,市场竞争力就会下降,而失去用户和合作伙伴的Llama在行业内部也逐步失去了辨识度。这意味着,提起开源大模型,人们讨论Llama的次数将会越来越少。


落后即淘汰的压力,迫使Meta必须在极短时间内推出Llama 4,哪怕牺牲模型质量。



天下没有免费的午餐,也没有免费的生意。


Meta对于开源的热衷,隐含着扎克伯格对大模型市场生态的渴望,这在一众国内公司中也不无体现。


在DeepSeek等企业的带动下,国内大模型公司纷纷加入开源浪潮,例如曾坚持走闭源路线的百度也宣布在2025年6月全面开源文心4.5系列。


不过,Llama4的失利也提醒我们,模型开源不能陷入恶性内卷,基础模厂找准差异化线路很重要。


一方面,要坚持创新带来的性能提升。DeepSeek的全栈开源能在短时间打破B端、G端两个市场,关键在于其MoE底层架构大大降低成本、提升效率。而Llama 4迷信scaling law,通过堆砌参数涌现智能的道路已不可通,未来破局的关键在攻克多模态、小样本前沿领域。


并且,基准测试不等于真实体验,不要一味追求sota而忽略了实际场景中的应用体验。与Llama 4不同,DeepSeek前期并没有给自己贴上登顶sota的光环,在海内外用户实测中赢得关注的它更有信服力。


另一方面,战略是关键,做好商业化关乎开源模型的生死存亡。



比如,阿里Qwen系列通过全模态开源吸引开发者使用云计算等基础设施,形成场景闭环。他们的模型在前期只是一个引子,明码标价的商品实则是云服务。而主攻AI的智谱清言没有其他东西卖,选择了开源闭源双轨并行的策略,开源吸引开发者生态,向B端和G端提供付费的定制解决方案。这说明,企业一定要结合自己的基因思考变现策略,抓准目标市场,想清楚他们的客户期待怎样的服务。


除了卖模型的人,使用模型的人也要注意,开源模型并非万全之策,存在隐性限制。


首先,部分开源模型会在许可证中明确禁止商业应用,仅限学术研究,如Meta llama2限制月活超7亿公司使用,削弱了开源的自由;其次,许多开源模型仅公开架构,不公开数据源和代码集,开发者只能基于现有模型微调;当然,部署也有一定的门槛,模型微调需要英伟达显卡等昂贵的计算资源,普通开发者难以承担。


实际选择开源模型时,AI开发者和软件ISV服务商一定要谨慎阅读各种附带条款和协议,避免许可证限制与法务风险;除了开源模型,开发者也可跟闭源模厂开发商业化版本,减少后期风险。


总之,Llama的一时落败告诉我们:没有技术巩固的开源生态,终是一盘散沙。开源模型厂商想靠吸引广大开发者培育用户粘性,必须保持性能领先,告别无效内卷,走向技术创新。



·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 234浏览
  •   军事仿真推演系统平台核心解析   北京华盛恒辉军事仿真推演系统平台以计算机仿真技术为基石,在功能、架构、应用及效能上展现显著优势,成为提升军事作战与决策能力的核心工具。   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、全流程功能体系   精准推演控制:覆盖推演启动至结束全流程。   智能想定管理:集成作战信息配置、兵力部署功能。   数据模型整合
    华盛恒辉l58ll334744 2025-05-14 17:11 119浏览
  • 在全球能源结构转型加速推进与政策驱动的双重作用下,油气输送、智慧水务及化学化工等流体计量场景正面临效率革命与智能化升级的迫切需求。传统机械式流量计虽在工业初期有效支撑了基础计量需求,但其机械磨损、精度衰减与运维困难等固有缺陷已难以适应现代工业对精准化、智能化与可持续发展的多维诉求。在此背景下,超声波流量计则凭借着高精度探测、可实时监测、无侵入式安装、无阻流部件、易于维护与绿色环保等优势实现了突破性发展,成为当代高精度流体计量体系中不可或缺的重要一环。该技术不仅是撬动能源利用效率提升、支撑智慧管网
    华普微HOPERF 2025-05-14 11:49 94浏览
  • 一、量子自旋态光学操控1、‌拓扑量子态探测‌磁光克尔效应通过检测拓扑磁结构(如磁斯格明子)的磁光响应,实现对量子材料中非平庸拓扑自旋序的非侵入式表征。例如,二维量子磁体中的“拓扑克尔效应”可通过偏振光旋转角变化揭示斯格明子阵列的动态演化,为拓扑量子比特的稳定性评估提供关键手段。2、‌量子态调控界面‌非厄米磁光耦合系统(如法布里-珀罗腔)通过耗散调控增强克尔灵敏度,可用于奇异点附近的量子自旋态高精度操控,为超导量子比特与光子系统的耦合提供新思路。二、光子量子计算架构优化1、‌光子内存计算器件‌基于
    锦正茂科技 2025-05-13 09:57 74浏览
  • 一、蓝牙射频电路设计的核心价值在智能穿戴、智能家居等物联网设备中,射频性能直接决定通信质量与用户体验。WT2605C等蓝牙语音芯片的射频电路设计,需在紧凑的PCB空间内实现低损耗信号传输与强抗干扰能力。射频走线每0.1dB的损耗优化可使通信距离提升3-5米,而阻抗失配可能导致30%以上的能效损失。二、射频走线设计规范1. 阻抗控制黄金法则50Ω标准阻抗实现:采用4层板时,顶层走线宽度0.3mm(FR4材质,介电常数4.3)双面板需通过SI9000软件计算,典型线宽1.2mm(1.6mm板厚)阻抗
    广州唯创电子 2025-05-13 09:00 40浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 402浏览
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 165浏览
  • 在当下的商业版图中,胖东来宛如一颗璀璨的明星,散发着独特的光芒。它以卓越的服务、优质的商品以及独特的企业文化,赢得了消费者的广泛赞誉和业界的高度关注。然而,近期胖东来与自媒体博主之间的一场激烈对战,却如同一面镜子,映照出了这家企业在光环背后的真实与挣扎,也引发了我们对于商业本质、企业发展以及舆论生态的深入思考。​冲突爆发:舆论场中的硝烟弥漫​2025年4月,抖音玉石博主“柴怼怼”(粉丝约28万)突然发难,发布多条视频直指河南零售巨头胖东来。他言辞犀利,指控胖东来在玉石销售方面存在暴利行为,声称其
    疯人评 2025-05-14 13:49 127浏览
  • 在当下竞争激烈的 AI 赛道,企业高层的变动往往牵一发而动全身,零一万物近来就深陷这样的动荡漩涡。近日,零一万物联合创始人、技术副总裁戴宗宏离职创业的消息不胫而走。这位在大模型基础设施领域造诣颇深的专家,此前在华为云、阿里达摩院积累了深厚经验,在零一万物时更是带领团队短期内完成了千卡 GPU 集群等关键设施搭建,其离去无疑是重大损失。而这并非个例,自 2024 年下半年以来,李先刚、黄文灏、潘欣、曹大鹏等一众联创和早期核心成员纷纷出走。
    用户1742991715177 2025-05-13 21:24 207浏览
  •   军事领域仿真推演系统的战略价值与发展前瞻   北京华盛恒辉仿真推演系统通过技术创新与应用拓展,已成为作战效能提升的核心支撑。以下从战略应用与未来趋势展开解析:   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、核心战略应用   1. 作战理论创新引擎   依托低成本仿真平台,军事人员可高效验证新型作战概念。   2. 装备全周期优化   覆盖武器
    华盛恒辉l58ll334744 2025-05-14 16:41 138浏览
  • 在智能设备与物联网技术深度融合的产业浪潮下,无线遥控技术早已突破电视机、空调与投影仪等传统遥控领域的应用边界,完成了从基础单向指令传输向多维智能交互体系的补充迭代,可精准匹配现代工业领域对遥控距离、遥控精度与环境适应性等能力的核心诉求。其中,无线射频作为一种具备远距离传输、抗干扰能力强与技术成熟度高等优势的无线通信技术,尤其是在Sub-GHz频段下,其低功耗、强穿透与广覆盖的特性进一步凸显,是在各种复杂工业环境中实现高可靠性的无线遥控方案之一。Sub-GHz射频在工业遥控方案中有那些应用优势?众
    华普微HOPERF 2025-05-15 11:19 88浏览
  •   舰艇电磁兼容分析与整改系统平台解析   北京华盛恒辉舰艇电磁兼容分析与整改系统平台是保障海军装备作战效能的关键技术,旨在确保舰艇电子设备在复杂电磁环境中协同运行。本文从架构、技术、流程、价值及趋势五个维度展开解析。   应用案例   目前,已有多个舰艇电磁兼容分析与整改系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润舰艇电磁兼容分析与整改系统。这些成功案例为舰艇电磁兼容分析与整改系统的推广和应用提供了有力支持。   一、系统架构:模块化智能体系   电磁环境建模:基
    华盛恒辉l58ll334744 2025-05-14 11:22 121浏览
  • PT100温度传感器凭借其高精度(±0.1℃级)和宽温域(-200℃~850℃)特性,广泛应用于以下核心场景:‌一、工业过程控制‌1、‌化工与石油‌l 监测反应釜温度(-200℃~850℃),通过PID算法调控加热/冷却系统,提升化学反应效率与**性。l 原油输送管道中采用浸入式铠装设计(316L不锈钢套管),实现-50℃~300℃范围的黏度与温度联动控制。2、‌电力设备‌l 监测变压器绕组表面温度(≤180℃),结合光纤绝缘层预防热老化故障。l 发电机冷
    锦正茂科技 2025-05-15 13:02 76浏览
  • PT100温度传感器是一种基于铂(Pt)电阻特性的温度测量器件,广泛应用于工业、医疗和科研领域。以下是其核心特性与应用解析:‌1. 定义与原理‌‌基本特性‌:PT100在0℃时基准阻值为100Ω,其阻值随温度升高近似线性增长(100℃时约138.5Ω),遵循公式 ‌R=Ro(1+αT)‌(Ro为0℃阻值,α为温度系数)。‌工作原理‌:通过铂电阻的阻值变化反映温度,测温范围覆盖 ‌-200℃至+850℃‌,精度可达A级(±0.15℃)或B级(±0.30℃)。2.&nb
    锦正茂科技 2025-05-15 11:40 81浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 319浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦