斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。

近日,斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。

被网友质疑抄袭,面壁智能团队进一步验证

事件起源于5月29日,一个斯坦福AI 团队在网络上高调宣传,只需500美元就可训练出一个超越GPT-4V 的 SOTA 多模态大模型。该模型发布的推特帖子浏览量很快就超过了30万,转发300+次,并迅速冲到了 Hugging Face 首页。

随后,推特与 Hugging Face 上就开始出现怀疑的声音,网友质疑 Llama3V 套壳了面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何“致敬”或“感谢”MiniCPM-Llama3-V 2.5 的声音。对此,Llama3V 团队回复称他们“只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer”,并宣称“在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作”。

之后,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。

随着事件逐渐发酵,面壁智能团队也就此事展开了调查。

面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳。

而实锤Llama3-V 开源模型抄袭MiniCPM-Llama3-V 2.5的最有力证据,正是对于清华简的识别能力。

据称,这是MiniCPM-Llama3-V 2.5的“彩蛋”能力,是他们用了从清华简逐字扫描并标注的数据集训练的,并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样,不仅做对的题一样,出错的地方都一样。

此外,有网友研究后发现,Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。

于是推测,Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声。

斯坦福Llama3-V团队道歉,作者“失联跑路

今早北京时间凌晨1点27分,斯坦福Llama3-V团队的两位作者Siddharth Sharma和 Aksh Garg在社交平台上就这一学术不端行为向面壁MiniCPM团队正式道歉,并表示会将Llama3-V模型悉数撤下。

Aksh Garg表示,“首先,我们要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa一起发布了Llama3-V,Mustafa为这个项目编写了代码,但从昨天起就无法联系他。我与Siddharth Sharma主要负责帮助Mustafa进行模型推广。我们俩查看了最新的论文,以验证这项工作的新颖性,但并未被告知或意识到OpenBMB(清华团队支持发起的大规模预训练语言模型库与相关工具)之前的任何工作。我们向作者道歉,并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任,并已撤下Llama3-V,再次致歉。”

而被指“失联”的Mustafa X主页目前已经开启保护锁定状态,申请才能关注。

另外,斯坦福人工智能实验室主任Christopher David Manning也发文谴责这一抄袭行为,并对MiniCPM这一中国开源模型表示赞扬。

nobody悄然成长为关键推动者

MiniCPM-Llama3-V 2.5是由面壁智能和清华大学自然语言处理实验室联合推出的, 它具有以下特点:

  • 8B 参数量:这个模型拥有8亿参数,这使得它在处理复杂任务时表现出色。
  • 多模态能力:MiniCPM-Llama3-V 2.5 能够接受图像和文本输入,并提供高质量的文本输出。
  • OCR 能力:模型增强了光学字符识别(OCR)能力,能够接受高达180万像素的任意宽高比图像输入,并在OCRBench上得分达到725,超越了其他商用闭源模型。
  • 多语言支持:支持30多种语言,包括英语、中文、法语、西班牙语、德语等,展现出良好的多语言多模态对话性能。
  • 高效部署:通过模型量化、CPU、NPU、编译优化等高效加速技术,实现了高效的终端设备部署。

它在多模态大模型评测基准的OpenCompass榜单上平均得分65.1,超过了GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等主流商用闭源多模态大模型。

尽管中国在AI大模型的研发上起步稍晚,但其发展速度却异常迅猛。目前,国内涌现出了一批知名的AI大模型企业,它们分别是通义千问、Yi、OpenBMB 、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、Skywork、HunyunDiT等等,这些企业都在各自的领域取得了显著的成就。

在视觉大模型的竞赛中,零一万物的Yi-VL-Plus模型脱颖而出,以优异的成绩位列第五,甚至超越了谷歌的Gemini Pro Vision。同时,智谱AI与清华合作的CogVLM也成功跻身前十,充分展示了中国在视觉AI领域的强大实力。

而在更具权威性的LMSYS Chatbot Arena Leaderboard竞技场榜单中,中国的大模型也在不断刷新“最强开源”的纪录,这进一步证明了中国在AI大模型技术领域的领先地位。

值得一提的是,中国的大模型不仅在技术上取得了突破,更在实际应用中展现出了强大的通用性和跨领域能力。例如,上海人工智能实验室研发的书生浦语开源大模型,凭借其70亿参数的轻量级版本和200亿参数的中量级版本,在多个领域都表现出了卓越的性能,这为中国在AI大模型的应用落地方面树立了新的标杆。

此外,中国在算力方面也具备坚实的基础。尽管与美国相比,中国现有的算力总规模仍有一定差距,但在以GPU和NPU为主的智能算力规模上,中国已经明显超越美国。这一优势为中国大模型的训练提供了强有力的支持,使得中国在AI大模型领域的发展更加迅速。

刘知远也表示,从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年前的nobody,快速成长为人工智能科技创新的关键推动者。

面壁智能知错能改,善莫大焉

面壁智能CEO李大海表示,“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。”

面壁智能首席科学家、清华大学长聘副教授刘知远表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCPM-Llama3-V 2.5 就用了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

北京面壁智能科技有限责任公司成立于2022年8月,今年4月,面壁智能完成新一轮数亿元融资,由华为哈勃领投,春华创投、北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。今年2月,面壁智能发布开源模型MiniCPM后,又推出MiniCPM 2系列端侧模型。李大海表示,推动大模型在端侧的落地是面壁目前的重点工作之一。

责编:Demi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
H100芯片是专为处理大型语言模型数据而开发的人工智能芯片,每块价格约在3-4万美元之间。按每个H100售价3万美元来算,xAI公司仅芯片预计就要花掉近30亿美元。未来几年,xAI在云服务器上可能就要花费100亿美元。
根据目前的计划,Northern Data最早将于2025年上半年在纳斯达克上市一家由其云计算业务(名为Taiga)和数据中心(名为Ardent)组成的实体,并可能在未来几个月内指定一家牵头行,预计最早于2025年上半年登陆纳斯达克。
优必选也将投入资源研发优化人形机器人在工业场景应用的产品和解决方案,助力一汽-大众提升制造工厂的智能化和无人化水平,打造高智能化和柔性化的生产线及汽车超级无人工厂。
亚马逊近年来不断加大投资和创新,其中投资千亿美元的数据中心,就是其远景规划之一。同时,亚马逊在自研大模型,还通过向人工智能初创公司Anthropic(被视为OpenAI最强对手的人工智能初创公司 )投资40亿美元现金,展示了其在人工智能领域的长期战略和决心。
在《数字市场法案》(Digital Markets Act, DMA)草案公布后,德国和法国等国认为欧盟应加强并加快对大型科技企业并购的审查,并要求获得在国家层面采取行动的更大权力。这反映出欧盟对大科技公司利用其优势进入新技术领域的态度逾趋谨慎。
对关键数字和绿色领域的投资对于所有欧盟地区的企业业绩都至关重要。此外,在绿色和数字双重转型时代,欧洲经济调整和转型的灵活性不仅取决于对这些领域的投资强度,还取决于运营环境的效率。
AONZ66412 XSPairFET™ 占地面积紧凑,可简化 PCB板内设计,有助于提高功率密度,同时满足高效Type C应用性能需求。
随着低轨卫星服务全球用户渗透率持续上升,驱动全球卫星零组件供应商陆续切入星链(Starlink)与一网(OneWeb)两家主要卫星大厂供应体系,预估2021~2025年全球卫星市场产值从2830亿提升至3570亿美元,年复合成长率(CAGR)2.6%。
“成电协·会员行”专题内容团队今天走进致力成为国内一流的创新型安全用电管理专家方案提供商的优秀企业——成都博高电管家科技有限公司。
江波龙巴西子公司Zilia(智忆巴西)已经开始封装生产江波龙存储产线。与此同时,智忆巴西公布了6.5亿雷亚尔(约8.59亿人民币)的投资计划。
7月3日消息,赛力斯发布公告称,公司控股子公司赛力斯汽车拟收购华为持有的已注册或申请中的919项问界等系列文字和图形商标,以及44项相关外观设计专利,收购价款合计25亿元!赛力斯指出,本次交易不影响双
来源:朗玛峰创投编辑:感知芯视界 Link近日,全球CMOS毫米波雷达SoC芯片领军者加特兰宣布完成数亿人民币的D轮融资。本轮融资由国家集成电路产业投资基金二期股份有限公司、上海国鑫创业投资有限公司、
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:通信百科申明:感谢
重庆三安8英寸SiC衬底产线将于8月通线!据“西永微电园”7月2日消息,6月30日,重庆三安半导体衬底厂迎来了主设备入场,并且进机仪式取得圆满结束,标志着重庆三安衬底工厂通线即将进入倒计时阶段。据重庆
  在洁净车间的装修与设计中,防火与消防设计是至关重要的环节,它直接关系到生产安全、人员安全以及设备保护。以下是合洁科技电子净化工程公司对集成电路洁净车间防火消防设计要点的进一步阐
新产品、新技术、新生意!文 | 浙江中力6月29日,中力第六届629新产品、新技术、新生意发布大会在中力湖北工业园区盛大召开!全新工业园区首次展露新颜,笑迎五湖四海八方来客;超强创新产品阵容尽显中力绿
前段时间,网上出现了一条新闻,成功吸引了我的注意。新闻标题如下:堡垒基站?这是什么东东?以前没听说过啊!本着好奇心,我仔细阅读了这条新闻,并搜寻了相关资料,终于搞明白了这个新名词的来龙去脉。接下来,我
因应多样物联网应用的连接需求,无线多协议设计已成为行业的显学,而Silicon Labs(亦称“芯科科技”)凭借多年来在无线网状网络、动态多协议技术支持方面的丰富经验,可以为物联网开发人员提供最可靠、
近年来,国内功率半导体赛道逐渐火爆,为何业内普遍看好功率半导体的市场前景呢?这要从功率半导体的特性说起。客观而言,功率半导体属于特色工艺产品,非尺寸依赖型,在制程方面不追求极致的线宽,不必遵循摩尔定律
《中国电化学储能产业传感器发展蓝皮书》(下文简称“蓝皮书”)是我国唯一一部专业和系统化梳理传感器产品技术在电化学储能领域应用和发展的蓝皮书。本书由中国传感器与物联网产业联盟主导编写,汇集了一批储能产业