随着今年高考的落幕,一场鲜为人知的"智能较量"也在幕后悄然兴起,那便是国产人工智能大模型。十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了成绩。

随着今年高考的落幕,一场鲜为人知的"智能较量"也在幕后悄然兴起,那便是国产人工智能大模型。

近日,搜狐科技、潇湘晨报、量子位、机器之心等十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了成绩。

高考作文

考题以“随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?”为题,引领考生思考科技进步与问题之间复杂的关系。

搜狐科技组织了十款AI大模型的作文评测,包括ChatGPT-4O、腾讯元宝、百度文心一言等。三位资深语文教师作为权威专家为各大模型的作文打分。结果显示,ChatGPT-4O以52.7分的平均成绩夺得第一,腾讯元宝以51.7分位居第二,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。即便排名最低的AI模型也获得了45.7分的平均分,考虑到作文满分为60分,这一成绩已相当于高中生的平均水平。

而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。

给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”

数学科目

在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。

在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。

机器之心选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

而在机器之心的评测中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

机器之心将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题,3 道,每道 5 分,填空正确计分,错误不得分。

                                    图|8 模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

机器之心还指出,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了。

机器之心表示,对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

物理科目

在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。

综合以上媒体在作文、数学、物理三门科目的成绩,来自科大讯飞的讯飞星火以总分52.49分高居综合排名第一。紧随其后的是通义千问和文心一言,分别位列第二、第三名。而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。

此次评测展示了人工智能大模型在应对高考这类复杂考试中的能力进展,体现了国内AI技术的快速发展。此外,高考作文单项成绩方面,有AI大模型取得了52.7的高分,显示出在语言理解和生成任务上的显著提升。

综合成绩:

第一名:52.49 讯飞星火

第二名:46.08 通义千问

第三名:37.67 文心一言

第四名:34.68  Kimi

第五名:33.57 字节豆包

第六名:31.92 海螺AI

第七名:30.61 腾讯元宝

第八名:30.28 智谱清言

第九名:21.56 百川百小应

责编:Demi
阅读全文,请先
您可能感兴趣
在从X86到ARM架构的转变过程中,多家科技巨头也加入争夺AI PC市场的战局,而且依靠台积电的先进芯片工艺制程,彼此差距将迅速缩小。比如,联发科通过与英伟达合作开发面向Windows PC的Arm架构处理器;AMD同样计划使用ARM技术来开发新的PC处理器。由此可见,高通在Arm架构服务器上也将承受不小压力。
值得关注的是,比亚迪将重点投资于生成式AI、大模型等先进技术,即通过生成式AI技术,更好地理解和预测复杂的交通环境,从而提供更加精准和可靠的驾驶辅助,从而提升其智能驾驶系统的性能和用户体验。
连续的巨额亏损,使得夏普需要为该工厂寻找新的出路。LCD和半导体在很多制造工艺上有共通之处,特别是在无尘生产上(生产过程中的颗粒和灰尘会导致产量降低)均有很高的环境要求。因此,LCD工厂的洁净室,可最大程度地降低这种风险,也自然适合芯片的生产和开发。
尽管AMD和英特尔也在打造自家的高性能AI芯片,尤其是AMD正在追赶英伟达,且势头正旺,而且英伟达的客户,包括微软、谷歌、亚马逊和特斯拉等也都在打造自己的AI芯片,但似乎未对英伟达资本市场的表现产生任何影响。
在手机芯片架构上,Arm可以说卡着全球科技巨头的“脖子”,但要想在PC市场复制这样的垄断优势似乎很难实现。对于Arm计划在未来五年内占据超过50%的Windows PC市场份额,我们还是持谨慎乐观的态度。
英伟达作为AI领域的领头羊,其业绩在AI热潮中一直表现出色,尤其是在GPU和AI计算处理器市场上。尽管面临来自AMD、英特尔等竞争对手的激烈竞争,英伟达依然保持着强劲的市场表现和技术领先优势。
从排名来看,前五大Foundry第一季排行出现明显变动,SMIC受惠消费性库存回补订单及国产化趋势加乘,第一季排行超过GlobalFoundries与UMC跃升至第三名……
本文根据完整的基准测试,将Achronix Semiconductor公司推出的Speedster7t FPGA与GPU解决方案进行比较,在运行同一个Llama2 70B参数模型时,该项基于FPGA的解决方案实现了超越性的LLM推理处理。
全新的XENSIV™ TLE49SR角度传感器系列兼具出色的抗杂散场能力和高精度,适用于电动助力转向、车辆高度调平等安全关键型汽车底盘系统应用。
锐成芯微的模拟及数模混合 IP 排名挺进全球第二、继续保持中国第一的位置,无线射频通信IP继续保持中国第一。
一凡 发自 副驾寺智能车参考 | 公众号 AI4Auto61.7亿,Cruise等来救命钱。母公司通用再次出手,给Cruise输血。从通用近期对外的发声来看,此次注资,很可能是为Cruise寻找外部融
为更好的服务广大半导体业内人士,及时推送和共享专业知识,本公众号特开通视频号,现已有多个视频上传共享。欢迎各位看官关注视频号!视频号主要内容:1、半导体典型关键工艺介绍2、全球半导体设备厂商介绍3、半
AI司机 发自 副驾寺智能车参考 | 公众号 AI4Auto喝咖啡,看News,各种出差体验最新的车,见各种有意思的人获取最酷的认知。这大概就是智能车参考编辑部的日常,现在这样的工作和生活方式,正式向
2024年电动智能汽车行业报告汇总(点击进入)6月11日晚间,恒大汽车公告,相关附属公司于近日收到相关地方行政部门进一步下发的行政处理决定书,被责令退回19亿元补贴。公告称,相关地方行政部门认为基于相
6月11日,PCB概念延续强势,龙头协和电子6连板,骏亚科技涨停,则成电子、生益电子涨超15%,逸豪新材、天承科技、中京电子等股涨幅居前。盘后,协和电子发布异动公告称,公司股票于2024年6月7日、6
苹果在 WWDC 2024 上发布了iOS 18和macOS 15系统,其中一项重要的新功能是“Apple Intelligence”—— 一套基于人工智能的工具集。该功能将于今年晚些时候正式上线,苹
曹原 发自 副驾寺智能车参考 | 公众号 AI4Auto吉利负责高端纯电的极氪,刚刚发布上市后首份财报。销量翻番增长,交付33059辆;总收入也大涨71%,达147.4亿元;车辆毛利率为正,为14%,
2024年6月12日-14日,美国视听显示与系统集成展览会(InfoComm 2024)在美国拉斯维加斯会展中心举办。来自中国的毫米波无线连接芯片创新企业和领导厂商——德氪微电子(深圳)有限公司(以下
信号与系统2024(春季)作业要求以及参考答案汇总[1]信号与系统2024(春季)作业要求 - 第十三次作业[2]01 参考答案一、系统的频率特性1、根据系统函数绘制系统频率特性  □ 解答:  (1
韩媒 ZDNet Korea 今日表示,三星 1b nm(12nm 级) DRAM 内存良率仍不足五成。这一数据远低于 80~90% 的业界一般目标,三星已于上月就此成立专门工作组应对。三星电子于 2