文心一言、GPT3.5及GPT-4的应用测评对比

智能计算芯世界 2023-03-22 00:00

OpenAI 2023 3 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评(文心一言、GPT3.5及GPT-4的应用测评对比)。
测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。
下载链接:
文心一言、GPT3.5及GPT-4的应用测评对比
从算力、算法、数据及应用看AIGC(2023)
《OpenAI:GPT-4技术报告(2023)》

人工智能深度:AIGC行业综述—开启AI新篇章(2023)

文心一言发布,国内厂商离复现ChatGPT走多远

ChatGPT的宏观视角

ChatGPT新兴需求驱动机会

算力革命:从ChatGPT看芯片产业机遇(2023)

1、GPT-4技术报告(英)-OpenAI(2023)
2、GPT-4技术报告(中)-OpenAI(2023)
OpenAI发布GPT-4,人工智能未来将至
深度:ChatGPT认知白皮书(2023)
《GPT-4技术及报告合集》
1、GPT-4震撼发布,AI算法之巅
2、OpenAI发布GPT-4,大模型发展进入新的里程碑
3、OpenAI:GPT-4技术报告

《129份重磅ChatGPT专业报告》


文心一言、GPT-3.5GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。
根据测试结果可以看出,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。
我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升,各模型性能都有望进一步优化。

1、常识和创作

常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作问题、给定主题的图像创作问题,以评价模型对已有知识的表述能力和图文生成能力。

常识题:中国有多少个省?

3个模型都进行了正确的回答,其中 GPT-4 生成的答案最为严谨和详细,不仅说明了“截止 2021 年”(由于 GPT-4 的知识截止 2021 年)、优先列举了省份,且对具体省级行政区的名称进行了详尽的列示。

文字创作题:请写一个刘红发大财的故事

3 个模型的回答来看,文心的分词能力仍有改进之处,没有对“刘红”和“发大财”进行很好的分词,而是以“刘红发”为主角进行创作。从情节设置的角度而言,GPT-4 的细节更加丰富、转折也更多,但由于生成 token 数的限制,这个故事并没有写完。此外,3 个模型的故事都体现了积极正面的价值观。

图像创作题:请画一张古典美女的油画

目前只有文心一言具备文生图的能力,GPT-3.5 依然是文生文。GPT-4 理论上可以输入文字和图片,但目前图片输入的功能尚未对用户开放。

2、归纳和推理

我们分别向 3 个模型提供演绎推理、情感推理、基于具体场景的逻辑推理问题,以及财务数据类的总结归纳问题,用以评价各模型归纳推理能力。
演绎推理题:假设在一个餐厅,如果一个人点了牛排,则他一定点了沙拉。如果一个人没有点沙拉,则他一定没有点牛排。现在有一个人点了沙拉,那么他是否一定点了牛排?
从本题回答来看,文心在演绎推理方面的能力相对较弱,GPT-3.5 4 持平。

详情参看“文心一言、GPT3.5及GPT-4的应用测评对比”报告,对文心一言、GPT-3.5 GPT-4 的问答表现分别进行了测评,测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。
文心一言、GPT-3.5GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5GPT-4,但已能够基本满足 AI 手、售后客服、产品推荐等诸多场景需求。

下载链接:

《OpenAI:GPT-4技术报告(2023)》

1、GPT-4技术报告(英)-OpenAI(2023)

2、GPT-4技术报告(中)-OpenAI(2023)

OpenAI发布GPT-4,人工智能未来将至

深度:ChatGPT认知白皮书(2023)

《GPT-4技术及报告合集》1、GPT-4震撼发布,AI算法之巅 2、OpenAI发布GPT-4,大模型发展进入新的里程碑 3、OpenAI:GPT-4技术报告

《129份重磅ChatGPT专业报告》

《智算技术及智算中心合集》1、面向智算的算力原生白皮书 2、新一代智算中心网络技术白皮书 3、智能计算中心创新发展指南(2023) 4、华为:智能时代,多样计算——智能计算白皮 《智能计算中心规划建设指南(全文版)》 《智能计算中心规划建设指南(ppt版)》

面向AIoT的RISC-V原生操作系统研究
深度报告:RISC-V异构IoT全新架构
RISC-V芯片产业指令集架构研究
玄铁C910实现RISC-V用户自定义指令
面向AIoT的RISC-V原生操作系统研究
RISC-V手册开源指令集指南
《RISC-V指令架构与实践(1)》
《RISC-V指令架构与实践(2)》
《RISC-V体系架构与实践(1)》
《RISC-V体系架构与实践(2)》
《RISC-V体系架构与实践(3)》

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“小程序链接”即可查看182页 PPT可编辑版本和PDF阅读版本详情。

服务器基础知识全解PPT(终极版)

服务器基础知识全解PDF(终极版)


温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • C++微服务架构及安全云盘项目实训
    学完《C++微服务架构及安全云盘项目实训》课,您将学到:从实践中理解软件工程,学习需求分析、架构设计、详细设计文档的编写,学习编程规范,了解多人协作开发策略,理解并引用软件的版本管理,熟悉git工具和软件发布管理流程, bug管理提交问题。

    课程大纲:
    第一阶段环境准备
    开发工具安装、系统和虚拟机安装、sdk库编译安装
    代码规范说明(参考google代码规范)
    版本管理讲解,使用git

    第二阶段原型开发
    不做设计、不用框架、直接基于qt+ libevent开发出云盘的后端和前端上传下载和目录功能
    教会同学碰到需求如何思考开发出原型

    第三阶段0.1版本微服务框架
    编写需求分析、架构设计、详细设计文档
    完成版本管理策略
    完成主体框架开发,基于libevent

    第四阶段1.0版本微服务框架
    完成微服务架构
    完成基于protobuf的通信RPC模块
    完成公共服务(认证、日志、监控)

    第五阶段1.1版本微服务框架
    添加加密和压缩通信,完成后端服务注册和管理,完成服务的自动启动和停止管理
    优化负载均衡,完成运维管理

    第六阶段基于框架安全云盘的业务功能
    支持高并发的文件上传下载,支持秒传和文件完整性校验,支持文件加密存储和传输,支持图片
    视频生成缩略图,支持视频生成gif预览动画,支持文件共享和分发

    第七阶段学员独立微服务开发辅导
    安全云盘扩展功能,可以是前端或者是后端服务
    直播评审学员代码

  • 法拉电容点焊机PCB与avr单片机程序

    法拉电容点焊机PCB与avr单片机程序

    法拉电容点焊机PCB与avr单片机程序

    法拉电容点焊机PCB与avr单片机程序

  • EMC电磁兼容案例
    EMC电磁兼容的一些典型案例解析 ,NO2是医疗行业的解析
  • 基于JAVA的本地监听与远程端口扫描设计(源代码+论文)
    基于JAVA的本地监听与远程端口扫描设计(源代码+论文)
  • Solidity从入门到精通课(转型区块链必修课)
    学完《Solidity从入门到精通课(转型区块链必修课)》你将收获:
    掌握Solidity智能合约开发技巧
    掌握Solidity语法
    掌握以太坊私链搭建

    课程介绍:

    很多人对于区块链有所了解,但对于区块链开发始终一知半解。如果把区块链理解为数据库的话,智能合约相当于这个数据库的SQL,也是学习区块链应用开发的必经之路。本课程为Solidity智能合约的精讲课程,老师以代码边写边讲的方式向大家展示Solidity的写法与设计理念。

    1、编译器升级:本课程是针对之前的Solidity智能合约教程的升级版,区块链技术升级更新较快,目前编译器的版本已经达到了0.8.x,虽然与0.6.x版本的编译器语法差别不算太大,但仍然会对部分同学学习造成困扰。本课程是采用0.8.7版本编译器版本为基础进行代码设计与讲解。
    2、实战项目升级:本课程除了借鉴之前课程使用的案例库之外,又增加了多签存证、多签结婚证书、产品溯源等合约项目。
    3、Geth升级:以太坊客户端更新也带来了一些参数上的变化,同样需要注意。
    4、代码驱动:课程内讲授的代码以边写边讲的方式介绍,也建议同学们一同练习。
    5、课程服务:课程源码可以下载。
    第一章:智能合约概念与环境准备
    第二章:Solidity基础语法
    第三章:智能合约基础案例
    第四章:ERC标准
    第五章:可升级合约与设计模式
    第六章:多签存证案例
    第七章:永载史册的结婚证书
    第八章:商品溯源案例

  • 电路板设计 针对各种噪音的降噪方法2
    要将电阻摆放在运算放大器的输入引脚附近,线圈下方不可以布置 GND 覆铜。
  • Java算法大全源码包开源源码.rar
    Java算法大全源码包开源源码
  • 基于JAVA的RSA文件加密软件的设计与实现(源代码+论文)
    基于JAVA的RSA文件加密软件的设计与实现(源代码+论文)
  • 跟我一起写DApp(转型区块链开发推荐课程)
    分享课程——《跟我一起写DApp(转型区块链开发推荐课程)》,课程内容上主要分为3部分:项目背景以及项目级智能合约实战;以太坊SDK使用以及后端服务开发;fisco-bcos简介及区块链应用实战。

    本课程属于讲师个人原创课程,并非照搬国外技术开发课程,课程中可以学习Go-web开发,gin框架的使用,提升智能合约开发能力,授课风格以代码驱动为主,希望学习者能够积极动手实践,并在评论区交流互动,分享自己的学习心得和体会。课程源码可以供学习者下载。

    第一章:课程简介与环境准备
    第二章:项目需求与智能合约实战
    第三章:以太坊go-sdk使用
    第四章:后端应用开发实战
    第五章:联盟链fisco-bcos使用介绍
    第六章:基于fisco-bcos应用实战

  • 基于Java的ME无线网络移动端的俄罗斯方块游戏设计(论文+源代码)
    基于Java的ME无线网络移动端的俄罗斯方块游戏设计(论文+源代码)
  • 道路车辆 电气及电子设备的环境条件和试验

    道路车辆 电气及电子设备的环境条件和试验

    第1~3部分

  • FPGA设计——基于团队的最佳实践

    这本书给你实践的经验,是最佳的实用设计方法学

    所需E币: 5 2023-06-08 14:15 大小: 16.87MB 上传者:二月半

  • 基于JAVA的SNMP网络设备MIB信息采集(论文+源代码)
    基于JAVA的SNMP网络设备MIB信息采集(论文+源代码)
  • 基于JAVA的物业管理系统设计与实现(包含论文及源代码)
    基于JAVA的物业管理系统设计与实现(包含论文及源代码)
  • 基于JAVA的文件压缩与解压缩实践设计(包含源代码及论文)
    基于JAVA的文件压缩与解压缩实践设计(包含源代码及论文)
  • 增加电池寿命的秘诀 1.新买的电车要先充满几次吗?把电车电池完全充满这个操作,在专业上叫锂电池化成,是电车在出厂之前激活电池的一道工序,车主完全没必要这样做。《汽车大数据应用研究报告》里明确指出充放电深度是表征电池健康度的重要参数,充放电深度增加,释放电量变大,使电池的健康度衰减非常明显。所以在日常用车的时候我们尽量把电池的电量维持在20%~80%之间,这样能显著提升电池的使用寿命。1. 电池寿命会受温度影响吗?锂电池的理想工作温度为25摄氏度,工作温度过高或者过低都会引发电
    四川英特丽科技有限公司 2023-06-08 10:42 176浏览
  • 最近在使用串口读一些数据,但是总会出现些发、送之间的冲突问题,为了弄清楚问题的所在,于是产生了想法,做了一个日志保存。[code]void Widget::SaveLogTxt(QString dat ){ QDateTime currenttime = QDateTime::currentDateTime(); QString strDate = currenttime.toString("yyyy/MM/dd"); QString strTime = currenttime
    E_ARM 2023-06-09 10:31 138浏览
  • 近年来,伴随着智慧化港口的大潮流,经纬恒润L4高级别智能驾驶业务产品也陆续扎根港口自动驾驶多个项目中,帮助港口实现无人水平运输自动化,达到降本增效的效果,助力客户实现智慧化绿色港口。   在整个港口水平运输场景中,经纬恒润提供了端到端的车、路、网、云、图全栈式自研解决方案,包含自动驾驶系统、路侧车路协同、基于5G网络的远程遥控驾驶、车队调度管理平台、数字孪生、仿真系统、高精地图等专业模块,组成了一套完整的智慧港口解决方案。本篇专门介绍其中的自动驾驶系统。  
    hirain 2023-06-09 11:29 154浏览
  • CS5466支持dsc1.1/12a压缩视频传输,是一款Type-C转HDMI8K30HZ或者4K144HZ方案芯片,Type-C/DP1.4转HDMI2.1的显示协议转换芯片, 内部集成了PD3.0及DSC decoder.CS5466电路原理图参考:CS5466芯片产品参数特性:1. Type-C/DP(2lanes)to HDMI2.1 8K30或者4K144产品。2. 支持HDMI2.1 FRL。3. 集成DSC1.2a decoder。4. DSC支持RGB, YCbCr4:4:4,
    QQ1540182856 2023-06-09 09:52 145浏览
  • 1.编制依据(1)五号线接触网可视化自动接地及工作票管理系统合同文件;(2)总工期策划;(3)XX站安装位置现状调查;。(4)五号线接触网可视化自动接地及工作票管理系统图纸;(5)公司的技术力量和施工能力的基本情况。(6)广州地铁运营事业总部关于既有线施工管理相关办法和标准。2.施工内容及工程数量XX站共安装四台可视化直流验电接地装置、一台通信柜、一台站级操作终端、两台红外摄像头、一套系统工作站及相关一次二次电缆的敷设、接线工作。主要设备工程数量表名 称规格型号单位数量备注可视化直流验电接地装置
    橙子1 2023-06-07 16:15 204浏览
  • 近日,一则长城汽车举报比亚迪的消息,瞬间刷爆了整个汽车圈,行业外对于这个事情多少有点懵,但业内对此却并不感到意外。如果说去年前年国内新能源汽车的“较量”,还是争夺入选资格的话,如今这种级别的“较量”,则进入了深层次的“叫阵厮杀”阶段。尤其是今年以来,伴随着各大头部新能源车企纷纷宣布降价售车,之前就已经熬不住的合资汽车,先行顶不住而宣布大力度降价,随后降价的浪潮开始席卷全行业,这给其他新能源车企也带来了巨大的压力。而在这种压力背后,行业共识也逐渐显现。油电同价背后的行业共识5月25日,比亚迪宋Pr
    刘旷 2023-06-08 10:04 237浏览
  • 近期有点全身心投入到了嵌入式驱动的开发意思了,起早贪黑的学习。不过也是,人生的路都是在不断地学习中度过的。对于干了几年的硬件工程师而言,不说硬件是不是很牛了,就是想换换脑子,整天三极管、电阻、电容的,确实让人乏味。思来想去,硬件是软件的基座,驱动是软件沟通硬件的桥梁。倒不如自己整点知识,也方便自己以后调试硬件不是,再说了从软件角度去理解硬件思维,会有很多不同的收获不是。 奋战了一个月,倒是把驱动的基本框架了解七七八八了,兴致使然,图像采集感觉还不错,公司有产品当开发板,也是省下了大部分的学
    二月半 2023-06-08 12:09 610浏览
  • 苹果如何重新定义AR?在如今以智能手机为主的消费电子市场下行阶段,市场急需开辟一个新的领域带来新的增长点,以往被寄予厚望的VR/AR等头显设备在经历了数年发展后,依旧难堪大任,业界都把希望寄托在苹果身上。简单来说,Vision Pro本质上其实还是VR设备,不过所有操作界面可以结合头显摄像头捕捉的外界环境,在头显内部显示出来,即一款数字内容无缝融入真实世界的VR显示设备。同时Vision Pro的操作方式无需手柄,完全通过眼睛、双手和语音,通过苹果为Vision Pro打造的空间操作系统Visi
    华秋商城 2023-06-08 10:32 147浏览
  • 半导体制冷片是电子器件中重要的辅助元件,用于控制器件的温度,从而保证器件的稳定性和可靠性。在半导体制冷片的制造过程中,半导体制冷片的基板材料选择是非常关键的,因为基板材料的性能会直接影响到制冷片的性能。同时作为精密制冷片新型技术,对陶瓷基板的要求也高于普通基板。1.外观要求:严格的铜面平整度,粗糙度要求控制在0.5um以内,铜面上不允许有凹坑、铜颗粒、氧化、任何形式的外观划伤等。2.尺寸要求:完成板厚控制公差在10-20um以内,而陶瓷板材的来料公差就有±30un公差,这就意味着需要挑选公差范围
    斯利通陶瓷电路板 2023-06-08 11:50 181浏览
  • 是日高考,祝各位考生如愿。据前瞻产业研究统计数据显示,2022年中国共有相关传感器产业链企业50664家,中国智能传感器行业企业共有16875家。其中,直接从事传感器生产制造研发的企业仅有不到2000家,这里面大部分都是小微企业。据传感器专家网统计,目前,整个中国股市,仅有约64家国产传感器概念企业上市,总市值超1万亿元。其中,仅2022年以来,就有14家传感器企业上市,中国传感产业风起云涌。传感器专家网https://www.sensorexpert.com.cn专注于传感器技术领域,致力于对
    传感器专家网 2023-06-07 20:00 194浏览
  • 电源适配器CE认证标准测试项目,电子产品现在用的是相当的广,常见的产品就一大堆,比如说手机电脑等都会使用到电源适配器。电源适配器适用范围很广,不仅在移动设备端,在其它领域也会应用到。电源适配器CE认证,一般会做CE认证中的低电压指令LVD和电磁兼容指令EMC,欧洲能效认证ERP,RoHS等。下面具体来看看认证这么做吧。电源适配器为什么要做CE认证?CE认证制度下的LVD低电压指令涵盖了交流50V-1000V,直流75V-1500V的所有带电产品,EMC指令涵盖了所有有电路板产生电磁辐射的带电产品
    陈丽莎 2023-06-08 14:09 220浏览
  • 低温型产品概述:霍尔效应测试仪由电磁铁、电磁铁电源、高精度恒流源、高精度电压表、霍尔效应样品支架、标准样品、高低温杜瓦,控温仪,系统软件组成。为本仪器系统专门研制的JH10效应仪将恒流源,六位半微伏表及霍尔测量复杂的切换继电器——开关组装成一体,大大减化了实验的连线与操作。JH10可单独做恒流源、微伏表使用。用途:用于测量半导体材料的载流子浓度、迁移率、电阻率、霍尔系数等重要参数,而这些参数是了解半导体材料电学特性必须预先掌控的,因此霍尔效应测试系统是理解和研究半导体器件和半导体材料电学特性必*
    锦正茂科技 2023-06-09 13:16 108浏览
  • 前段时间出了接近一个月的差,没来得及及更新试用报告,有点不好意思,今天抽空过来写一下自己的看书的心得以及对于整个书籍的一些认知和看法,希望对大家能够有一定的帮助,也希望可以和大家一起探讨进步。以前自己都是使用的Altium Designer做开发设计的,大学的时候就开始接触,作为个人爱好延续至今,对于PADS也是有所耳闻,只是一直没有机会来了解,根据我个人的经验来看,按照以前使用Altium 的经验来说,PADS设计指南 无论说是从流程步骤上以及类容的细致程度上都还是很不错的,从设计流程、原理图
    君莫笑啊 2023-06-08 11:21 190浏览
  • MSDS中干电池、铅酸蓄电池、锂电池正负极材料介绍191-0751-6775一、干电池干电池也叫锰锌电池,所谓干电池是相对于伏打电池而言,所谓锰锌是指其原材料。针对其它材料的干电池如氧化银电池,镍镉电池而言。锰锌电池的电压是15V。干电池是消耗化学原料产生电能的。它的电压不高,所能产生的持续电流不能超过1安培。锌锰干电池:正极材料:锰、石墨棒负极材料:锌镁锰干电池:正极材料:二氧化锰粉、氯化铵及碳黑组成的一个混合糊状物负极材料:镁筒锌空气电池:正极材料:用活性炭吸附空气中的氧或纯氧作为正极活性物
    陈丽莎 2023-06-09 16:43 130浏览
  • 在过去的20年,传感器厂商不断研究创新的测量原理和敏感材料,这些成果能让我们用到高集成、低成本的传感器,其中,最成功也是最具颠覆性的,无疑是MEMS技术在传感器制造中的应用。MEMS技术在传感器的大规模应用,让传感器的小型化、低功耗、智能化成为可能,从而推动了传感器在物联网、消费电子、汽车电子等领域的广泛应用,促进了数字经济的发展和智能时代的到来。可以说,在过去20年,MEMS颠覆和扩展了传感器。传感器专家网https://www.sensorexpert.com.cn专注于传感器技术领域,致力
    传感器专家网 2023-06-08 19:28 173浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦