两分钟“熟读”《国史大纲》,大模型的下一个爆点是“书童”?

原创 Alter聊科技 2024-08-13 15:28

100万长文本赋予了开发者更大的创造空间,同时在生成、推理、QA等能力上不再被制约,注定会吸引越来越多的开发者参与进来,进一步将想象力转化为生产力。

撰文张贺飞
编辑沈菲菲

年初大模型行业上演“长文本”大战时,我们就萌生过做一个“读书助理”的想法。测试了市面上主流的大模型后,发现普遍存在两个不足:

一种是可以处理的文本长度不够,即使有些大模型将文本长度提升到了20万字,像《红楼梦》这样近百万字的名著,还是需要多次才能“读”完。

另一种是语言理解和生成能力不足,经常出现“幻觉”。“长文本”的特点不仅仅是长,还涉及到复杂的逻辑和文本语义,需要更连贯、相关的响应。

直到前两天,一位做AIGC的朋友向我们同步了一个新消息:“智谱AI开放平台默默上线了为处理超长文本和记忆型任务设计的GLM-4-Long,支持1M上下文。”100万上下文长度到底意味着什么呢?我们找来了另外两个大模型,用120回版本的《红楼梦》(大约有73万个汉字)进行了简单对比:
月之暗面128K的大模型,每次可以处理6.4万个汉字,需要12次才能读完;

Claude 200K的大模型,每次可以处理10万个汉字,需要8次才能读完;

GLM-4-Long实测可以处理150-200万字,一次就能读完一本《红楼梦》。
不过,文本长度只是一个入门能力,能否扮演起“读书助理”的角色,必须要确保能够从大量文本中准确检索信息,特别是当某些关键信息被置于文档的深处时,以及出色的推理和内容生成能力。

于是我们对GLM-4-Long进行了深度测试。(体验地址:智谱AI开放平台bigmodel.cn)

01.
两分钟“熟读”钱穆先生的《国史大纲》

大约是5年前,我们购买了钱穆先生的《国史大纲》,商务印书馆的繁体竖排版。因为是用大学教科书体例写成,学术味儿比较浓,再加上钱穆先生精炼的文笔风格,至今都没有完整读完。

GLM-4-Long能否胜任“书童”的角色呢?

我们调用了GLM-4-Long的API接口,读取了50多万字的电子版《国史大纲》,然后针对性地问了三个问题:

第一个问题:请总结这篇文档中每个部分的主要内容

原书目录中只罗列了每个章节的标题,希望通过这个问题验证大模型是否处理了文档的全部信息,对内容的理解和总结生成能力。


从输出的结果来看,不仅准确整理出了每个章节的核心内容,还按照现在比较主流的纪年方式,将全书内容拆分为上古文化、春秋战国、秦汉、魏晋南北朝、隋唐五代、两宋、元明、清代等8个部分,内容准确度超过99%,仅仅是“两宋之部”在小标题上被列举了两次(可以通过模型微调进行优化)。

第二个问题:“秦汉国力与对外形势”在文档哪个部分?

这是一个迷惑性比较强的问题,因为第七章和第八章都讲了相关背景,但钱穆先生放在了第十一章进行重点介绍。



GLM-4-Long并未掉进预设的“陷阱”,准确指出了问题所在的章节和标题。这也是长文本处理的一个典型痛点,在长达几十万字的内容中,作者可能在多个地方描述相似的几件事,最为考验大模型的语义理解和内容检索能力,并非是对文本的机械处理,意味着需要更强的抽象和内容归纳能力。

第三个问题:北宋的建国和汉唐时期有什么不同?

搜索引擎上没有直接相关的答案,但钱穆先生在书中给出了系统阐述,用于验证GLM-4-Long能否理解书中的细节信息。



这次的答案再次让我们惊艳,分别从建国方式、统治方式、对外政策、经济、文化、社会、政治制度等角度综述了钱穆先生的观点。特别是在“对外政策”上,准确回答了“汉唐时期积极对外扩张,北宋采取保守的防御策略”,并且简单提及了政策变化背后的原因,即五代十国时期战争频繁,导致国力消耗严重。

相关的测试问题不再一一赘述,直接给出我们的答案:GLM-4-Long对文档全局信息的处理、长文本理解和生成、多轮对话等能力均超出预期,整个体验有一种和钱穆先生跨时空对话的“错觉”。

另一个不应该被忽略的信息在于,一本50多万字的书籍,GLM-4-Long仅用了两分钟左右的时间进行处理。如果想要用大模型处理一些没有时间研读的长文本,GLM-4-Long某种程度上可以说是最佳帮手。

02.
用多个文档训练出一位“知识博主”

很多人在日常工作和生活中接触的文档,并非是动辄近百万字的巨著,而是几万字、最多十几万字的文档和资料。在这样比较大众化的需求下,像GLM-4-Long这样1M长文本能力的大模型,有何特殊价值?

前面用《红楼梦》做了对比,其实还有另一种对比方式:
月之暗面128K的大模型,每次可以处理6.4万个汉字,相当于读1本《活着》;

Claude 200K的大模型,每次可以处理10万个汉字,相当于一次读《活着》和《在细雨中呐喊》两本书;

GLM-4-Long的1M上下文,可以一次读余华老师的多本书,比如《活着》《在细雨中呐喊》《河边的错误》《第七天》……
由此萌生的一个想法是:是不是可以让大模型一次读多本相关的专业书籍,快速训练出一个专业的知识博主?

首先想到的一个场景就是饮食,生活中经常碰到吃什么可以减肥、6月龄宝宝能不能吃蛋黄、高血压病人的饮食需要注意什么等问题,每次都需要搜索或者问AI,又担心内容是不是准确。

我们让GLM-4-Long一次性读取了《中国居民膳食指南》《中国食物成分表》《中国饮食文化》《中国居民膳食营养素参考摄入量》等多个文档,然后用日常生活中的常见问题进行了针对性提问:

8月龄儿童日常饮食应该注意什么?



可以看到,GLM-4-Long输出的答案非常全面,除了要补充蛋白质、维生素和矿物质,还给出了一些贴心的建议:食物应该细腻易消化,避免大块或硬的食物,以防噎食;建议先引入蔬菜泥,然后是水果泥,接着是强化铁的米粉或米糊;如果家族中有过敏史,应避免引入可能导致过敏的食物……

50岁的高血压病人有什么饮食建议?



答案依然比较全面,包括应将食盐摄入量控制在每天6克以下、每天摄入300-500克新鲜蔬菜和200-350克新鲜水果、每日摄入25-30克膳食纤维、避免过多摄入精制糖和白面食、建议通过食物摄入足够的钾和钙、避免过多摄入蛋白质、限制饮酒等等,并提供了具体的食物建议。

以上只是我们简单尝试的一个场景,可以联想到的应用场景还有很多。

比如一次性通读余华老师的所有小说,然后“变身”余华老师进行对话;一次性读多篇相关的论文,帮助提升论文阅读的效率;一次性读取上百份简历,然后根据需求筛选出最合适的候选人;以及找到一家企业多个季度的财报进行横向对比,从更宏大、信息更丰富的视角进行财报分析......

我们列举的“想法”仅仅是抛砖引玉,相信智谱AI在大模型能力上打破天花板后,会有越来越多开发者参与其中,挖掘藏在应用层的机会,带来各种有趣、有生产力的体验。

03.
“卷”长文本过渡到“卷”综合能力

有别于年初单纯卷文本长度的比拼,智谱AI在GLM-4-Long的宣传和营销上不可谓不低调,却折射出了大模型市场的一个隐性共识:不再为了传播某个能力硬凹需求,而是开始卷大模型的综合能力。

个中原因并不难解释。

长文本在本质上是一种智力能力。如果将大模型比作是一台“电脑”的话,“更长的上下文”可以看作是更大的内存,能够提高多任务处理能力、提升运行大型软件的流畅度、带来更好的游戏体验等等。内存的大小,可能在某种程度上影响消费者的购买决策,却不是优先级最高的购买因素。

同样的道理,仅仅是在文本长度上领先,并不足以让大模型吸引所有的注意力,不会是一条稳定的护城河。

与之相对应的,大模型的“长文本热”就像是昙花一现,开发者们没有趋之若鹜,资本市场不断传出批判的声音:“感觉是各家公司在为抢入头部阵营做成绩,本质上还是为了秀肌肉,衡量长文本的价值,要等到更明确的落地场景和对应的商业模式出现,否则市场再热闹也是没有用的。”



时间过去半年后,GLM-4-Long让外界看到了大模型新的演变方向:除了记住多长的上下文,还在比拼语言理解和生成能力、长文本推理和QA能力,不再是做长木桶的一块板,而是把把所有木板做长。

比起我们“浅尝辄止”的测试,对大模型行业新方向感到兴奋的,恰恰是那群做AIGC的创业者。正如那位朋友所说的:“大模型可以满足100万字的上下文,并且可以很好地、准确地执行复杂指令,预示着巨大的想象空间。希望智谱AI开放平台可以早日推出GLM-4-Long的正式版,我们已经有了多个智能体相关的想法。”

自从ChatGPT走红后,整个大模型行业风谲云诡。然而一个看起来有些畸形的现象是:资本大多将钱投个了大模型企业,做应用创新的创业者鲜有机会,即便不少人都在呼吁创业者应该卷应用,而非卷模型。

回头再来看这样的现象,需要批判的不是资本的“势力”,而是开发者们的无奈。直接的例子就是长文本,半年前的火爆只是技术上的,由于存在能力上的短板,未能在应用层延续热度和爆点。借着上面的比喻,一台电脑的内存很大,可CPU、GPU、屏幕等依然是短板,开发者很难做出体验优秀的应用。

当大模型的竞争走向综合能力的较量,100万长文本赋予了开发者更大的创造空间,同时在生成、推理、QA等能力上不再被制约,注定会吸引越来越多的开发者参与进来,进一步将想象力转化为生产力,创造出一个又一个“出圈”的现象级应用,加速大模型在应用赛道上的繁荣。

04.
结语

“2024年是AGI落地元年“。

这样的预言正在被进一步验证。不仅仅是大模型综合能力的进阶,还在于技术和应用在方向上的统一:逐渐从博眼球式的拉新,转向“脱虚向实”, 不断回归用户体验,沉淀出解决实际问题的能力。

往期推荐


01

智谱AI再放“大招”,30秒将任意文字生成视频

02

详解电商三巨头的运营成本:商家的压力到底来自哪?



主理人 | 张贺飞(Alter)


前媒体人、公关,现专职科技自媒体


钛媒体、36kr、创业邦、福布斯中国等专栏作者


转载、商务、开白以及读者交流,请联系个人微信「imhefei」

Alter聊科技 探究产业兴衰,专注商业解读。
评论
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 35浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 70浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 136浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 68浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 99浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 39浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 82浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 102浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 48浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 54浏览
  •         在有电流流过的导线周围会感生出磁场,再用霍尔器件检测由电流感生的磁场,即可测出产生这个磁场的电流的量值。由此就可以构成霍尔电流、电压传感器。因为霍尔器件的输出电压与加在它上面的磁感应强度以及流过其中的工作电流的乘积成比例,是一个具有乘法器功能的器件,并且可与各种逻辑电路直接接口,还可以直接驱动各种性质的负载。因为霍尔器件的应用原理简单,信号处理方便,器件本身又具有一系列的du特优点,所以在变频器中也发挥了非常重要的作用。  &nb
    锦正茂科技 2024-12-10 12:57 73浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 54浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦