罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

原创 脑极体 2025-06-18 19:00


《日常生活中的自我呈现》一书中,欧文・戈夫曼将戏剧表演引入社会学。他提出,人们在日常互动里,会依照预设的“剧本”(即社会规范),借助行为管理进行表演,在他人心中留下良好印象。


按照这个理论,数字人直播总被吐槽,原因就是数字人的演技太差,无法呈现出真人主播一样的观感,表情僵硬、手势不自然,无法给大众留下好印象。


就在最近,数字人主播界突然出现了一位演技实力派——罗永浩。罗永浩数字人在百度电商的首场直播,以长达连续近7小时的高强度直播,实时解答弹幕问题,动辄输出“罗式段子”,还与助播朱萧木互相抛梗接梗,刷新了大众心中数字人的观感。


甚至有人问老罗,“是不是你在扮演数字人”,简直倒反天罡。



难辨真假、技惊四座的罗永浩数字人,到底是怎么实现的?6月17日的百度AI开放日慧播星专场现场,百度集团副总裁吴甜,揭秘了罗永浩数字人背后的技术秘密。最关键的就是,基于文心大模型4.5T的“剧本”生成与多模协同。


618硝烟正燃,而一场以AI大模型为核心驱动的电商效率革命,正拉开序幕。



大家有没有这样的经历:


评论区的弹幕太多,留言总是得不到主播的回复;

想看直播,但真人主播已经下班了,错过了专属红包和优惠;


自己直播带货,但一面对镜头就紧张,直播效果不尽如人意;


等头部主播来助农直播,还得看对方的差旅安排和时间调配……


数字人被视为解决人力局限、实现全天候直播的理想方案。然而,以往的数字人一直无法惟妙惟肖地饰演真人主播,槽点主要集中在几个方面:



演得不像。数字人的表情、手势与肢体细节与文案对不上,产生“恐怖谷”效应,让观众感到诡异。


缺少互动。传统数字人面对超出预设范围的问题,无法像真人主播那样灵活应对,只能唱“独角戏”,让观众丧失了参与直播的积极性与体验感。


时长不够。很多数字人只能将短视频循环播放,难以支撑长时间且一致的内容生成与交互需求,低质量内容不仅影响用户体验,还可能被平台限流甚至处罚。


行为不可控。数字人一旦出现失误,不仅会损害品牌形象,还可能引发舆论危机,这也是许多头部主播和品牌对数字人直播持谨慎态度的重要原因。


数字人扮演真人主播,需要跨越重重技术挑战。那百度电商直播间的罗永浩,又凭啥成为直播“实力派”?



6月15日罗永浩数字人在百度电商,完成了数字人主播的极限挑战,做到了不少业内首个。


业内首个超级头部主播数字人直播。罗永浩的粉丝特别多,对真人主播的风格十分熟悉,需要数字人有极高的还原度。数字人罗永浩在直播间妙语连珠,与观众高频互动,举手投足间散发着熟悉的罗氏魅力。



业内首个超六小时超头部主播数字人直播,突破了AI视频生成极限时间,生成的产品讲解内容就多达9.7万字。


业内首个多数字人直播,双人配合,告别了一个数字人尬聊的局面。罗永浩和朱萧木的搭档,高度还原了真实主播与助播的直播状态。两个数字人主播能做出喝奶茶、拎可乐等细节动作,还实现了与直播间用户弹幕的实时互动。


这一系列操作下来,刷新了不少人对数字人的固有印象。而罗永浩数字人的诞生,只用了几个月的时间,究竟是如何习得媲美真人的“直播神技”?我们扒开了数字人背后的一整个大模型“导师团”。



一场精彩的数字人直播,绝非单一技能的炫技。想象一下,如果数字人语言表达生动流畅,却搭配着僵硬机械的表情和动作,或是语音语调平淡乏味,如同 “读稿机器”。这正是传统数字人技术的痛点:语言依赖台词模型,语音靠TTS 合成,表情肢体等视觉表现由视频合成,各模态模型“各自为政”。数字人的台词、表情、动作完全不在一个节奏上,观众瞬间就会“出戏”。


作为业内首个多模高度融合数字人,罗永浩数字人的出色表现,正是得益于百度多模协同的数字人技术。



按照欧文・戈夫曼的理论,“剧本”是戏剧表演的核心,演员需依剧本塑造符合期待的形象。数字人领域,“剧本”同样是关键所在。


拥有一个高质量的剧本,就如同数字人有了总指挥,让语言、语音、视觉等不同模态围绕剧本,彼此协同配合,才能让数字人在直播中展现出浑然天成的表现力。


以数字人罗永浩为例,背后就有一个文心大模型的“导师团”进行助力:


首先,是基于大语言模型的剧本生成。


生成剧本的文心大模型,相当于总导演兼总编剧,通过台词,为数字人赋予生动鲜活的“灵魂”。拿罗永浩数字人来说,文心大模型4.5T需要攻克以下关键难题。其一,风格定制。罗永浩犀利幽默、朱萧木风趣洒脱,每位主播都有独特的语言风格,文心大模型通过风格建模,深度学习主播们的语言习惯、表达方式,从遣词造句到语气节奏,全方位贴合主播个人风格进行定制,在模型生成的台词中精准复现,让数字人开口自带主播“味道”。



除了语言风格,人设一致也是数字人获得观众认可的关键。特别是在多角色配合时,罗永浩作为主咖,朱萧木作为助播,文心大模型在生成剧本时,精准把握二人特点与分工,使台词在语言上自然附和、紧密配合。比如在产品推荐环节,主播重点介绍核心卖点,助播适时补充细节、引导互动,一问一答、一唱一和,展现出符合人设的行为与语言逻辑。


在文心大模型 4.5T的精心雕琢下,生成了既有真人温度,高度还原主播个人特色,又有网感,能将商品卖点生动展现的直播剧本。


接下来,就是“剧本围读”,让多模态系统基于剧本,进行信息对齐。


语音大模型作为口语导师,视觉大模型作为动作导师,先根据大语言模型生成的语音标签和视觉标签,然后生成协调一致的语音和表情动作,赋予数字人影帝、影后般的表现力。


这个过程的难点,是多个模型的对齐。想象一下,如果语音模型理解的台词情感激昂,而视觉模型呈现的却是平淡表情,数字人就会“表里不一”,让观众倍感违和。百度AI数字人,以大模型生成的剧本为统一标尺,确保从台词到语音、从表情到动作,各环节的理解与执行步调一致。



比如罗永浩与助播数字人之间,会出现频繁的打断说、同时说,需要语音合成系统精准捕捉对话节奏。百度通过加入对话上下文解码器,整合历史对话与当前信息,让数字人在互动时的语音衔接自然流畅,重现真人搭档的默契感。


同时还建立了反向对齐的反馈机制,也就是语音模型合成后,会基于自身对文本的细粒度判断进行优化,再将这些信息反馈给视觉模型,实现音画间的精准匹配,形成一个闭环的协同体系。


通过多模系统的“剧本围读”,可以在剧本指引下,完成声台行表的默契配合,让数字人在直播镜头前展现出媲美真人的表现力,为观众带来沉浸式的观看体验。


六七个小时的直播,数字人只能对着剧本“照本宣科”吗?为什么数字人罗永浩还能在直播间跟用户实时互动呢?这就要提到第三个关键能力:临场发挥的灵活性与可控性。


据吴甜介绍,数字人直播就像拍电影,演员的表演并不是照本宣科,要有对剧本的理解和临场发挥。


其中,剧本作为核心,确保数字人行为逻辑的一致性,而文心大模型则赋予其应对复杂场景的“应变力”和长时间的可控性。


在时长如马拉松式的直播中,现实场景的复杂性远超想象。用户突如其来的刁钻提问,直播间场景内人物、商品、环境的自由交互,都暗藏着不可控因素。让数字人在复杂交互场景中也能游刃有余,文心大模型是这场技术突围的“智慧中枢”。



一方面,依托大模型的语言理解与生成能力,结合直播场景的高频需求进行针对性训练,赋予数字人实时理解用户意图的“洞察力”。在罗永浩数字人直播中,AI知识库1.3万次的调用,9.7万字的内容生成,正是文心大模型强大创造能力的直观体现。


另一方面,依托文心大模型4.5T的深度思考能力,在剧本生成时先进行规划和思考,搜索最优路径,再通过评价和评估,提升最终的可控性。


当数字人在直播间自如切换讲解模式、巧妙化解突发提问,与用户深度互动,背后正是多文心大模型在持续稳定地发挥作用,为数字人直播行业开辟出长时、灵活、可控、优质的全新赛道。


总结一下,罗永浩数字人直播的成功,离不开百度大模型技术体系的托举,也是百度大模型技术实力的具象化呈现。



欧文・戈夫曼的“拟剧理论”成为社会学经典,在于其揭露了社会协作的基础——每个人依据剧本扮演良好形象,教师扮演好传道授业的角色,医生恪守救死扶伤的职责,整个社会才能有序运转。


当直播行业走过野蛮生长的黄金期,流量红利消退,主播需要扮演什么样的角色呢?或许是专业导购,能够对产品细节和专业知识娓娓道来;是贴心客服,及时响应用户的每一个疑问;是知心朋友,在用户需要的时候提供全天候陪伴……这样才能与观众建立信任纽带,走向高质量发展。


专业且敬业的真人主播,培养不易,开播成本也是中小商家所无力负担的。这时候,AI数字人的技术革命,成为打破直播效率困局的关键。


在大厂纷纷布局数字人,竞争白热化的背景下,百度依然凭借AI技术优势,构建起数字人的差异化能力:



一是先进。百度数字人直播的技术能力如剧本生成、多模驱动、一致性和高拟真性等,是业界天花板。对数字人技术要求苛刻的超级头部主播来说,选择百度数字人放大IP价值,用自身的专业能力24小时服务用户。


二是专精。当部分企业投入海量资源研发通用型视频生成技术时,百度深耕数字人直播场景,推出的慧播星数字人系统已服务超10万商家,覆盖32个垂直行业。对中小商家来说,通过百度数字人可以轻松开播,品尝到AI技术带来的增长红利。


三是性价比。借助百度AI技术,品牌商家可获得“人货场”的全面助力,除了数字人,还可以利用AI技术对商品进行深度分析和理解,实现商品的智能管理和精准营销。提升收益的同时,百度数字人的综合成本比真人主播要低,而且随着开播的场次越多,它的边际收益越高,未来数字人的生产制作成本还会进一步的下降。


这场从流量争夺到技术深耕的变革,正在重新定义直播行业的未来。当数字人顶流登上直播舞台,百度AI驱动的直播下半场,也是智能电商的新篇章。




·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 什么是LoRaWAN? LoRaWAN技术及应用LoRaWAN(Long Range Wide Area Network)是一种低功耗、长距离、广域网络通信协议,特别设计用于连接物联网(IoT)设备。LoRaWAN采用无线通信技术,能够覆盖数十公里的范围,提供长时间的电池寿命,适用于智能城市、农业、工业自动化、环境监测,与健康医疗等领域应用。来源: LoRa Alliance一探究竟:LoRaWAN物联网应用优势营运商采用 LoRaWAN 具有多方面的优势,除了长距离覆盖范围及低功耗的特点外,还
    百佳泰测试实验室 2025-07-10 14:51 263浏览
  •   几个月前,一个老旧的大风扇的散风圈(俺不知其专业名称)的开关按钮不起作用,就是锁不住了,散风圈也就不转了。今天,有空,就拿到工作台,开始拆解分析故障原因,能修好更好。  看看,用的时间够长了吧!皮肤都变颜色了。看标签,合格品2005年的。  底部四个螺丝固定,很容易拆开了。  看到掉下一个标签圆纸片,拿起来看看,是那个横向摇头的电机的。  找到那个按钮开关位置  应该是开关内部的有缺陷了。把它拆下来,一看就是正规合格品。  拿出我日积月累的分类藏宝盒,呵呵,找到一款螺丝孔位正好合适的。   
    自做自受 2025-07-10 11:16 290浏览
  • 工业物联网时代,作为一种普遍应用在汽车电子、工业控制与医疗器械等领域中的串行总线通信技术——CAN(Controller Area Network)总线基于消息广播模式,通过双绞线传输差分信号,是一种多主控(Multi-Master)的总线系统,具备极强的抗干扰能力、极低的传输延迟和高速数据传输性能。一种典型的CAN总线网络示意图在CAN总线通信过程中,CAN收发器作为物理层上的接口芯片,位于CAN控制器(MCU)和CAN总线之间,主要负责将来自CAN控制器(MCU)的数字信号与总线上的差分信号
    华普微HOPERF 2025-07-04 14:44 1956浏览
  • 本文主要针对分立方案高速输出电路,由于MOS管、稳压管、PCB布局布线都存在一些寄生电容,这些寄生电容都会影响高速输出电路的占空比,所以本文对这些寄生电容的影响进行简单说明。测试工况:电压:24V,负载类型:阻性负载2K,输出频率:200Khz,要求占空比45%~55%;电路拓扑如下图所示:图1寄生电容分布情况:如下图所示,MOS管寄生电容为Cgd、Cgs、Cds,稳压管寄生电容为Cd;图2而MOS管手册常见的参数如下图所示为Ciss、Coss、Crss(为啥是这些参数,而不改成Cgs、Cgd、
    用户1751282873645 2025-07-08 23:58 181浏览
  • 在全球广泛倡导绿色低碳与可持续发展的时代浪潮中,新能源汽车作为实现节能减排的重要载体之一,正受到各国政府与企业的加速培育。在此背景下,为提升新能源汽车的市场渗透率,我国已率先进入充电基础设施建设的加速期,从私人专用充电桩到社区公用充电桩,从高速路网补能节点到城市公用充电桩,汽车补能网络正在急速膨胀中。图源:摄图网(已授权)据中国充电联盟(EVCIPA)最新统计数据显示,截止2025年5月份,我国充电基础设施累计数量为1440万台,同比上升45.1%。其中,在2025年1月~5月期间,我国充电基础
    华普微HOPERF 2025-07-09 16:13 257浏览
  • 据知名市场研究机构Counterpoint Research发布的数据概览,2025年第二季度,中国智能手机销量预计将迎来小幅回暖,增长率约为1%。在这场销量微增的背后,华为与苹果两大品牌成为了推动市场前行的核心力量。其中华为手机的表现最为亮眼,数据显示,华为在中国市场的智能手机销量份额实现了12%的同比增长,这一成绩不仅使其成为了当季增长最快的品牌,更助力华为重新夺回销量榜首的位置。相比之下,vivo的表现就有些尴尬了。虽然还是位列第二,但vivo在第二季度的智能手机销量份额同比下降了9%,下
    用户1742991715177 2025-07-09 08:19 207浏览
  • 提要:采用LOXIM的微孔雾化专用芯片LX8201,能突破压电陶瓷驱动电压超标(24伏)的技术难题,满足全球市场对喷雾玩具的电压安规认证要求。玩具行业尤其是喷雾玩具行业内人士都知道,喷雾玩具的压电陶瓷驱动电压超标(常需60-100V)与强制安规标准(中国,日本,欧美,都一样)对玩具电压的限制(≤24V)存在根本性冲突,如果采用“多层压电堆叠(MPA)技术“(比如日本TDK公司),成本将增加至现有微孔雾化片的10倍以上,这个矛盾一直没有得到好的解决。喷雾玩具在国内热销(淘宝/抖音),能卖的原因,无
    Loximonline 2025-07-08 10:55 256浏览
  • 现代人对于影音效果的追求持续增加,在多数影音产品中,HDMI是最为重要的接口,而HDMI 2.1中有一新增功能eARC可以透过HDMI线材来传输数字Audio,除了支持Dolby TrueHD、Atoms等声音格式外,也可以支持8声道喇叭,满足消费者对于声音的追求。新时代的高阶电视都具备支援eARC的功能,然而却有些号称支持的电视产品,因为在设计上的疏忽,造成eARC无法输出8声道Audio,以致eARC的功能大打折扣,对于花大钱欲享受高规格电视的消费者来说自然难以接受,对于该电视品牌也会产生负
    百佳泰测试实验室 2025-07-04 14:42 2017浏览
  • 在物联网无线通信领域,随着行业应用场景的不断拓宽,同一频段下的设备通信需求正呈指数级增长,然而这一增长趋势却与频谱资源的有限性形成了鲜明对立,信道拥挤、信号串扰与非线性失真等不良现象所造成的“通信压力”正在持续放大。从智能家居的设备互联到工业物联网的实时控制,从智慧楼宇的广域组网到智慧城市的海量数据传输,有限的频谱资源不仅需要满足不断增长的设备通信需求,还需要适配不同场景对速率、时延与可靠性等差异化要求。在此背景下,如何在有限的频谱资源中实现更为稳定的无线通信质量,已成为物联网行业发展路径中的核
    华普微HOPERF 2025-07-07 16:13 544浏览
  • 曾经靠“砍一刀”撕裂传统电商格局的拼多多,如今疲态尽显。数据显示,拼多多今年第一季度实现营收957亿元,同比增长10%,市场预估1016亿元,相比预期低了近60亿元;经营利润为161亿元,相比去年同期下降38%;归属于普通股股东的净利润为147亿元,同比下降47%。与此同时,拼多多市值也坐上了“过山车”。去年市值一度突破 2180 亿美元,力压国内电商巨头阿里,今年(7月1日收盘)市值仅余 1497.59 亿美元,已不足阿里(市值2718.63亿美元)一半
    用户1742991715177 2025-07-05 14:24 410浏览
  •   去年底,整理旧物,扔的扔了,留的留了,这不,十四个几十年前留下来的工业级小型排风扇,下图左上角处,又拿出来,下决心把它们再利用发挥余热。  呵呵,这回不是拆而是装了。怎么装呢?组装、固定、机架、接线,简单,也不简单,原则是一切都用手头现有废旧材料,争取做到一个不买!DIY,废物利用,如今时髦的话,以旧换新!摆上台面,找来木条,策划怎么做?  比一比,看一看,觉得合适,按尺寸锯开木条。  咋走线?想到了,在有限空间内弯转,从一个螺丝孔穿出来,整体拼凑整齐。   咋固定风扇呢?找来木片条,锯断,
    自做自受 2025-07-06 21:37 514浏览
  • 在数字化、自动化高速发展的今天,光电耦合器正以一种低调却不可或缺的方式,悄然改变着我们的生活。它不仅是电子电路中的“安全卫士”,更是连接信号世界的“桥梁”,凭借出色的电气隔离能力,为各类设备提供稳定可靠的信号传输保障。电气隔离——让系统更安全在工业控制系统中,安全始终是重中之重。光电耦合器通过光信号进行电气隔离,能够有效防止高压电流侵入低压控制电路。例如,在智能电网系统中,它广泛应用于电表与通信模块之间,确保数据传输的安全性,防止电网高压对低压设备造成冲击。在电动汽车的电池管理系统(BMS)中,
    腾恩科技-彭工 2025-07-05 13:56 444浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦