2025年11月,百度”剧本驱动多模协同的高拟真数字人技术”在世界互联网大会乌镇峰会上荣获领先科技奖,这项技术正是驱动罗永浩数字人直播的核心引擎。而在6月15日,罗永浩数字人首秀就创下6小时GMV突破5500万元、观看人次超1300万的惊人战绩,部分核心品类带货单量甚至超过罗永浩5月真人首秀同期数据。面对这一成绩,罗永浩本人坦言”让我惊讶”、”有点恍惚”,数字人直播”可能代表了电商直播的新趋势”。
一、世界大奖背后的技术突破
在2025年世界互联网大会上,评审委员会从34个国家和地区的424项科技成果中,最终遴选出17项年度领先成果。百度”剧本驱动多模协同的高拟真数字人技术”成功入选,成为百度连续三年获奖的人工智能创新成果。
这项技术的核心在于以文心大模型为内核,让数字人具备了自我理解、规划和表演的能力。具体包含五大创新点:
1. 剧本驱动多模协同:传统数字人依赖人工脚本和单模态驱动,而这项技术能生成真正意义上的”剧本”,不仅有”说什么”,还有”怎么说、说的时候怎么配合动作表情”。当提到”法令纹”时,视觉系统会自动指向对应面部区域;当数字人”送福利”时,语音模块会自动调整语调,表现出兴奋情绪。
2. 融合多模规划与深度思考:数字人不仅能说台词,还能”思考剧情”。通过融合多模规划与大模型推理,实现了对对话上下文的整体理解。在直播中,数字人可根据直播间实时热度及用户反馈,智能调整讲解节奏与互动内容。
3. 动态决策的实时交互:基于大模型的实时感知与决策能力,数字人能够理解弹幕评论、感知直播间氛围,并据此做出实时反馈,如回答用户提问、玩梗互动、调整讲解策略。
4. 文本自控的语音合成:通过”文本自控”机制,让声音摆脱机械朗读感,实现与表达与语义、情绪高度一致。模型能深度理解直播台词的文风与语境,并结合发音人(如罗永浩)的独特特征,将文本信息”翻译”成自然、富有感染力的声音。
5. 高一致性超拟真长视频生成:通过结合多模态视频理解、跨模态信号生成等关键技术,攻克了高可控交互、长时间一致性保持等业界难题,将AI视频生成的应用边界从”秒级”拓展至”小时级”。
二、5500万GMV背后的数字奇迹
2025年6月15日,罗永浩数字人在百度电商平台开启首秀,这场持续6小时的直播创造了多项行业纪录:
核心数据表现:
- GMV突破5500万元,观看人次超1300万
- AI调用知识库1.3万次,生成9.7万字产品讲解内容
- 双数字人搭档做出超8300个动作
- 部分核心品类带货单量超过罗永浩5月真人首秀同期数据
- 26分钟GMV即突破真人直播1小时的成交额
技术细节:
- 通过海量数据训练生成罗永浩数字人,结合商品特性量身定制剧本
- 复刻罗永浩的惯性动作和表情,达到神形音容全模态统一
- 首次实现双数字人默契配合及多智能体调度
- 数字人可实时接梗、玩梗,展现鲜明人设与活泼语言风格
互动表现:
当有观众提及关注度很高的”苏超”足球比赛时,数字人罗永浩幽默回应:”我知道苏超最近挺火的,什么比赛第一友谊第十四,热梗挺多的,我建议国足也和苏超学学。”这种临场反应能力,让直播间氛围瞬间活跃起来。
三、本尊坦言:打不过
罗永浩在直播结束后通过视频表示”让我惊讶”、”完美收官”,并在个人社交账号上分享感受:”我和萧木的两个数字人在那儿眉来眼去,讲着跟我一样风格的段子,有点恍惚……但这就是现实。”
交个朋友副总裁吴加录表示,百度的AI能力与交个朋友的直播运营经验和供应链资源实现了技术与场景的完美结合,”技术+IP”的协同模式将为行业智能化转型提供实践样本。
百度副总裁、电商总经理平晓黎透露,数字人直播成本已大幅降低,目前基本控制在一个月1000元左右,而单个数字人制作成本已控制在千元级别。她预期三个月左右的时间,类似罗永浩这样的数字人成本也能逐步降下来。
四、数字人直播的成本革命
数字人直播最直观的优势在于成本结构的根本性改变。与传统真人直播相比,数字人无需承担工资、社保、奖金等人力成本,也不受工作时间和场地的限制。
成本对比分析:
| 对比维度 | 真人直播 | 数字人直播 | 降本幅度 |
|---|---|---|---|
| 月均人力成本 | 3-10万元 | 数百元 | 90%以上 |
| 直播时长 | 6-8小时/天 | 24小时/天 | 300%提升 |
| 设备投入 | 专业设备+场地 | 仅需电脑 | 80%节省 |
| 主播薪资 | 数千至数万/场 | 零成本 | 100%节省 |
| 团队配置 | 主播+助播+运营 | 单人操作 | 60%人力节省 |
实际应用案例:
在山东德州夏津县,三位平均年龄超65岁的老支书,借助百度”慧播星”数字人技术,进行7×24小时不间断直播,精准讲解产品、实时回复问题。开通数字人直播短短一个月,他们的地瓜直播间订单近万单,总销售额突破15万元,成功售出农产品3.3万斤。
百度电商”一村一品”项目通过”慧播星”等技术,累计帮助全国1000多户农民增收,商品交易总额超2500万元。
五、行业规模与市场前景
根据艾媒咨询数据,2023年中国虚拟人带动产业市场规模和核心市场规模分别达到3334.7亿元和205.2亿元,预计到2025年将分别增长至6402.7亿元和480.6亿元,呈现强劲的增长态势。
IDC发布的《中国2024年中国AI数字人市场份额》报告显示,2024年中国AI数字人市场规模约41.2亿元人民币,相比2023年增长85.3%。IDC预计到2029年,市场规模将达到250.5亿元人民币,2024-2029年复合年增长率达43.5%。
市场渗透率:
2023年数字人直播渗透率不足5%,预计2025年将提升至20%以上。技术成本下降60%,单次直播成本可低至真人主播的1/10。
平台数据表现:
- 京东618期间:1.7万商家采用数字人直播,带动平台整体转化率提升30%,累计GMV超140亿元
- 淘宝:直播GMV同比增长28%,其中数字人直播增量超35%
- 抖音:锋味派意面直播间数字人日均GMV达16.31万元,较真人主播提升7.6%
- 快手:数字人直播带动中小商家日均GMV增长210%,月度营销成本下降72%
六、未来发展趋势
技术迭代方向:
- 极致拟真:突破发丝级形象复刻与毛孔级皮肤纹理还原,实现98%以上精度的唇齿同步
- 智能自主:依托多模态大模型优化,响应延迟压缩至200毫秒内,强化情感计算能力
- 普惠化:”一键克隆”功能简化至短时长素材训练,让中小企业轻松入局
商业模式升级:
- 生态化赋能:完善代理合作、OEM贴牌、源码交付体系,降低合作门槛
- 定制化服务:推出”数字人家族”定制服务,助力品牌沉淀专属数字资产
- 全链路数字化:从单一直播工具转向全链路数字化营销解决方案
人机协同成为主流:
“真人主播+数字人主播”的混合模式将成为主流。真人负责高价值、创造性的互动,数字人承担标准化讲解、夜间值班等工作,实现效率最大化。这种模式既能保留真人主播的情感温度,又能发挥数字人的效率优势。
应用场景拓展:
数字人直播已从电商拓展至文旅、教育、医疗、本地生活服务等多个领域:
- 文旅:敦煌莫高窟、巴黎卢浮宫采用数字人导游
- 教育:松鼠AI引入数字人教师,学生学习效率平均提升18%
- 医疗:融汇客医疗数字人完成83%的远程诊断
七、行业影响与挑战
对就业的影响:
数字人直播的兴起,对传统主播岗位产生了一定冲击。如口播类自媒体、普通客服等替代性强的岗位,几乎均会被取代,挤压普通人的就业空间。
合规与监管:
2024年7月,国家网信办等七部门联合发布的《生成式人工智能服务管理暂行办法》正式施行,强调了对深度合成内容(包括数字人)的标识义务和合规要求。数字人运营企业需要履行《个人信息保护法》、《网络安全法》、《数据安全法》等法律法规设定的各类义务和要求。
技术瓶颈:
虽然技术已取得重大突破,但数字人直播仍面临一些挑战:
- 复杂场景交互能力不足,如处理突发性提问”这件衣服孕妇能穿吗?”
- 约40%消费者认为数字人”缺乏情感温度”
- 伦理风险:深度伪造技术滥用可能引发虚假宣传争议
结语
罗永浩数字人的成功,标志着数字人直播技术已从概念验证阶段进入规模化商用阶段。从世界互联网大会的科技大奖,到6小时5500万GMV的商业奇迹,再到本尊”打不过”的坦诚评价,数字人直播正在重新定义电商行业的游戏规则。
未来,随着技术的持续迭代和成本的进一步降低,数字人直播将不再局限于电商带货,而是向教育、医疗、文旅等更广泛领域渗透。这场由技术驱动的直播革命,正在为行业带来前所未有的效率提升和成本优化,同时也对传统商业模式和就业结构带来深刻变革。
免费文章,允许转载!转载时请注明来源:【小钉教科】(xdjk.cn)
支持原创、保护作者权益、激发创作动力。


