多模态AI爆发：GPT-5、Sora之后，下一个颠覆性技术是什么？小钉教科

当GPT-5能够理解你上传的图片并给出精准分析，当Sora能够根据文字描述生成逼真视频，我们似乎已经站在了人工智能的又一个高峰。2025年的多模态AI技术，已经从“拼接式多模态”迈向了“原生多模态”的新阶段。Google的Gemini系列、OpenAI的GPT-5以及国内的通义千问Qwen2.5-VL等模型，在架构层面实现了根本性的统一——它们采用统一的Transformer架构和共享的向量空间来处理所有模态的数据。

这种“万物皆可Token化”的技术理念，让文本、图像、声音、视频都被转换成一系列离散的“语义令牌”，在统一的架构中进行深度交互和融合。字节跳动的豆包Seed 1.6系列模型展现出前沿的全模态处理水平，覆盖文本、图像、视频、语音的统一理解；阿里的通义千问Qwen2.5在金融领域风险识别准确率达99.2%；而Google的Veo 3模型甚至首次实现了“文本驱动+有声视频”的生成能力。

然而，技术的脚步从未停歇。在多模态AI的狂欢之后，一个更深刻的问题浮现：下一个颠覆性技术将是什么？是让AI拥有物理身体的具身智能？是让AI真正学会思考的神经符号系统？还是让AI从工具进化为伙伴的智能体？答案或许就隐藏在这三大技术方向的交汇处。

一、具身智能：从虚拟到物理的跨越

2025年春晚舞台上，宇树机器人的舞姿还历历在目。而到了2025年末，智元机器人已经完成了5000台量产的交付。这不仅仅是数字的变化，更是具身智能从实验室“炫技”到舞台“上岗”的标志性转折。

具身智能，这个在2025年首次被写入政府工作报告的概念，正在以前所未有的速度改变我们对AI的认知。它不再是屏幕后的代码，而是拥有物理形态、能够与环境互动的智能实体。中国科学院自动化研究所副总工程师王金桥指出，人工智能的发展路径是从生成式AI到AI智能体，再到物理交互的AI。在物理AI阶段，环境决定模型自演进——这意味着AI将不再仅仅依赖数据，而是通过与真实世界的互动来学习和成长。

技术突破：从“炫技”到实用

2025年世界机器人大会上，国产人形机器人首次实现360度旋转落地、动态奔跑等高难度动作。智元机器人远征A2完成百公里跨城行走，验证了复杂路况下的感知与运动控制能力。这些成就的背后，是“大模型+算力+硬件”协同发展体系的成熟。

相比传统机器人，具身智能机器人嵌入了大模型“大脑”，在多模态信息感知、复杂场景推理、真实环境行动交互等方面的智能水平明显提升。北京人形机器人创新中心开源的具身智能视觉语言模型(XR-1)，开始为工业、高危特种作业等场景提供感知和指令理解能力。

应用落地：从工厂到家庭

2025年12月，多家深圳人形机器人企业集中落地商业应用。星尘智能在北京、上海、广州多个商圈落地全球首个由绳驱AI机器人自主运营的零售服务店“机器人MART”；越疆机器人在深圳蛇口K11 ART HOUSE电影院实现全自主运营；智平方在北京、深圳同步落地全球首个模块化具身智能服务空间“智魔方”。

在工业领域，优必选首批数百台全尺寸工业人形机器人Walker S2开启量产交付，将分批投入产业一线应用。普罗宇宙机器人发布的工业级轮式具身机器人普罗宇宙大白2.0版，在300多个性能点上实现全面升级。

技术挑战与未来方向

尽管进展迅速，具身智能仍面临诸多挑战。千寻智能首席运营官郑灵茵坦言，当前多数机器人可完成叠衣服等单一任务，向多程任务能力发展仍需时日，家庭等非结构化场景适配难题尚未完全破解。

2025世界机器人大会发布的具身智能机器人十大发展趋势，为我们勾勒了未来的技术路径：

物理实践、物理模拟器与世界模型协同驱动的具身感认知
多层次端到端的具身决策
融合模型预测、强化学习和生命科学的具身智能控制
生成式人工智能驱动的具身智能机器人设计
高度协同与动态适配的具身智能软硬件一致性

深圳市计划到2027年新增培育估值过百亿企业10家以上、营收超十亿企业20家以上，实现十亿级应用场景落地50个以上，关联产业规模达到1000亿元以上。上海也为产业定下目标：到2027年，具身智能核心产业规模突破500亿元。

二、神经符号AI：让AI真正学会思考

当多模态AI让机器“看”得更清、“听”得更准时，一个更根本的问题依然悬而未决：AI真的在“思考”吗？还是只是在模仿思考的表象？神经符号AI（Neuro-Symbolic AI）正是为了回答这个问题而诞生的。

传统AI系统长期面临“感知-推理”的割裂困境：神经网络擅长模式识别却缺乏逻辑解释，符号系统精于推理但依赖人工规则。神经符号AI通过将神经网络的表征学习与符号系统的逻辑推理深度融合，首次实现了“感知即推理”的认知范式突破。

技术本质：认知边界的突破

神经符号AI带来的认知升级体现在三个方面：

表征-推理一体化：消除传统系统中表征与推理的模块化隔离，实现从原始数据到决策的端到端学习
可解释性增强：符号系统的逻辑约束使神经网络的“黑箱”决策变为可追踪的推理链
小样本学习能力：符号先验知识可指导神经网络进行高效学习，显著降低数据依赖

南京大学在2025年IJCAI上发表的系统性研究论文指出，神经符号人工智能方法正展现出独特潜力，通过融合符号推理与神经网络来突破大语言模型的推理瓶颈。大量研究指出，大语言模型往往只是“模仿推理的表象”，而非“理解推理的本质”。神经符号AI正是迈向通用人工智能（AGI）的关键路径。

技术演进：三大发展方向

神经符号AI的未来发展将沿着三大技术路径演进：

1. 动态符号系统构建

当前神经符号AI的符号体系多依赖人工预设，未来将向自动符号发现发展。通过神经网络从数据中提取潜在概念结构，动态构建符号系统。例如在自然语言处理中，系统可自动识别“购买-支付-交付”等事件图式，形成动态知识图谱。

2. 跨模态元推理引擎

突破单一模态限制，构建可处理文本、图像、语音等多模态数据的统一推理框架。以自动驾驶为例，系统需同时理解交通标志（视觉）、语音指令（听觉）和导航规则（符号），通过跨模态注意力机制实现多源信息的协同推理。

3. 自进化认知架构

引入元学习机制，使系统具备认知架构的自我调整能力。当处理新型任务时，系统可自动配置神经网络结构与符号规则的组合方式。

工程化突破与行业应用

阿里巴巴达摩院在2025年发布的NeSy框架“LogiNet”采用了差异化松弛处理设计，在其电商推荐系统中实现了违规商品识别准确率与推荐多样性的双提升。

在工业质检场景中，西门子工业AI团队将产品规格书的结构化条款（符号知识）与视觉特征的神经网络提取相结合，使新产线的质检模型开发周期从6个月缩短至3周。

微软亚洲研究院的“DialoLogic”系统展示了动态逻辑框架的能力，在医疗咨询对话中，系统会根据患者描述的症状动态构建诊断推理树，同时保持符合医学指南的符号约束。

前沿探索：量子计算辅助的符号推理

IBM研究院在2025年第一季度发布的预印本论文中，首次展示了利用量子退火处理器加速一阶逻辑约束求解的实验结果。虽然目前还处于早期阶段，但初步数据显示在特定类型的组合优化问题上，量子-经典混合架构比纯经典计算快1-2个数量级。

现实挑战与未来路径

尽管技术不断进步，NeSy系统的大规模部署仍存在诸多现实障碍。工具链的碎片化问题尤为突出，当前市面上存在TensorFlow Logic、PyTorch-Symbolic等十余种互不兼容的实现框架。2025年MLSys会议上的行业调研显示，78%的受访企业将“缺乏统一工具链”列为NeSy应用的首要障碍。

领域知识编码成本是另一个关键瓶颈。将专家知识转化为适合神经符号集成的形式化表示，需要既懂领域又懂NeSy技术的复合型人才。波士顿咨询集团的报告指出，在2024-2025年金融业AI应用中，NeSy项目的知识工程阶段平均消耗了总预算的45%-60%，远超预期。

三、AI Agent：从工具到伙伴的进化

如果说具身智能让AI拥有了身体，神经符号AI让AI拥有了思考能力，那么AI Agent（人工智能体）则让AI拥有了自主行动的能力。2025年，这个领域正在经历从“对话交互”到“任务闭环”的根本性转变。

市场咨询机构Gartner将AI Agent列为2025年十大战略技术趋势之首。根据Gartner预测，到2028年，15%的日常工作决策预计将通过Agentic AI完成。IBM大中华区技术销售总经理翟峰指出，2025年将是“AI智能体规模应用”的关键年份。

技术定义：从被动到主动

AI Agent被赋予了新的定义：它指的是有能力主动思考和行动的智能体。AI Agent能够以类似人类的方式工作，通过大模型来“理解”用户需求，主动“规划”以达成目标，使用各种“工具”来完成任务，并最终“行动”执行这些任务。

与传统的AI助手不同，后者每次生成回复都需要用户提示，而智能体在理论上只需用户下达一项高层级任务，便会自主规划完成路径。OpenAI发布的名为Operator（操作员）的智能体，可以上网为用户执行任务，用户只需要输入需求，Operator就可以完成餐厅订位、购买日常用品、预订比赛门票等任务。

六大技术趋势

2025年AI Agent领域呈现出六大关键趋势：

1. Agentic RAG（检索增强生成智能体）

在传统RAG基础上，引入Agent机制，让检索与生成过程变得更自主、更可控、更具多轮决策能力。Perplexity、Harvey AI、Glean AI等公司正在采用这一技术。

2. Voice Agents（语音智能体）

基于语音交互的人机智能体系统，结合ASR、NLU、任务规划与执行以及TTS技术，实现从语音输入到任务完成再到语音输出的全链路闭环。ElevenLabs、Cognigy、Vapi和Deepgram等公司在采用。

3. AI Agent Protocols（智能体协议）

用于不同AI Agent之间，或Agent与外部系统之间通信、协作、共享信息的一套标准化规则与接口规范。被埃森哲等公司采用，协议包括A2A、ACP、SLIM等。

4. CUA（计算机使用智能体）

可以真正使用计算机——启动应用程序、浏览网站以及推理执行任务。Agent可以像人类一样利用浏览器、CLI甚至鼠标光标等工具与计算机进行交互。被OpenAI等公司用作其Operator、Claude’s Computer Use、H-Company的Runner H和Manus AI等公司使用。

5. Coding Agents（编码智能体）

专门用于编写、调试、优化或管理代码的Agent。它不仅能生成代码，还能理解代码上下文、执行多轮推理和调用外部工具，帮助开发者更高效地完成软件开发任务。被Windsurf、Cursor和GitHub Copilot等公司使用。

6. DeepResearch Agents（深度研究智能体）

专注于科研与知识探索的Agent，它们能够自动检索文献、分析数据、生成报告，并在多轮交互中推进研究任务。热门产品包括Gemini DR、OpenAI DR等。

商业化落地与生态建设

从中国AI应用TOP10榜单看，通用AI助手豆包和DeepSeek已成为超级入口。2月数据显示，豆包和DeepSeek与第三名Kimi的月活规模差距扩大至3600万。

智能体商店的快速发展有望催生大模型时代的App Store时刻。智能体商店是一个数字市场，开发者和创作者可以发布他们自己定制的AI智能体。在Freemium、打赏、广告等可预见的变现模式之外，智能体商店是商业化的又一路径。

企业级应用挑战

IBM的翟峰指出，大多数企业没有做好迎接智能体的准备。随着智能体的应用，企业将要公开目前的应用程序接口（API），这是最具挑战性的部分。解决这一问题的关键并不是模型是否够好，而是企业的智能化就绪程度。

企业级AI智能体平台watsonx Orchestrate依托IBM Granite等“小而美”的开源模型，能够大规模实现复杂工作流自动化。该平台已实现与80多种核心业务应用的1000多项集成，将智能体能力输送至企业流程的每个“神经末梢”。

四、技术融合与未来展望

当具身智能、神经符号AI和AI Agent三大技术方向开始交汇，我们看到的不是三条平行线，而是一个正在形成的技术生态系统。这个系统的核心特征是：感知-思考-行动的完整闭环。

技术融合的必然性

具身智能需要神经符号AI的推理能力。一个能够在复杂环境中行动的机器人，不仅需要感知环境（多模态AI），还需要理解环境（神经符号AI），更需要规划行动（AI Agent）。中国科学院自动化所研究员王金桥指出，人工智能的发展路径是从生成式AI到AI智能体，再到物理交互的AI。在物理AI阶段，环境决定模型自演进——这意味着AI将通过与真实世界的互动来学习和成长，而这正是具身智能与神经符号AI结合的最佳场景。

神经符号AI需要具身智能的物理验证。符号系统的逻辑推理需要在真实世界中得到验证和修正。具身智能提供了这样的验证平台——通过物理交互，神经符号系统可以不断调整和优化其推理规则。

AI Agent需要具身智能的执行能力。一个能够规划复杂任务的智能体，最终需要物理实体来执行这些任务。无论是工厂中的机器人，还是家庭中的服务助手，都需要具身智能作为其“身体”。

产业生态的协同发展

2025年的技术发展已经显示出明显的协同趋势。在WAIC 2025期间，复旦大学联合上海科学智能研究院等机构发布的早期中华文明多模态大模型备受关注，整合了100TB专业语料与时空数据，其AI Agent平台已在教育、科研领域实现跨学科赋能。

中国科学院联合团队研发的“磐石·科学基础大模型”，采用异构混合专家架构，基于专业科学知识和数据训练，能深入理解波、谱、场等科学模态数据，掌握数、理、化、天、地、生等学科核心知识，实现科学文献萃取融合、知识表征推理及工具编排规划，成为跨学科“操作系统”，为科研领域提供智能支撑。

未来五年的关键突破点

基于当前技术演进趋势，未来五年可能在以下方向取得关键突破：

1. 自主符号发现系统

DeepMind在2025年展示的“Symbolic Distillation”方法，通过对比学习从神经网络激活模式中提取命题逻辑，初步验证了自监督符号发现技术的可行性。未来，系统将能够自动从数据中提取潜在的逻辑规律，而非完全依赖人工编码。

2. 边缘计算适配的神经符号系统

随着物联网设备智能化需求爆发，如何在资源受限的终端设备上部署NeSy系统成为迫切课题。这将推动轻量级神经符号架构的发展，使智能推理能力能够部署到手机、可穿戴设备甚至微型传感器中。

3. 多智能体协同的具身系统

2025世界机器人大会发布的具身智能机器人十大趋势中，第八条就是“具身智能机器人集群及与人协同的发展，融合多智能体的协同机制，构建具身智能机器人集群”。这意味着未来的机器人不再是孤立的个体，而是能够协同工作的群体。

4. 安全与伦理框架的建立

第十条趋势明确指出：“面向具身智能机器人的安全评估与伦理建设，通过行为规范验证、决策可解释性分析，和数据安全性研究等，能够确保建立面向具身智能机器人的安全评估体系和伦理规范”。随着AI能力的增强，安全与伦理问题将变得更加重要。

人机关系的重新定义

IBM的翟峰提出了一个深刻的问题：AI智能体的未来是“全能自主”还是“人机协同”？他倾向于认为，智能体将扮演“赋能”的角色，成为人类主导的集约化工作流中的协作者。低价值、重复性的任务将被自动化，而人类在战略规划、创意创新等高阶领域的潜力将被进一步释放。

这种观点得到了业界的广泛认同。AI能够解放人的双手，但最终决定权永远在人的手中。在医疗、金融等高风险行业，由回滚机制和审计跟踪组成的“安全防护网”是AI智能体规模应用的前提。即便AI智能体完全进化到能够自主处理复杂问题的水平，其自主性也不能超过业务场景、伦理规范与法律要求的边界。

结语：技术进化的本质是服务人类

回顾人工智能的发展历程，从早期的规则系统，到深度学习革命，再到今天的大模型时代，每一次技术突破都在重新定义人机关系。多模态AI让我们与机器的交流更加自然，具身智能让机器走进我们的物理世界，神经符号AI让机器开始真正“思考”，而AI Agent则让机器成为我们的合作伙伴。

2025年，我们站在了一个新的起点。GPT-5和Sora代表了多模态AI的成熟，但这只是开始。下一个颠覆性技术不是单一的突破，而是感知、思考、行动三大能力的融合。具身智能提供了身体，神经符号AI提供了大脑，AI Agent提供了意志——这三者的结合，将创造出真正意义上的智能体。

然而，技术的终极目标不是创造超越人类的智能，而是创造服务人类的智能。正如IBM翟峰所言，我们必须用“以人为本”的思想对“技术至上”的倾向进行纠偏。智能体虽然具备自主能力，但绝不意味着人的全方位撤退。

未来已来，但未来不是机器的独舞，而是人机的共舞。在这个舞蹈中，人类始终是领舞者，而AI是我们最默契的舞伴。技术的价值不在于它有多强大，而在于它如何让人类变得更强大。这，才是下一个颠覆性技术的真正意义。

免费文章，允许转载！转载时请注明来源：【小钉教科】(xdjk.cn)
支持原创、保护作者权益、激发创作动力。

多模态AI爆发：GPT-5、Sora之后，下一个颠覆性技术是什么？

一、具身智能：从虚拟到物理的跨越

二、神经符号AI：让AI真正学会思考

三、AI Agent：从工具到伙伴的进化

四、技术融合与未来展望

结语：技术进化的本质是服务人类

关于作者

遇僧

发表回复

朱老师（遇僧）

视频号

抖音号

先加微信，邀请进群

多模态AI爆发：GPT-5、Sora之后，下一个颠覆性技术是什么？

一、具身智能：从虚拟到物理的跨越

二、神经符号AI：让AI真正学会思考

三、AI Agent：从工具到伙伴的进化

四、技术融合与未来展望

结语：技术进化的本质是服务人类

关于作者

遇僧

相关推荐

发表回复

朱老师（遇僧）

视频号

抖音号

先加微信，邀请进群