世界模型：AI的「慢思考」进化

原文链接：联想控股微空间 - 世界模型：AI的「慢思考」进化
版权声明：本文内容来源于"联想控股微空间"微信公众号，版权归原作者所有。AiTimes.net 仅作技术学习与分享。

文章封面

概述

当一只猫跳上餐桌，碰翻了一杯水，我们不仅看见"水洒了"，还能瞬间推断出：杯子会碎、桌子会湿、猫会跑。这是刻在人类基因里的物理直觉——一种对三维世界运行方式的内在理解。但对于过去十年的人工智能而言，这只是一串像素的剧烈变化。

2026年，一场AI范式的根本性变革正在发生。当大语言模型（LLM）的参数竞赛撞上高质量数据枯竭的墙壁，一种更接近人类认知本质的技术路线正在接管AI的主导权——世界模型（World Model）。它不再仅仅预测下一个Token，而是试图在计算机构建一个遵循物理规律的三维宇宙。

这是AI从"读万卷书"向"行万里路"的关键一跃，从"统计关联"走向"因果理解"，从"被动学习"走向"主动探索"。

本文将从人类认知的"快与慢"出发，系统梳理世界模型的理论基础、核心架构、工程实践，以及联想系投企（自变量机器人、小马智行、逐际动力）在世界模型方向的落地成果，帮助读者全面理解这场AI范式变革。

一、LLM的困境：系统1的智能天花板

1.1 快思考的本质

美国心理学家、诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》中将人类思维分为两套系统：

系统1：依赖直觉和模式识别，快速但容易出错
系统2：负责逻辑推理，缓慢但严谨

**LLM本质上是纯系统1型智能。**它在海量文本中学习统计规律，给出回答的速度惊人，但当你追问"为什么"，它的解释往往经不起推敲。正如人工智能博士、Quant AI Lab创始人贝特朗·哈桑尼所指出的："大语言模型存在机械性局限——参数量不断增加，高质量数据存在限制，对硬件和能源的需求永无止境。"

系统1与系统2思维对比

1.2 缺乏物理世界感知

更关键的问题是：LLM无法在脑海中推演"推一下杯子会发生什么"，因为它从未真正"看见"过物体运动。它的知识来自文本，而非对三维世界的感知。这种"纸上谈兵"式的智能，一旦需要和物理世界发生真实交互，局限便会显露。

图灵奖得主杨立昆（Yann LeCun）说得更直接："如果我们希望大语言模型达到人类的智能水平，那就是死路一条。"他断言，真正的智能必须建立在对三维物理世界的深刻理解之上。

杨立昆关于世界模型的观点

二、世界模型：AI的系统2

2.1 核心概念

如果说LLM是博闻强记的"海马体"，那么世界模型就是负责逻辑推演的"前额叶"。它的核心不是在语言空间里做检索，而是在构建一个与现实世界同构的虚拟世界——把高维的感官数据压缩为结构化的物理规律，然后在这个空间里进行预测和推演。

这正是卡尼曼所说的"系统2"能力。世界模型不再满足于"刺激-反应"式的直觉输出，而是在做出决策前，在脑海中预演成千上万种可能性。

2.2 JEPA架构：工程化的落地方案

这种"三思而后行"的机制，杨立昆用 JEPA（Joint-Embedding Predictive Architecture，联合嵌入预测架构）做了工程化落地。

JEPA的核心思路是：不追求像素级渲染画面，而是在抽象的隐空间中直接预测"接下来会发生什么"。它跳过视觉噪声，直接捕捉物理本质——不看树叶每一帧的精确轨迹，而是理解"叶子在往下落"这件事本身。

基于JEPA的 LeWorldModel 方案展现出了惊人的效率：

指标	数值
参数量	仅1500万
训练硬件	单张GPU即可稳定训练
规划速度	比大模型方案快48倍

这证明了世界模型不需要海量参数和算力，关键在于架构设计的合理性。

三、联想系企业的实践：世界模型从概念到现实

世界模型正从学术论文走向现实应用。我国科技企业积极入局，联想控股体系所投资的多家企业已率先积累了实践经验。

3.1 自变量机器人：全球首个世界统一模型 WALL-B

2026年4月21日，君联资本、联想之星共同投资企业自变量机器人发布全球首个基于世界统一模型架构（WUM）的具身智能基础模型 WALL-B。

这不是一次常规迭代，而是从VLA（视觉-语言-动作）架构向原生多模态融合架构的全面重写。

自变量机器人 WALL-B 架构

WALL-B的三项关键突破：

原生多模态联合训练：从训练第一天起即对视觉、听觉、触觉等多模态数据进行联合训练，实现"多模态进、多模态出"
物理规律感知与预测：能够感知并预测重力、惯性、摩擦力等基本物理规律
自主策略调整：任务失败后会主动调整策略再次尝试，并将成功经验直接更新到模型参数中

搭载WALL-B的新一代机器人将正式入驻真实家庭，开启机器人服务家庭生活的成长之旅。

3.2 小马智行：PonyWorld 2.0 的自我进化

2026年4月10日，君联资本、联想之星共同投资企业小马智行发布 PonyWorld世界模型2.0。

与1.0相比，最本质的变化在于：模型具备了自我诊断与定向进化能力。

小马智行 PonyWorld 2.0

具体而言：

AI不再依赖工程师花大量精力判断模型哪里有问题
不再需要人工采集数据来迭代
能够自主诊断自身短板
自动生成针对性训练场景
**主动"指导"**人类团队的研发和数据采集工作

目前，这一系统已应用于小马智行L4级无人驾驶车队，持续提升车辆的安全性、舒适性和通行效率。这意味着AI不仅有了系统2的推演能力，还开始具备"自我审视"的元认知雏形。

3.3 逐际动力：COSA 具身智能体系统

2026年1月12日，联想创投所投企业逐际动力正式发布面向物理世界原生的具身智能体系统 LimX COSA（Cognitive OS of Agents）。

逐际动力 COSA 系统

COSA通过将高阶认知与全身运控进行深度融合，使机器人在真实的物理世界中，实现"能想、能动、边思考边干活"的大小脑一体化智能。

COSA系统赋予具身智能三大核心能力：

基于物理逻辑的"大脑"思考与决策：在顶层赋予了机器人主动理解任务与目标的逻辑能力
跨时间、跨模态的感知与记忆：构建对物理世界的持续认知能力
基于实时感知的全身运动控制：全尺寸人形机器人Oli能够在诸如连续长楼梯这种复杂环境中保持稳定、鲁棒的运动

逐际动力 Oli 机器人

四、技术路线对比：世界模型 vs 传统LLM

维度	传统LLM	世界模型
知识来源	文本语料	多模态感知（视觉、触觉等）
推理方式	统计模式匹配	物理规律建模 + 隐空间推演
认知类型	系统1（快思考）	系统2（慢思考）
交互能力	纯文本	物理世界实时交互
自我迭代	依赖人工标注	自主诊断与定向进化
参数效率	千亿级参数	千万级参数即可高效运行
规划速度	较慢	比LLM方案快48倍（JEPA）
失败处理	无法自主调整	主动调整策略并更新参数

五、FAQ：关于世界模型的常见问题

Q1：世界模型会取代大语言模型吗？

不会取代，而是互补。LLM擅长语言理解和生成，世界模型擅长物理世界建模与推演。未来的通用AI系统很可能是两者的结合——LLM提供"语言能力"，世界模型提供"理解能力"。

Q2：世界模型为什么参数量可以这么小？

关键在于架构设计。JEPA在抽象的隐空间中进行预测，而不是在像素空间。这意味着它不需要学习大量视觉噪声，而是直接建模物理本质。1500万参数的LeWorldModel能达到比千亿参数LLM更强的规划能力，就是因为"学到了正确的东西"。

Q3：世界模型和具身智能是什么关系？

世界模型是具身智能的"大脑"。具身智能体（如机器人）需要在物理世界中感知、决策、行动，世界模型为它提供了理解物理规律、预测未来状态的能力。没有世界模型的具身智能，就像没有前额叶的大脑——只能做出本能反应。

Q4：世界模型的训练需要什么数据？

与传统LLM的纯文本语料不同，世界模型需要多模态序列数据——视频帧、传感器读数、动作反馈等。这些数据记录了物理世界的动态变化，模型从中学习因果规律而非文字关联。

Q5：世界模型目前的局限性是什么？

数据获取成本：多模态物理数据的采集比文本抓取复杂得多
评估标准：缺乏统一的物理推理能力评估基准
泛化能力：在特定场景训练后，迁移到全新物理环境的鲁棒性仍需验证
实时性要求：机器人需要在毫秒级时间内做出决策，对推理速度要求极高

六、展望：从感知到理解的关键一跃

世界模型的出现，标志着AI正在经历一场深刻的认知升级。

就像人类的认知发展过程一样——从婴儿的感官探索到儿童的因果理解，再到成人的逻辑推理——AI也正在经历从"感知"到"理解"的关键一跃。当硅基大脑不仅能记住人类说过的话，还能理解世界运行的规律，能够在头脑中模拟未来，能够从错误中学习，真正的通用人工智能（AGI）或许就不再遥远。

AI认知发展路线图

在这个进程中，中国科技企业展现出了强大的创新活力。自变量机器人的WALL-B、小马智行的PonyWorld 2.0、逐际动力的COSA系统——这些不是跟风之作，而是面向物理世界原生的全新架构探索。它们证明了一件事：通用人工智能的道路不止一条，而世界模型正在成为最有希望的那一条。

总结

世界模型不是又一个AI概念，而是对AI本质的一次重新思考。它回答了一个根本问题：智能的本质是什么？ 不是记忆更多知识，而是理解世界如何运作。

核心要点	说明
LLM是系统1智能	基于统计模式匹配，缺乏物理世界感知
世界模型是系统2智能	在隐空间中建模物理规律，进行推演和预测
JEPA是工程化方案	单GPU、1500万参数即可高效训练
联想系企业已落地	自变量（WALL-B）、小马（PonyWorld 2.0）、逐际（COSA）
未来是融合架构	LLM语言能力 + 世界模型理解能力 = 通用AI

掌握世界模型的原理和发展趋势，是理解下一代AI技术走向的关键一步。

参考资料

《"世界模型"能否超越大语言模型？》
《LeCun的世界模型单GPU就能跑了》
小马智行发布PonyWorld世界模型2.0：可自主进化的物理AI引擎
自变量机器人发布全球首个世界统一模型，35天后新一代机器人入驻真实家庭
《LimX COSA，逐际动力全新发布具身 Agentic OS 系统》

原文链接：联想控股微空间 - 世界模型：AI的「慢思考」进化
版权声明：本文内容来源于"联想控股微空间"微信公众号，版权归原作者所有。AiTimes.net 仅作技术学习与分享。

世界模型：AI的「慢思考」进化 ​

概述 ​

一、LLM的困境：系统1的智能天花板 ​

1.1 快思考的本质 ​

1.2 缺乏物理世界感知 ​

二、世界模型：AI的系统2 ​

2.1 核心概念 ​

2.2 JEPA架构：工程化的落地方案 ​

三、联想系企业的实践：世界模型从概念到现实 ​

3.1 自变量机器人：全球首个世界统一模型 WALL-B ​

3.2 小马智行：PonyWorld 2.0 的自我进化 ​

3.3 逐际动力：COSA 具身智能体系统 ​

四、技术路线对比：世界模型 vs 传统LLM ​

五、FAQ：关于世界模型的常见问题 ​

Q1：世界模型会取代大语言模型吗？ ​

Q2：世界模型为什么参数量可以这么小？ ​

Q3：世界模型和具身智能是什么关系？ ​

Q4：世界模型的训练需要什么数据？ ​

Q5：世界模型目前的局限性是什么？ ​

六、展望：从感知到理解的关键一跃 ​

总结 ​

参考资料 ​