杨立昆再出狂言：LLM和机器人正走向死胡同，世界模型才是正解

AI科技 2025年10月27日 07:02 0 aa

近日，在麻省理工学院生成式 AI 影响力联盟（MIT Generative Al Impact Consortium）研讨会的开幕演讲中，Meta 首席 AI 科学家、纽约大学教授 Yann LeCun 再次展现了他一贯的“离经叛道”。这位 2018 年图灵奖得主又重申了他此前认为大模型是“死胡同”的观点，坚称它们“永远无法达到人类水平的智能”，同时，他也毫不客气地泼了一盆冷水给当前的人形机器人热潮：“这个行业的大秘密是，这些公司都不知道如何让机器人足够聪明以至于有用。”

（来源：Youtube）

四十年前的“愚蠢”选择

1987 年，当 AI 学界还在追逐专家系统的热潮时，年轻的 LeCun 在巴黎完成了他关于“连接主义学习模型”的博士论文。那篇论文奠定了神经网络反向传播算法的基础，却在当时显得格格不入。

图丨相关论文（来源：Research Gate）

“也许是出于天真或无知吧，”LeCun 回忆起那段经历时略带自嘲，“我在本科时就偶然发现，五六十年代包括 MIT 在内的一些研究者，曾经思考过自组织这个问题。”他被这个想法深深吸引——在自然界中，一切生命都具备适应能力，一切拥有神经系统的生物都能学习。“也许我不够聪明，或者说人类整体还不够聪明，无法直接设计出一个智能系统。智能系统必须自己建造自己。”

这个信念让他在一个不受欢迎的领域坚持了下来。当时的 AI 主流方向是专家系统——将人类专家的知识转录成规则和事实，希望机器能以此运作。“我们今天在大语言模型上遇到的问题其实类似，”LeCun 指出，“只不过现在这种知识转录是通过学习完成的，但本质上仍然是把人类知识搬到机器里，这依然是个瓶颈。”

找 PhD 导师成了一道难关。最终他遇到了一位“非常好心的绅士”（也就是 Maurice Milgram），对方说：“你看起来够聪明，我帮不了你什么技术上的忙，但我可以签文件。”就这样，LeCun 开始了他的研究之路。

蛋糕理论：自监督学习的预言

2016 年，在 NeurIPS 大会上，LeCun 提出了那个著名的“蛋糕理论”——如果把人工智能比作一个蛋糕，那么蛋糕的主体应该是自监督学习（Self－Supervised Learning），糖霜是监督学习（Supervised Learning），而樱桃则是强化学习（Reinforcement Learning）。

“当时研究界很多人，特别是 DeepMind，完全投入到强化学习中，”LeCun 说，“他们相信通往更强大 AI 系统的路径是通过强化学习。但我从来不相信这个，因为强化学习在试错次数上极其低效。”他主张应该尽可能少地使用强化学习，“你当然别无选择，最终需要某种自我纠正的方式，但这应该是最后的手段。”

十年前，LeCun 就在鼓吹一个理念：让机器学习捕捉数据的内在依赖关系，而不用针对任何特定任务进行训练，从而让系统能够表征世界。“然后在此基础上，利用这些学到的表征来训练系统完成特定任务。整个过程只需要从未标注的数据中观察。”

这套想法在 2000 年代中期就开始低调研发。他们尝试将其应用于视频预测——输入一段视频，训练系统预测接下来会发生什么。结果惨淡。但同样的方法用在自然语言理解上，却超出了所有人的预期。“拿一串符号序列，让系统预测下一个符号，这个方法奇迹般地有效。”

为什么文本可以而视频不行？答案在于：一个句子后面可能跟随的词是有限的，你可以预测一个覆盖词典中所有可能词汇的分布。“但当你要预测视频的未来，可能的未来实在太多了，根本无法表征所有这些可能性。”

LeCun 举了个例子：假设给这个会议室拍段视频，然后平移镜头，在某处停下来让系统补全剩余画面。“系统不可能知道这里每个人长什么样，也无法确定房间大小和座位数量，更别提预测地面的纹理细节。有些东西就是完全不可预测的。如果你强迫系统去预测所有这些细节，基本上就是在扼杀它。”

五年前，他们意识到传统方法永远不会奏效，必须发明新技术。

三千亿美元的豪赌与一个四岁孩子

2022 年底 ChatGPT 的横空出世改变了整个世界。2023 年初 Meta 推出 Llama，如今 Meta AI 基于 Llama 技术的月活用户已超过 10 亿，Llama 的下载量也突破 10 亿次。

图丨相关论文（来源：arXiv）

不过 LeCun 却撇清了自己和 Llama 的关系，他声称自己在技术层面并未深度参与项目。“第一代 Llama 其实是 Meta 内部一个有点‘海盗’（Pirate Project）性质的项目，”他说，“2022 年中期，巴黎的一小群人，大约十来个，决定要做一个轻量高效的语言模型，就这么干起来了。”这个项目后来在 2023 年初成为 Meta 的工作主力，促使扎克伯格创建了 GenAI 组织（现在叫超级智能实验室）来将其产品化。

尽管今年行业巨头在 AI 基础设施上的资本支出将达到 3,230 亿美元，Meta 也是其中之一，LeCun 依然认为大语言模型是通往人类级别智能的“死胡同”。

他用一组数字进行了说明。以 Llama 3 为例，训练使用了大约 30 万亿个 token（代表文本的基本单位），也就是 3×10^13。一个 token 通常是 3 个字节，总共约 10^14 字节。“我们任何一个人要读完这些材料，大概需要 40 万年或 50 万年。这基本上是互联网上所有公开可得的文本。”

现在对比一下，一个四岁孩子的视觉皮层在生命最初四年接收到多少信息？一个四岁孩子清醒的时间总共约 16,000 小时。通过视神经每根纤维，每秒约有 1 字节的信息流向我们的视觉皮层，而我们有 200 万根纤维。“也就是每秒约 2 兆字节，乘以 16,000 小时，大约是 10^14 字节。一个四岁孩子通过视觉看到的数据量，相当于最大的语言模型在全部公开文本上训练的数据量。”

这个对比揭示了什么？“首先，我们显然漏掉了什么重要的东西。AI 系统需要从像视频这样的自然高带宽感官数据中学习。仅仅在文本上训练，我们永远达不到人类级别的智能。”

LeCun 毫不客气地说：“尽管硅谷某些加入了“邪教”的人会告诉你，明年我们就能在一个数据中心里拥有一个国家天才的智能水平。我很不客气地说：这根本不会发生。”

“你可能会得到一些有用的工具，能帮助人们的日常生活，甚至感觉像是拥有博士学位的智能，因为它们会反刍训练过的内容。但这些系统不会拥有我们期待的真正智能——不仅是人类的智能，甚至连你家猫的智能都达不到。”

家猫只有 28 亿个神经元，并不算多。但它们对物理世界的理解令人惊叹，能进行复杂的动作规划，而我们连这个都远未达到。“这就是我感兴趣的方向：如何弥合这个鸿沟？如何让系统学习物理世界的模型？这需要非生成式的新架构。”

JEPA：不重建像素，只预测表征

当业界都在生成式模型上狂飙突进时，LeCun 和他的团队在过去五年一直在研究另一条路——JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）。

图丨JEPA（来源：2024 年 Yann LeCun 在哈佛的演讲）

2022 年，他在 OpenReview 上发表了一篇长文，题为《通向自主机器智能之路》，为未来十年的 AI 研究勾勒了蓝图。此后，他与 Meta 和纽约大学的同事们一直朝着这个方向推进。“如果你在 Google Scholar 上搜索‘Joint Embedding Predictive Architectures’，加引号，会得到大约 750 条结果。所以有很多人在研究这个，主要在学术界。”

LeCun 不满于业界对学术贡献的轻视：“人们很快就说所有 AI 研究都在工业界手里了，这是错的。”他强调，学术界往往在研究下一代技术，而这些技术在五到十年后会对产业产生重大影响。

那么 JEPA 和生成式架构有什么本质区别？

在生成式架构中，基本思路是这样的：拿一段文本，用某种方式破坏它——比如随机删除一些词，然后训练神经网络把缺失的词补回来。这就是在教机器理解语言的结构和含义。

GPT 架构更巧妙——它不需要显式地破坏文本，因为架构本身是因果性的。在预测某个词时，系统只能看到它左边的词，所以当你训练系统在输出端重建输入序列时，隐式地就是在训练它预测下一个 token。“这很高效，可以并行化处理。”

这种方法之所以有效，是因为 token 是离散的，数量有限，你可以训练系统输出一个覆盖所有可能 token 的分布。然后就可以进行自回归预测——预测下一个 token，把它挪到输入端，再预测第二个 token，如此循环。

“但我认为这在视频上行不通，”LeCun 说，“因为即使你拍了一段很好的视频，仍然有很多东西无法预测——各种细节，比如这里每个人的长相，你就是预测不了。”

JEPA 的理念是：把视频编码到一个表征空间，在这个空间里很多细节被消除了。然后之前在输入空间做的自回归预测，现在在这个表征空间进行。“诀窍在于，同时训练编码器和预测器非常棘手。”原因是预测器很容易强迫编码器什么都不做——忽略输入，产生一个恒定的输出表征，这样预测问题就变得平凡了，但这不是好的解决方案。

“所以你必须想办法诱导系统在表征中承载尽可能多的输入信息，但同时消除那些无法预测的细节。”系统需要在这两者之间找到平衡：既承载足够的输入信息，又只保留可预测的部分。“这就是 JEPA 的基本概念。”

在架构层面，它有一个与语言模型不同的编码器。真正的技巧在于找到好的训练算法或程序，让系统学到有趣的表征。

直到最近，还不清楚这种联合嵌入方法学习自然数据（如图像和视频）的表征，是否最终会优于那些在像素级别进行重建训练的技术。但在 Meta 的 FAIR 实验室，他们进行了一次直接对比。一个大团队在做 MAE（Masked Auto－Encoder，掩码自编码器）项目和它的视频版本——拿一张图像或视频，破坏它，然后训练一个巨大的神经网络重建完整的图像或视频。“结果不太理想。”

MIT 的何恺明教授是这个项目的核心人物之一，对结果有些失望。他后来重新调整了研究方向，离开 FAIR 加入 MIT 担任副教授。与此同时，另一些并行项目尝试训练非重建的架构——非生成式架构，结果表现好得多。“这是明确的实证证据，表明对于自然感官数据，你就是不该用生成式架构。”现在他们还有数据显示，这些系统在图像任务上的性能甚至超过了监督模型，而在一年前这还做不到。

Dino、V－JEPA 与机器人的世界模型

目前哪些应用开始展现出早期的希望？

LeCun 提到了他巴黎同事们开源的一个系统 Dino。这是第三版，几个月前刚发布。“这基本上是一个通用的自监督视觉编码器、图像编码器，可以用于各种下游应用。”已经有数百篇论文使用 Dino 的历代版本，应用范围涵盖医学图像分析、生物图像分析、天文学，以及日常计算机视觉任务。“我认为自监督学习模型花了很长时间，但最终在图像和视频表征领域赢得了这场战斗。”

图丨Dino 架构（来源：Meta）

另一个项目叫 V－JEPA（Video JEPA，视频联合嵌入预测架构），由蒙特利尔、巴黎和纽约的研究者共同完成，LeCun 适度参与其中。这个系统从视频中训练——拿一段视频，通过掩码遮挡一大块，然后训练架构。完整视频和部分被掩盖的视频分别通过两个基本相同的编码器，同时训练一个预测器，从部分视频的表征预测完整视频的表征。

“我们用大约一个世纪的视频量来训练这个系统。这是个疯狂的数量。”虽然效率不如四岁孩子，但这些系统基本上学到了一点常识。“如果你给它看一段视频，其中发生了一些不可能的事情——比如物体突然消失或改变形状——预测误差会飙升。系统会告诉你：发生了非常不寻常的事情，我理解不了。”这是自监督学习系统获得一点常识的第一个迹象。

在机器人领域已经看到一些早期成功。训练的第二阶段可以微调一个条件于动作的预测器。这样你就得到了一个世界模型（World Model）。

什么是世界模型？“给定 t 时刻世界状态的表征，以及智能体想象要采取的一个动作，你能预测采取这个动作后的世界状态吗？”如果系统拥有这样的世界模型，就可以用它来规划。你可以想象一连串动作，用世界模型预测这串动作的结果，然后用一个代价函数衡量特定任务的完成程度——比如是否煮好了咖啡。接着用优化方法，搜索一串能优化、即最小化这个目标函数的动作序列。

“这就是经典的规划和最优控制。区别在于，我们使用的环境动力学模型是通过自监督学习获得的，而不是像传统机器人学或最优控制那样，写成一堆方程式。这就是我们真正追求的。”

他们已经证明，可以使用从 Dino 等系统派生出来的世界状态表征，或者从头学习或在其之上学习的表征，让机器人零样本完成任务——不需要任何针对特定任务的训练，没有强化学习。“训练完全是自监督的，”LeCun 强调，“最终系统的世界模型足够好，可以想象如何完成一个从未被训练过的任务。”

有个例子中，机器人在 62 小时内自主训练某个任务——但这 62 小时的训练不是针对特定任务的，而是基础的世界模型训练：这是 t 时刻的世界状态，这是一个动作，这是采取这个动作后世界的样子。“你可以用模拟数据，用机器人模拟器，或者用真实数据，让机器人手臂四处移动，记录实际采取的动作。”

世界模型的概念，LeCun 早在 2016 年的主题演讲中就提到过。“我认为它会成为未来 AI 系统的关键组件。我的预测是——这让我在硅谷某些角落不太受欢迎，包括在 Meta 内部——在三到五年内，这会成为 AI 架构的主导模式。没有人会再用我们今天这种类型的语言模型。”

“这会推动未来十年成为机器人的十年，”主持人说。

“对，但关于这一点，”LeCun 话锋一转，“过去几年创立了大量机器人公司，你知道的，在造人形机器人。好吧，这个行业的大秘密是：没有一家公司知道如何让这些机器人足够聪明以至于有用——或者我应该说，足够聪明以至于具有通用用途。”

我们可以训练这些机器人完成特定任务，也许在制造业之类的场景。“但你的家用机器人？还需要一些 AI 领域的关键突破才能实现。所以很多这些公司的未来，本质上取决于我们能否在世界模型、规划这类架构上取得重大进展。”

目标驱动的 AI 与护栏设计

与许多 AI 领域的悲观论者不同，LeCun 对 AI 安全持相对乐观的态度。他提倡的架构是“目标驱动的”：系统拥有世界的心智模型，规划一系列动作来满足目标、完成任务。“从构造上讲，这样的系统除了产生优化该目标的动作序列之外，什么都做不了，”他说。

关键在于，可以在目标函数中硬编码护栏。LeCun 用家用机器人举例："比如你有一个新的家用助手机器人，你说'给我拿咖啡'。它走到咖啡机前，有人站在前面。你不希望机器人为了拿咖啡就把那个人砍倒吧？"

这个例子曾被 AI 安全研究者 Stuart Russell 用来说明如何可能制造出危险的机器。“我一直驳斥这个论点，Russell 总是认为我很愚蠢，在一些采访中公开叫我愚蠢，”LeCun 略带自嘲地说，“很多人习惯于攻击我，我已经习惯了”。

图丨 Stuart Russell（来源：Wikipedia）

但他的逻辑是：如果在目标函数中硬编码护栏，系统在构造上就无法逃脱这些护栏。"这些护栏可以是非常底层的。比如你有一个会做饭的家用机器人，你可以有一个非常底层的护栏说：如果周围有人且你手里拿着刀，不要挥动你的手臂，诸如此类的事情。"

LeCun 将这个问题类比于人类社会的法律系统：“我们习惯于对人类这样做。法律基本上是改变你可以采取的行动景观的目标函数，每个行动的成本。我们制定法律来使人类行为与公共利益保持一致。我们甚至对叫做公司的超人实体这样做，尽管成功有限。”他强调，人类已经处理这类问题数千年了。

“设计这些护栏不是一个简单的任务，但这不是一个比设计能安全地将你运送到世界另一端的喷气式飞机更复杂和更具挑战性的问题。”

给年轻学生的建议：学量子力学，别学 App 编程

在访谈接近尾声时，主持人问了一个经典问题：如果 LeCun 现在是 MIT 的博士生，他会研究什么？

“这个问题我经常被问到，”LeCun 说，“我认为，在过去 40 到 50 年里，探索人类智能的奥秘一直是最吸引人的问题。MIT 非常注重工程，而我自己也是工程师，我认为理解某个东西的最好方式就是建造它。”他引用了物理学家费曼的话——虽然费曼说的不是建造物理实物，而是指自己推导想法、理解概念。

在 LeCun 看来，对于有抱负的年轻科学家或工程师来说，有三个大问题值得研究：“宇宙是由什么构成的？生命是怎么回事？大脑如何工作？”而第三个问题的工程方面就是：如何建造智能机器？智能的本质组成部分是什么？

“如果你是本科生，人们会问这样的问题：AI 将会出现，会在底层做各种事情，我们可能不需要再学某些东西了。”LeCun 认为，有些东西的确不需要再学了，那些“保质期很短”的技能。

“我开玩笑说，如果你在学计算机科学或某种工程，你可以选择一门教授当前流行技术的课程——比如移动应用编程或 LLM 提示工程之类的——在移动编程和量子力学之间，选量子力学，即使你是计算机科学家。”

他的理由是：量子力学会让你学到路径积分等通用方法和概念，这些抽象概念适用于各种各样的情况。“比如，如何最好地解码语音识别系统中最可能的词序列？实际上就是路径积分。它是离散的，但基本上是相同的概念。”

LeCun 鼓励学生选择那些具有挑战性的课程，学习能将你置于正确道路上的理论概念，而让未来的 AI 助手处理底层细节。“想象一下你是一个博士导师，有一群博士生。大秘密是学生教导导师，而不是相反。”他预言学生未来会有一支虚拟员工队伍——AI 助手为你工作，你可以将自己的抽象层次提升几个级别。

“过去你可以通过测序 DNA 获得博士学位，现在不再需要了，我们有机器来做这个。曾经你可以作为数学家计算对数表和三角函数表来谋生，不再需要了，我们有计算器和计算机。这只是技术进步的自然延续，人类在层级阶梯上向上移动，把底层的东西留给机器。”

参考资料：

https://www.youtube.com/watch?v=kN38CNAQRuc

运营/排版：何晨龙

OpenAI传闻中的浏览器能成为Chrome的“终结者”吗？

斗地主记牌器软件开发（斗地主记牌器软件）

发表评论

杨立昆再出狂言：LLM和机器人正走向死胡同，世界模型才是正解

OpenAI传闻中的浏览器能成为Chrome的“终结者”吗？

斗地主记牌器软件开发（斗地主记牌器软件）

热门文章

最新文章