Google再次颠覆自家模型，使用 MoR 模型打破 Transformer 模型壁垒

AI科技 2025年08月02日 07:26 0 admin

AI巨人的基石与烦恼——聊聊Transformer

自ChatGPT问世以来，所有大型语言模型（LLM）几乎都建立在一个叫做Transformer的架构之上。你可以把它想象成一个超级精密的“文字加工流水线”。

流水线结构 (Stacked Layers)：这条流水线由很多个“工位”（也就是层，Layers）串联而成，比如一个有32层的模型，就像有32个工位。

无差别加工 (Fixed Computation)：当你输入一句话，比如“今天天气真好，我们去哪里玩？”，这句话里的每一个字、每一个词（在模型里叫“token”）都必须从头到尾、一个不落地经过所有32个工位的加工。

Google再次颠覆自家模型，使用 MoR 模型打破 Transformer 模型壁垒

这种设计的优点是结构简单、并行能力强，非常暴力有效。但它的“烦恼”也正源于此：

巨大的计算浪费：对于“今天天气真好”这句话，“的”、“了”这种功能性词汇，和“天气”、“我们”这种核心词汇，真的需要同样复杂的处理吗？显然不需要。但Transformer不管三七二十一，对所有token一视同仁，进行同样深度的计算，这造成了惊人的算力浪费。

惊人的参数和内存成本：为了让模型更聪明，唯一的办法就是把流水线建得更长、更复杂（堆叠更多的层），导致模型参数动辄千亿。同时，在生成内容时，它需要记住前面所有的上下文信息（这被称为KV缓存），这个“短期记忆”会变得异常庞大，严重拖慢速度、撑爆显存。

简单说，Transformer走的是一条“大力出奇迹”的路线，但现在这条路越来越昂贵，也越来越低效。

Transformer 的效率问题

尽管 Transformer 结构简单且并行能力强，但其设计导致了显著的效率问题：

计算浪费：简单 token（如“的”、“了”）与信息密集的 token（如“天气”、“我们”）被同等处理，导致大量计算资源被浪费。

参数膨胀：为了提升性能，传统方法是增加层数和参数量，动辄达到千亿级别，训练和部署成本高昂。

内存瓶颈：在推理过程中，Transformer 需要存储所有 token 的上下文信息（称为 KV 缓存），这会占用大量内存并拖慢速度。

这些问题使得 Transformer 的“蛮力”策略在效率和可持续性上逐渐显现局限。

智能“思考”，而非蛮力计算——MoR框架核心揭秘

这篇发表于2025年7月的论文，正是为了解决上述问题，提出了一个全新的框架——Mixture-of-Recursions (MoR)，中文可理解为“混合递归”。

MoR的核心思想是：我们不需要一条100层的超长流水线，我们可以建一个10层的“精英工坊”，然后让复杂的零件在这个工坊里“回炉重造”几次，简单的零件过一遍就行。

为了实现这个目标，MoR引入了三大法宝：

法宝一：参数共享的“精英工坊” (Recursive Block)

MoR首先借鉴了“递归Transformer”的思想。它不再创建几十个完全不同的层，而是只创建一小组共享的、高效的层，并将其打包成一个“递归模块”（Recursion Block）。这就像那个“精英工坊”，模型的总参数量（也就是“工坊”的建造成本）被大幅度压缩了。与传统 Transformer 的数十个独立层不同，MoR 的递归模块可以重复使用，大幅减少参数量。这种设计类似于一个精简的“精英工坊”，降低了模型的构建成本。

法宝二：聪明绝顶的“路由器” (Router)

这是MoR框架的灵魂所在！它在“精英工坊”的入口设置了一个“路由器”（Router）。这个路由器的作用是，在处理一句话时，逐个检查每个token，然后做出一个关键决策：“这个token需要‘思考’多深？”

动态分配递归深度：路由器会给每个token分配一个“递归深度”。简单的token可能只递归1次，中等复杂的2次，而那些最关键、最需要反复推敲的token，则会分配3次甚至更多。

在这句话里，“defensively confident”（防卫性地自信的）、“Drugs”（药物）这些信息量大的核心词汇，被路由器判定为需要深度处理（颜色最深，递归3次）。而像“and”、“---”和换行符这些简单的token，则只经历了较浅的计算（递归1次或2次）。这就是自适应的、令牌级别（token-level）的计算，每一份算力都花在了刀刃上。

路由器是 MoR 的核心创新。它逐个分析输入的 token，并决定每个 token 需要经过多少次递归处理。例如，在句子“I am defensively confident about Drugs, and ---”中，信息密集的 token（如“defensively confident”和“Drugs”）可能被分配 3 次递归，而简单的 token（如“and”或“---”）只需 1 次或 2 次。这种令牌级别的自适应计算确保了算力被精准分配到最需要的地方。

法宝三：高效的“选择性记忆” (Efficient KV Caching)

前面提到，传统Transformer的“短期记忆”（KV缓存）是个巨大的负担。MoR的自适应计算机制天然地解决了这个问题。

按需缓存：既然一个简单的token只在“精英工坊”里待了1轮就出去了，那模型就没有必要为它保留第2轮、第3轮的记忆。 MoR只为那些真正在某个递归深度进行计算的token缓存其KV状态。

内存与I/O双重优化：这种“选择性记忆”策略，不仅大大减少了KV缓存占用的内存，还降低了读写这些缓存的I/O开销，从而在推理（生成内容）时实现显著提速。

传统 Transformer 的 KV 缓存需要为每个 token 存储所有层的上下文信息，造成内存浪费。MoR 通过选择性缓存机制，仅为需要深层处理的 token 保留必要信息。例如，一个只需 1 次递归的 token 不会存储后续递归的 KV 状态。这种策略显著降低了内存占用和 I/O 开销，提升了推理效率。

三重突破，重新定义“性价比”

总结一下，MoR框架通过上述三大法宝，精准地突破了Transformer模型的核心局限：

突破“参数臃肿”局限：通过“递归模块”实现参数共享，MoR可以用远小于传统模型的参数量，达到甚至超越后者的性能。论文的实验数据显示，一个MoR模型仅用约50%的参数，就在同等训练计算量下超越了标准的Vanilla Transformer基线。

突破“计算浪费”局限：通过“路由器”的动态分配，MoR实现了自适应计算，将计算资源集中用于处理关键和复杂的token，避免了在简单token上的无效消耗。这使得模型在相同的训练计算量（FLOPs）下，能够处理更多的token数据，从而学习得更好。

突破“内存瓶颈”局限：通过“选择性KV缓存”，MoR显著降低了推理时的内存占用和I/O延迟，提升了吞吐量。这意味着在实际部署应用时，MoR可以用更少的硬件资源服务更多的用户，或者在同样硬件上实现更快的响应。

MoR框架不再是“大力出奇迹”，而是追求“巧力破千斤”。它将参数效率（更小的模型）和自适应计算（更智能的算力分配）这两个提升效率的关键方向，首次统一在一个框架内，形成了一条全新的“帕累托前沿”（Pareto frontier），即在AI模型的设计上达到了新的“性价比”巅峰。

对于整个AI领域而言，MoR这样的探索意义重大。它证明了模型性能的提升并非只有“堆参数”一条路可走，通过更精巧的结构设计，我们完全有可能构建出更高效、更经济、也更“智能”的大模型。

MoR 框架的提出标志着 AI 模型设计从“大力出奇迹”向“巧力破千斤”的转变。它证明了性能提升无需依赖参数规模的无限扩张，而是可以通过更智能的结构设计实现。 MoR 的潜在影响：

更经济的模型开发：更少的参数和更高的计算效率降低了训练成本。

更广泛的应用场景：内存优化使 MoR 模型更适合部署在边缘设备上，如智能手机或物联网设备。

可持续的 AI 发展：通过减少计算和内存需求，MoR 有助于降低 AI 的能耗，推动绿色技术发展。

Mixture-of-Recursions 框架通过参数共享、自适应计算和高效内存管理，重新定义了大型语言模型的设计范式。它不仅提升了模型的性价比，还为 AI 的未来发展指明了方向。随着类似 MoR 的创新不断涌现，我们可以期待更高效、更智能的 AI 系统，为各行各业带来更大的价值。

库克对Vision Pro仍信心满满，坚信在苹果未来版图中占一席之地

谷歌CEO成新晋亿万富翁，他的成功秘诀是什么？

发表评论

Google再次颠覆自家模型，使用 MoR 模型打破 Transformer 模型壁垒

库克对Vision Pro仍信心满满，坚信在苹果未来版图中占一席之地

谷歌CEO成新晋亿万富翁，他的成功秘诀是什么？

热门文章

最新文章