AI巨人的基石与烦恼——聊聊Transformer自ChatGPT问世以来,所有大型语言模型(LLM)几乎都建立在一个叫做Transformer的架构...
2025-08-02 0
AI巨人的基石与烦恼——聊聊Transformer
自ChatGPT问世以来,所有大型语言模型(LLM)几乎都建立在一个叫做Transformer的架构之上。你可以把它想象成一个超级精密的“文字加工流水线”。
流水线结构 (Stacked Layers):这条流水线由很多个“工位”(也就是层,Layers)串联而成,比如一个有32层的模型,就像有32个工位。
无差别加工 (Fixed Computation):当你输入一句话,比如“今天天气真好,我们去哪里玩?”,这句话里的每一个字、每一个词(在模型里叫“token”)都必须从头到尾、一个不落地经过所有32个工位的加工。
这种设计的优点是结构简单、并行能力强,非常暴力有效。但它的“烦恼”也正源于此:
巨大的计算浪费:对于“今天天气真好”这句话,“的”、“了”这种功能性词汇,和“天气”、“我们”这种核心词汇,真的需要同样复杂的处理吗?显然不需要。但Transformer不管三七二十一,对所有token一视同仁,进行同样深度的计算,这造成了惊人的算力浪费。
惊人的参数和内存成本:为了让模型更聪明,唯一的办法就是把流水线建得更长、更复杂(堆叠更多的层),导致模型参数动辄千亿。同时,在生成内容时,它需要记住前面所有的上下文信息(这被称为KV缓存),这个“短期记忆”会变得异常庞大,严重拖慢速度、撑爆显存。
简单说,Transformer走的是一条“大力出奇迹”的路线,但现在这条路越来越昂贵,也越来越低效。
Transformer 的效率问题
尽管 Transformer 结构简单且并行能力强,但其设计导致了显著的效率问题:
计算浪费:简单 token(如“的”、“了”)与信息密集的 token(如“天气”、“我们”)被同等处理,导致大量计算资源被浪费。
参数膨胀:为了提升性能,传统方法是增加层数和参数量,动辄达到千亿级别,训练和部署成本高昂。
内存瓶颈:在推理过程中,Transformer 需要存储所有 token 的上下文信息(称为 KV 缓存),这会占用大量内存并拖慢速度。
这些问题使得 Transformer 的“蛮力”策略在效率和可持续性上逐渐显现局限。
智能“思考”,而非蛮力计算——MoR框架核心揭秘
这篇发表于2025年7月的论文,正是为了解决上述问题,提出了一个全新的框架——Mixture-of-Recursions (MoR),中文可理解为“混合递归”。
MoR的核心思想是:我们不需要一条100层的超长流水线,我们可以建一个10层的“精英工坊”,然后让复杂的零件在这个工坊里“回炉重造”几次,简单的零件过一遍就行。
为了实现这个目标,MoR引入了三大法宝:
法宝一:参数共享的“精英工坊” (Recursive Block)
MoR首先借鉴了“递归Transformer”的思想。它不再创建几十个完全不同的层,而是只创建一小组共享的、高效的层,并将其打包成一个“递归模块”(Recursion Block)。 这就像那个“精英工坊”,模型的总参数量(也就是“工坊”的建造成本)被大幅度压缩了。与传统 Transformer 的数十个独立层不同,MoR 的递归模块可以重复使用,大幅减少参数量。这种设计类似于一个精简的“精英工坊”,降低了模型的构建成本。
法宝二:聪明绝顶的“路由器” (Router)
这是MoR框架的灵魂所在!它在“精英工坊”的入口设置了一个“路由器”(Router)。 这个路由器的作用是,在处理一句话时,逐个检查每个token,然后做出一个关键决策:“这个token需要‘思考’多深?”
动态分配递归深度:路由器会给每个token分配一个“递归深度”。 简单的token可能只递归1次,中等复杂的2次,而那些最关键、最需要反复推敲的token,则会分配3次甚至更多。
在这句话里,“defensively confident”(防卫性地自信的)、“Drugs”(药物)这些信息量大的核心词汇,被路由器判定为需要深度处理(颜色最深,递归3次)。而像“and”、“---”和换行符这些简单的token,则只经历了较浅的计算(递归1次或2次)。这就是自适应的、令牌级别(token-level)的计算,每一份算力都花在了刀刃上。
路由器是 MoR 的核心创新。它逐个分析输入的 token,并决定每个 token 需要经过多少次递归处理。例如,在句子“I am defensively confident about Drugs, and ---”中,信息密集的 token(如“defensively confident”和“Drugs”)可能被分配 3 次递归,而简单的 token(如“and”或“---”)只需 1 次或 2 次。这种令牌级别的自适应计算确保了算力被精准分配到最需要的地方。
法宝三:高效的“选择性记忆” (Efficient KV Caching)
前面提到,传统Transformer的“短期记忆”(KV缓存)是个巨大的负担。MoR的自适应计算机制天然地解决了这个问题。
按需缓存:既然一个简单的token只在“精英工坊”里待了1轮就出去了,那模型就没有必要为它保留第2轮、第3轮的记忆。 MoR只为那些真正在某个递归深度进行计算的token缓存其KV状态。
内存与I/O双重优化:这种“选择性记忆”策略,不仅大大减少了KV缓存占用的内存,还降低了读写这些缓存的I/O开销,从而在推理(生成内容)时实现显著提速。
传统 Transformer 的 KV 缓存需要为每个 token 存储所有层的上下文信息,造成内存浪费。MoR 通过选择性缓存机制,仅为需要深层处理的 token 保留必要信息。例如,一个只需 1 次递归的 token 不会存储后续递归的 KV 状态。这种策略显著降低了内存占用和 I/O 开销,提升了推理效率。
三重突破,重新定义“性价比”
总结一下,MoR框架通过上述三大法宝,精准地突破了Transformer模型的核心局限:
突破“参数臃肿”局限:通过“递归模块”实现参数共享,MoR可以用远小于传统模型的参数量,达到甚至超越后者的性能。 论文的实验数据显示,一个MoR模型仅用约50%的参数,就在同等训练计算量下超越了标准的Vanilla Transformer基线。
突破“计算浪费”局限:通过“路由器”的动态分配,MoR实现了自适应计算,将计算资源集中用于处理关键和复杂的token,避免了在简单token上的无效消耗。 这使得模型在相同的训练计算量(FLOPs)下,能够处理更多的token数据,从而学习得更好。
突破“内存瓶颈”局限:通过“选择性KV缓存”,MoR显著降低了推理时的内存占用和I/O延迟,提升了吞吐量。 这意味着在实际部署应用时,MoR可以用更少的硬件资源服务更多的用户,或者在同样硬件上实现更快的响应。
MoR框架不再是“大力出奇迹”,而是追求“巧力破千斤”。它将参数效率(更小的模型)和自适应计算(更智能的算力分配)这两个提升效率的关键方向,首次统一在一个框架内,形成了一条全新的“帕累托前沿”(Pareto frontier),即在AI模型的设计上达到了新的“性价比”巅峰。
对于整个AI领域而言,MoR这样的探索意义重大。它证明了模型性能的提升并非只有“堆参数”一条路可走,通过更精巧的结构设计,我们完全有可能构建出更高效、更经济、也更“智能”的大模型。
MoR 框架的提出标志着 AI 模型设计从“大力出奇迹”向“巧力破千斤”的转变。它证明了性能提升无需依赖参数规模的无限扩张,而是可以通过更智能的结构设计实现。 MoR 的潜在影响:
更经济的模型开发:更少的参数和更高的计算效率降低了训练成本。
更广泛的应用场景:内存优化使 MoR 模型更适合部署在边缘设备上,如智能手机或物联网设备。
可持续的 AI 发展:通过减少计算和内存需求,MoR 有助于降低 AI 的能耗,推动绿色技术发展。
Mixture-of-Recursions 框架通过参数共享、自适应计算和高效内存管理,重新定义了大型语言模型的设计范式。它不仅提升了模型的性价比,还为 AI 的未来发展指明了方向。随着类似 MoR 的创新不断涌现,我们可以期待更高效、更智能的 AI 系统,为各行各业带来更大的价值。
相关文章
AI巨人的基石与烦恼——聊聊Transformer自ChatGPT问世以来,所有大型语言模型(LLM)几乎都建立在一个叫做Transformer的架构...
2025-08-02 0
IT之家 8 月 2 日消息,科技媒体 MacRumors 昨日(8 月 1 日)发布博文,报道称混合现实(MR)头显 Vision Pro 推出已近...
2025-08-02 0
金沙江畔的巨型水电站建设现场,中国电建与中国能建的旗帜并立飘扬,背后是两家央企在超级水电工程中数十年积累的技术霸权与资本纽带。雅鲁藏布江下游水电工程总...
2025-08-02 0
作为黄河上游的"国之重器",刘家峡水电站不仅是西北电网的关键枢纽,更关系着下游千万群众的生命财产安全。多年来,甘肃省地震局以专业技术为支撑,通过构建监...
2025-08-02 0
金融界2025年8月1日消息,国家知识产权局信息显示,腾讯科技(深圳)有限公司取得一项名为“图像校准方法及装置、存储介质、电子设备”的专利,授权公告号...
2025-08-02 0
谁懂啊家人们!咱用了这么多年的微信,功能开发率可能不到10%?!8月1日,话题#怎么不等微信下架再告诉我##微信右上角的加号有这么多功能#冲上热搜,多...
2025-08-02 0
IT之家 8 月 2 日消息,科技媒体 MacRumors 今天(8 月 2 日)发布博文,报道称在苹果全体员工大会上,首席执行官蒂姆・库克(Tim...
2025-08-02 0
Note: The English version is provided below. 摘要:全球AI算力竞争,已经从纳米制程的毫厘之争,上升至系统...
2025-08-02 0
发表评论