首页 排行榜文章正文

MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

排行榜 2025年08月06日 18:20 0 aa

多智能体(Multi-agent)框架一直承载着行业的众多期望,被视为是突破大语言模型局限的关键。但随着技术迭代与实际应用推进,这种框架的短板也越来越多地显露出来:太早期、太昂贵、太缓慢、不够可靠以及多步推理链,还容易加剧幻觉问题……


而近期美国麻省理工学院(MIT)与 AI 初创公司 Subconscious Systems、普林斯顿大学和特拉维夫大学的合作成果,给出了解决上述问题的新“答案”:他们开发了“潜意识线程推理模型”——TIM(Thread Inference Model),以及其专用推理引擎 TIMRUN。这种单模型框架,突破了此前只有多智能体才能处理的上下文长度限制和复杂多步推理难题,打破了行业瓶颈。


那么,TIM 究竟是什么?


简单来说,是一种通过递归分解子任务,而非线性思维链进行结构化推理和工具调用的语言模型。


TIM 团队的目标,是打造一个能够自动完成上下文管理、具备与多智能体相当能力的基座模型。为此团队在推理范式上进行了创新,同时把推理引擎和模型深度结合。结果显示,TIM 大幅缩短了 agent 的开发周期,提高了推理质量和效率,以及实现了在单次解码中的端到端多轮工具调用。


MIT 研究科学家、Subconscious Systems 联合创始人兼 CTO 罗鸿胤对 DeepTech 表示:“我们希望让基座模型学习、提升此前只属于 agent 的多步工具调用以及长工作流推理能力。我认为它最大的意义在于简化 AI 软件开发、降低推理延迟,同时消除工具调用带来的冗余计算和重复付费。”


“事实上,TIM 系统重新定义了上下文工程处理的范式,在保证精确推理的前提下实现大规模部署。开发者只需完成两项基础工作——接入外部工具和写好任务提示,剩下复杂的 agent 级任务,包括工具的动态组合以及工作记忆的智能管理,TIM 都可以自动化完成。”Subconscious Systems 另一位联合创始人兼 CEO 杰克·奥布莱恩(Jack O'Brien)补充道。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

图丨 Subconscious Systems 联合创始人兼 CEO 杰克·奥布莱恩和联合创始人兼 CTO 罗鸿胤(来源:罗鸿胤)


在模型架构层,TIM 把任务分解、长周期推理和工具调用能力综合在一起。与需要多智能体架构和手动上下文处理的传统方案不同,TIM 仅需简短提示和一次推理就能生成动态工作流,多次灵活调用工具,完成复杂任务。值得一提的是,在没有额外训练或多智能体框架的情况下,TIM-8b 在深度研究任务(Deep Research)上的表现已超过 GPT-4o,而 TIM-large 单次推理达到了与基于 Deepseek-R1 的深度研究 agent 相当的精度。


而一同推出的 TIMRUN 推理引擎则是为 TIM 量身定做的“加速器”。该系统针对 TIM 模型的特点进行了深度优化,具备高效的内存回收机制,支持跨线程的低延迟工具调用。即使在推理过程中需要对 GPU 内存中 90% 键值(KV,Key-Value)缓存进行回收和复用的极端条件下,仍能保持稳定的高推理吞吐量。


为了验证系统性能,团队专门搭建了一套评估体系。测试结果显示,TIM 与 TIMRUN 的组合实现了近乎无限的工作记忆容量,支持单次推理过程中的多跳工具调用。比如仅用一次模型推理,就能连续调用数十次搜索和网页解析工具,输出一份数十万字的深度研究报告。


近日,相关论文以《突破上下文限制:面向长跨度推理的潜意识线程》(Beyond Context Limits:Subconscious Threads for Long-Horizon Reasoning)为题发表在预印本网站 arXiv[1],罗鸿胤和杰克是主要作者。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

图丨相关论文(来源:arXiv)




MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

从根本上解决多智能体系统成本过高和开发复杂度问题


在研究过程中,团队深入剖析了当前构建 AI agent 系统存在的若干关键性挑战。首先面临的是大模型的固有架构限制——上下文窗口的约束迫使开发者在处理长工作流或多工具调用时,不得不将各阶段的上下文分配给不同模型实例处理,这种符合直觉逻辑的策略直接催生了多智能体系统的出现和火爆。


然而这种方案带来了新的问题:由于信息分散在不同模型实例间流转,模型间的信息传递不可避免地导致信息衰减和语义偏差,不仅显著增加了系统复杂度,更严重影响了整体推理效率。


从商业化应用角度看,现有 agent 系统面临严峻的成本问题。当基于大模型 API 构建工具调用链时,每次工具调用都会触发重复计费。推理历史可能被重新计算,甚至在缓存中的上下文也会被额外收费。


以 OpenAI 的 API 计费模式为例,这种设计使得复杂 agent 系统的运营成本呈指数级增长。Anthropic 的研究报告指出,多智能体系统的 token 消耗量可能达到普通聊天机器人的 15 倍,但业界仍不得不采用这种方案,因为这是当前技术条件下的唯一可行解。


第三个核心痛点在于,多智能体框架本身的复杂性和不确定性。开发一个功能完整的 agent 系统本质上相当于从头构建一个全新的软件范式,工程团队往往需要投入大量资源进行探索性开发,却难以确保技术路线的正确性——许多开发者坦言,他们甚至无法准确评估自己正在构建的系统究竟处于什么状态。


同时,现有的基于线性推理的 agent 存在“上下文腐烂(context rot)”和幻觉方面的短板。如果不作恰当的上下文工程,模型的推理能力和效率会在上下文超过一定数量后快速崩溃,开始大量出现幻觉问题。然而,此前上下文工程往往需要针对特定任务手工定制,严重限制了 agent 的泛化能力。


罗鸿胤直观地总结了上述的困难:“预定义的多智能体框架就类似一个职业经理人团队。他们术业有专攻,这一特性与 AI 对灵活和泛化的追求相悖,会迫使开发者花费大量时间对 agent 进行微观管理,做出激进的设计决策,并承担巨大的试错成本。许多 agent 开发者对我们说:‘我们认真学习过好几种 agent 框架,最终还是只能自己重新造轮子。’”



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

(来源:arXiv)


基于对这些系统性问题的深刻认识,研究团队确立了明确的技术攻关方向:实现一种可以智能管理上下文,生成动态工作流的语言模型及配套的推理系统,从根本上解决多智能体系统带来的成本过高、开发复杂以及长周期推理效果有限等问题。


值得注意的是,这一研究建立在认知科学和 AI 技术演进的深厚基础上——早在 2003 年,学界就认识到模型自我验证机制需要依赖外部反馈;而到 2024 年底,OpenAI 的 o1 系统和 DeepSeek 模型已经成功将这种自省能力内化为模型的固有特性。


这让研究团队进一步联想到:是否可以将多智能体能力和工具调用能力整合到单个模型中,让模型自身具备这些能力?



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

(来源:arXiv)


作为经过强化学习的结构化推理模型,TIM 展现出自动任务分解、智能工具调用和结果聚合三大核心能力。与传统线性推理架构相比,TIM 的递归推理结构在处理长跨度任务时展现出推理效率大幅提升和显著降低模型的幻觉现象的显著优势。


研究团队创新性地采用了递归推理机制:模型在深层子问题求解时可以自主决定是否将当前任务分解为更简单的子任务,然后将处理结果逐层向上汇总。这种架构实现了最大化上下文窗口的复用效率,并通过动态修剪无关上文来优化注意力分配。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

表丨不同基础设施上部署的 TIM 模型评估结果(来源:arXiv)


对比实验表明,当使用传统模型处理复杂推理时,过长的推理链会导致注意力机制失效;而 TIM 通过上文优化策略,使模型始终在信息密度最高的上下文中进行推理决策。


实际测试数据显示,TIMRUN 系统在处理多跳工具调用时的吞吐量达到传统系统的数倍,且在高负载条件下仍保持稳定性能。在 MATH500、MMLU-STEM 等基准测试中,TIM 在仅保留 50% 上下文 token 的情况下,准确率不仅与全上下文条件持平,在 AIME 2024 等任务中甚至提升了 6.7%,同时内存占用降低超过 50%。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

极大降低 AI 应用的开发门槛


当前主流 AI 应用(如 ChatGPT)或多或少都采纳了一些多智能体设计思想:当对话历史超出模型的上下文窗口限制时,系统会自动调用辅助模型对历史记录进行摘要处理,再将精简后的上下文传递给主模型执行推理。


这种设计的核心优势在于,主模型能够专注于高层级的思维过程,而不会被底层实现细节所干扰——就像经典的“把大象装进冰箱”问题一样,我们只需要关注三个关键步骤(开门、放入、关门)。从形式化的角度,完成第二步后就不必再纠结大象要怎么折叠、冰箱要怎么扩容这些细枝末节。


研究团队从这个经典案例中获得关键启示:理想的模型架构应当具备动态上下文管理能力,能够自动识别并保留对当前推理有价值的信息,同时剔除无关内容。


然而,现有的多智能体架构存在明显缺陷:虽然解决了上下文长度问题,却引入了过多的模型实例,导致系统复杂度激增。研究团队的目标是开发一种更优雅的解决方案——在不引入额外模型的前提下,通过简单的剪枝机制和针对性的强化学习实现上下文与子问题的智能关联。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

图丨用于约束解码(constrained decoding)的 JSON 模式是通过 Pydantic 类定义的(来源:arXiv)


在技术探索初期,团队尝试了多种实现路径:最初,借鉴了 DeepSeek 的思考标记方案,试图将 DeepSeek 的思维过程改造为嵌套结构。需要了解的是,该方案可以实现任务的分解和子任务的剪枝,但无法提高模型调用工具的能力和效率。


这一困境促使研究团队转向结构化输出方案。经过深入分析,他们最终选择 JSON 格式作为推理框架的基础,这一决策基于两个关键考量:首先,JSON 的递归特性天然支持深层嵌套结构的表示;其次,JSON 生成本身已是经过充分验证的技术方向。最重要的,高度结构化的 JSON 能够高效表示工具调用和工具的返回数据。


在具体实现上,团队通过 FlashInfer 和自定义的 GPU 算子实现了并行的子任务剪枝以及工具调用和编码的加速,成功完成了概念验证实验,并经过持续优化最终形成了现在的模型架构。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

(来源:arXiv)


目前,该系统已在数学推理和信息检索两大核心场景展现出显著优势。但是,研究团队的愿景远不止于此:他们希望用 TIM 代替多智能体开发框架,进一步提高开发者的生产力。


与传统开发模式(需要编写复杂工作流、设计工具接口和模型反馈机制)不同,新系统允许开发者只需提供基础工具集,模型一次推理即完成 agent 任务。这种范式转变将极大降低 AI 应用的开发门槛,为 agent 技术的普及铺平了道路。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

将聚焦于深度研究 agent 和浏览器自动化 agent 方向


Subconscious Systems(原名为 BitEnergy AI)公司成立于 2024 年,总部位于美国马萨诸塞州剑桥市,截至目前已获得 MassVentures、Taihill VC、奇绩创坛、E14 fund 和 Underscore VC 等知名投资机构的支持(DeepTech 此前报道:最高降低大模型能耗95%,科学家提出优化Transformer方法,大模型有望兼具低能耗和高性能)。


现在,该团队已经正式推出了 TIM 推理模型的两个版本——TIM-small-preview 和 TIM-large,这两个版本均通过兼容 OpenAI API 接口的方式向开发者开放。从技术实现角度来看,这种设计显著降低了开发者构建高性能 agent 的技术门槛,但同时也要求开发者转变传统的开发范式——需要将工作流生成/工具调用及结果处理/上下文管理都交给模型本身。


罗鸿胤对此持乐观态度:“赋予模型和推理系统更多灵活性可以显著提高 agent 的性能和效率,这种反直觉的范式会在短期内成为主流。预生成工作流、预定义多智能体分工,以及手工设计上下文工程等由开发者对 AI 系统进行微观管理的模式将被淘汰。”


“我们的技术使开发者能够构建出真正具备实用价值的 agent,其不仅能在长链条的多步骤推理中保持稳定的性能表现,还能在实际生产环境中高效运行。从行业发展趋势来看,这种基于动态工作流的推理模式有望成为未来 agent 开发的标准范式,最终实现 agent 技术的大规模产业化应用。”杰克在接受 DeepTech 采访时表示。



MIT班底初创用基座模型取代多智能体,一次模型推理无限调用工具

(来源:罗鸿胤)


该技术的核心价值在于彻底重构了开发者构建 agent 的方法论,可覆盖销售自动化、网络安全分析、智能会计等多个垂直领域。目前,Subconscious Systems 主要聚焦于两个最具商业价值的应用方向:深度研究 agent 和浏览器自动化 agent。


在深度研究 agent 方面,该团队正在构建一套完整的开发者工具链,重点解决搜索工具的高效集成问题,使研究团队能够快速部署强大的知识挖掘系统。目前,该系统已经为 AI agent 的服务公司 Stack AI 以及解决方案公司 Brix 等提供服务。


Subconscious 系统通过创新的推理剪枝技术和并行化处理架构,不仅大幅提升了 token 输出速度,还实现了批量请求的并行工具调用。“通过这种方式,我们将原本需要 20 分钟才能返回结果的多轮深度研究流程控制在 2 分钟以内。”罗鸿胤说。据用户反馈,该模型的深度研究精度与 o3 相当,但推理速度和性价比显著提高,从实际应用的角度交叉验证了论文中 TIM-8b 的搜索精度超过 GPT-4o 的评测结果。


在浏览器自动化 agent 方向,该系统突破了传统方案的性能瓶颈——通过创新的动态数据处理机制,避免了现有系统在页面更新时需要全量数据重传的低效问题,实现了成本效益和响应速度的数量级提升。


这两个方向的共同价值在于:让开发者能够专注于业务逻辑创新,而无需耗费精力构建复杂的多智能体系统基础设施,进而为未来的平台化扩展奠定坚实基础。


在技术路线图方面,当前 TIM-8b-preview 模型已在 Hugging Face 发布,团队计划在未来训练更大规模的模型。罗鸿胤指出:“由于我们的模型采用了任务分解架构,每个子任务所需的上下文长度远小于传统模型,因此我们相信通过相对较小的模型规模就能达到超大模型的效果。”


为了提升模型性能,团队还计划通过合成更多训练数据来增强模型能力,特别是模拟现有客户的典型工具调用场景。除了持续优化核心模型外,他们还致力于构建完整的开发者生态系统——包括工具部署平台和 agentic 推理系统,最终实现“用户只需提供基础工具,TIM 模型一次推理即可调用所有必要工具,并完成复杂的 agent 任务”的目标。


参考资料:

1.https://arxiv.org/abs/2507.16784v1

2.https://www.subconscious.dev/blog/introducing-subconscious-build-flexible-capable-agents


运营/排版:何晨龙

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap