首页 抖音热门文章正文

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

抖音热门 2025年10月21日 12:21 0 aa

最近阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)和保加利亚INSAIT研究所的研究团队,搞出了个挺关键的发现针对大模型单次推理的“法诺式准确率上限”。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

这东西不光点出了大模型单次生成的根本性脆弱点,还把“准确率悬崖”这个现象给揪了出来。

之前我看大模型处理长文本或者复杂问题时,总觉得它有点“虎头蛇尾”,前面答得有模有样,后面突然就跑偏了,原来不是模型“不认真”,是碰到了单次处理能力的天花板。

“准确率悬崖”说穿了也不难懂,就是当模型要处理的任务,信息需求量超过它单次能输出的本事时,性能下降不是慢慢悠悠的,而是跟从悬崖上掉下去似的,一下就崩了。

这种非线性的崩溃,其实在很多主流大模型上都能看到,比如有的模型处理短文本问答正确率很高,可一旦让它分析好几段文字里的关联信息,正确率就断崖式下跌。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

我之前还以为是模型“没学好”,现在才明白,这是它天生的单次容量限制,不是靠多喂点数据就能解决的。

研究团队还把这个理论用到了多跳问答任务上,一下子就找出了单次推理范式在这个任务上失败的两个核心规律。

第一个是“逐步容量溢出”,简单说就是推理的步骤越多,需要模型记住和处理的中间信息就越多,而且是超线性增长不是一步加一点,是越往后加得越快,很容易就超过模型的处理上限。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

比如做一个3跳的推理题,需要的信息可能比1跳题多好几倍,模型根本扛不住。

第二个是“跨步错误累积”,这就更坑了,多步推理就像串珠子,一步错了后面全错,哪怕每一步只有一点点小偏差,积累下来也会让整个推理彻底失败。

这俩问题凑到一块儿,单次推理想搞定多跳任务,基本就是难上加难。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

InfoQA框架:给大模型“拆活干”的聪明办法

既然找到了问题的根儿,研究团队自然没闲着,直接搞出了个叫InfoQA的多轮调用推理框架。

这个框架的思路特别有意思,不是硬逼着模型“变聪明”,而是帮它“省力气”,解决单次推理的瓶颈。

它主要靠三个核心机制干活,每一个都挺有针对性。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

第一个是容量感知的任务分解,说白了就是把复杂的多跳问题拆成一个个小的单跳问题,每个小问题都控制在模型单次能处理的范围内,这样就不会触发“准确率悬崖”。

本来想是不是这种拆分太麻烦,会增加额外工作量,但后来发现,拆分后模型每一步都能“轻装上阵”,反而比硬扛着处理整个问题效率高。

第二个是明确的工作流,上一步得出的答案会明明白白注入到下一步的问题里,形成一条清晰的推理链,不会让模型“记混”步骤。

第三个是迭代式问题压缩,每一步推理完,都会主动把没用的上下文噪音删掉,只留最核心的信息,不让信息越积越多,拖慢模型速度。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

为了验证这个框架好不好使,团队还专门建了个满是噪音的新基准测试集。

为啥要搞这么个测试集?因为平时的测试集没法精准控制任务的信息复杂度,测不出框架的真本事。

结果一出来还真让人惊喜,不管任务多复杂、上下文多长,InfoQA的表现都比那些单次推理的模型稳定得多,正确率也高不少。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

很显然,这个框架不是纸上谈兵,是真能解决实际问题的比起花大价钱升级模型,这种“拆活干”的思路,性价比可要高多了。

从CogWriter到“活字印刷”:研究背后的故事与未来

说到这儿,可能有人会问,团队为啥会想到研究大模型的单次推理瓶颈?其实这事儿的源头,是他们之前搞的一个叫CogWriter的多智能体框架。

在分析和用这个框架的时候,他们发现了三个特别有意思的现象,正是这三个现象让他们开始琢磨背后的道理。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

第一个现象是模型参数规模和能力的关联性特别强。

用14B参数的模型时,CogWriter能顺顺利利完成规划、反思、修订这些高级认知步骤;可换成同一系列8B参数的模型,就不行了要么计划做得乱七八糟,要么给出的修改意见根本没用。

这说明参数多少,直接决定了模型能不能处理复杂任务。

第二个现象是模型的指令遵循能力会随生成长度衰减,有点像人“记不住事儿”。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

生成文本的初期,不管是简单指令还是复杂指令,模型都能听话;可文本越长,超过某个临界点后,模型就会“忘记”最初的目标,小参数模型忘得更快,14B的模型能比8B的多撑一会儿,但也架不住文本太长。

第三个现象是多智能体协作真能提升性能,不光他们的CogWriter是这样,业内很多成果也证明了这一点。

就拿CogWriter来说,用Qwen2.5-14B当骨干模型,复杂指令任务的平均准确率从0.44提到了0.61,甚至超过了GPT-4o的0.47。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

如此看来,之前大家总想着靠堆参数、多训练来提升模型性能,其实换个思路搞协作,可能是条更省力的路。

有了这些现象,团队就想搞明白:多智能体协作凭啥能突破单一模型的瓶颈?这个瓶颈的本质到底是什么?他们不想只靠经验摸索,想从底层原理上找到答案。

最后,他们把目光落在了信息论上毕竟计算机里所有数字信息的本质都是比特,用信息论分析再合适不过。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

他们把大模型的单次推理抽象成一个“通信信道”,再用“法诺不等式”这个工具,把“信息处理上限”这个猜想,变成了能量化计算的“准确率上限”。

搞不清这个理论也没关系,简单说就是他们从数学上证明了:模型单次处理信息有上限,任务需求超了这个上限,就别想100%准确。

至于未来,团队还有个“活字印刷”的新计划。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

具体就是通过多目标优化,在一个骨干模型里训练多种能单独调用的“原子能力”,想在巨型模型和复杂多智能体系统之间找个平衡点。

他们的目标是搞出一个“单一部署、多能协作”的模型既能有多种功能,又能根据任务动态调用能力,这样就能大大降低部署和推理成本,以后在手机这类资源有限的设备上用大模型,可能就不用那么费电、费内存了。

毫无疑问,这个方向要是能成,对咱们普通人用AI可太友好了。

不升级模型也提效?从CogWriter到InfoQA:多跳问答失败原因找到

这个研究最有价值的地方,是给大家提供了一个新的“容量诊断视角”:大模型处理复杂任务不行,不一定是模型不够“聪明”,可能是任务复杂度超过了它的单次处理容量。

这不仅为多智能体系统的必要性提供了理论依据,还开辟了一条更高效的AI优化路与其花大价钱升级模型,不如先想想怎么优化任务流程。

以后再碰到大模型“掉链子”,咱们可能就不会再盲目觉得是模型“没学好”,而是能更清晰地找到问题所在了。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap