推理token减少46%!Meta新方法缩短思维链,告别重复推导

花花2025-10-05债务科普58

时令 发自 凹非寺

量子位 | 公众号 QbitAI

大模型老走重复步骤,导致思维链越来越长怎么办?

Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出元认知复用(Metacognitive Reuse) 机制。

_推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导

简单来说,就是让模型自己回顾、总结解题思路,将常用的推理套路提炼成更为简洁的“行为”,并将其存储于 “行为手册(Behavior Handbook)” 中。

当再遇到类似问题时,模型便可直接从手册中调用相应的行为,无需重新推导。

实验结果显示,该机制通过行为条件推理、行为引导自我改进、行为条件监督微调三种应用场景,在MATH、AIME等数学基准测试中实现了显著优化,在保持准确率不变的前提下,最多可减少46%的推理token使用量。

推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导_

下面具体来看。

将重复出现的片段化繁为简

如今,大型语言模型在解决数学、编程等复杂任务时,广泛采用思维链进行推理,所以每次遇到新问题时,都需要重复推导通用子步骤。

这不仅会导致token用量膨胀、推理延迟增加,还会占用上下文窗口空间,降低模型探索新路径的能力。

与此同时,现有LLM的记忆系统(如RAG)仅存储 “是什么” 的陈述性知识,缺乏 “如何思考” 的程序性知识复用机制,无法解决重复推理的低效问题。

_推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导

针对上述问题,研究团队提出了元认知复用(Metacognitive Reuse) 机制。

让模型面对问题时,先尝试解决它,随后回顾整个推理过程,从中识别出可复用的推理步骤,最终将其转化为一组标准化“行为”——带有规范名称的简短可执行指令。

这些“行为”会被收录进一本可检索的“行为手册”,既能在测试阶段通过上下文提示直接调用,也可通过监督微调内化为模型的固有能力。

_推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导

首先,研究人员描绘了“行为”构建的整个流程,该框架让模型在推理过程中扮演3种不同的角色。

_推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导

为了提取“行为”,元认知策略器首先会针对给定问题生成一个解决方案,包含推理轨迹+最终答案。

然后,将该问题–解答对再次输入元认知策略器,用以生成反思,主要是评估推理是否逻辑严密、答案是否正确,以及是否能提炼出新的可复用行为以简化未来的解题过程。

最后,通过另一次查询,元认知策略器将问题、解答和反思转化为一组“行为条目(包含名称和指令)”,并将添加到“行为手册”中。

用更少的token实现更高的准确率

研究团队在三种不同场景下测试了该模型的推理性能。

行为条件推理(BCI)

在首个场景中,BCI被用于MATH和AIME–24/25两个数据集,DeepSeek-R1-Distill-Llama-70B (R1-Llama-70B)和Qwen3-32B被用作候选学生模型。R1-Llama-70B被用作元认知策略生成器。

推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导_

由上图可以看出,BCI可以在使用更少token的情况下,就能达到与基线相当或更优的性能。

此外,随着token的增加,该方法性能仍在提升,表明其不会对模型原有能力产生不良影响。

行为引导的自我改进

在此实验中,R1-Llama-70B同时担任元认知策略器和学生两个角色,具体做法是直接让模型对自身的推理轨迹进行批判并修正,以实现自我改进。

这个方法就像让大模型自己“改作业”。给模型一个问题Q,它先写出一条初步推理轨迹R1。然后,把问题Q和R1 一起交回给模型,让它检查并改进,生成新的推理轨迹R2,以修正错误或补充遗漏的步骤。

从下图可以看出,即使不更新参数,模型也能借助从过往解题过程中提取的行为模式,优化后续推理效果。相比朴素的“批判-修正”基线方法,该策略可将准确率最多提升10%。

_推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导

行为条件监督微调(BC-SFT)

BC-SFT旨在将高质量的行为直接融入模型参数中,其中R1-Llama-70B同时担任元认知策略器和教师模型,Qwen2.5-14B、Qwen2.5-32B-Instruct、Qwen3-14B和Llama-3.1-8B被用作需要微调的学生模型。

与常规SFT相比,新方法可以更有效地将不具备推理能力的模型转化为具备推理能力的模型。

值得一提的是,BC-SFT不仅在token上使用更高效,而且几乎在所有情况下,其准确率都高于两个基线模型。

_推理token减少46%!Meta新方法缩短思维链,告别重复推导_推理token减少46%!Meta新方法缩短思维链,告别重复推导

参考链接:

https://x.com/connordavis_ai/status/1971937767975498160

https://arxiv.org/abs/2509.13237

相关文章

Labubu的假货产业链:秘密全球发货,工厂谁也不能来看

Labubu的假货产业链:秘密全球发货,工厂谁也不能来看

“这条货柜终于走了,去加拿大多伦多,大哥们抓紧订货排单。”在社交媒体和微信朋友圈,一位商贩正在公开推销泡泡玛特时下最为紧俏的产品Labubu搪胶玩偶。不过他出手的是“祖国版”——这是潮玩圈中对假货的代...

建行副行长纪志宏:以优质的服务进一步擦亮“要买房到建行”这个金字招牌

建行副行长纪志宏:以优质的服务进一步擦亮“要买房到建行”这个金字招牌

3月28日金融一线消息,建设银行今日召开2024年度业绩发布会。副行长‌纪志宏表示,住房金融是建设银行传统的优势业务,也是建设银行心系民生、惠民安居的重要服务领域。 ‌纪志宏指出,当前,居民的住房需求...

中部六省2024年常住人口规模揭晓,安徽实现正增长

中部六省2024年常住人口规模揭晓,安徽实现正增长

2025年3月17日,安徽省合肥市,运河新城。视觉中国 图 中部六省2024年常住人口变动情况均已揭晓。 根据山西省统计局、国家统计局山西调查总队4月3日发布的统计公报,2024年末全省常住人口34...

猛涨超30%!301008,突然火了!多家机构调研!

猛涨超30%!301008,突然火了!多家机构调研!

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 截至9月19日16时,本周共有433家公司披露机构调研纪要,机构调研热情进一步走高。近四成机构调研股实现正收益,其中宏昌科技周...

克什米尔局势紧张 多国斡旋力避印巴冲突扩大

克什米尔局势紧张 多国斡旋力避印巴冲突扩大

巴控克什米尔地区尼勒姆山谷,远眺印军哨所。 印度与巴基斯坦军队近期持续在克什米尔地区实际控制线一带交火,克什米尔局势紧张。巴基斯坦军队5月1日在巴东北部旁遮普省举行军事演习。同一天,多个国家参与斡旋...

全年分红将超87亿元!泸州老窖2024年净利润134.73亿元

全年分红将超87亿元!泸州老窖2024年净利润134.73亿元

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 泸州老窖拟10派45.92元(含税),共计拟派发现金红利67.59亿元(含税),叠加2024年中期分红,去年全年现金分红总金额...