从 Token 到行动:通过状态机推理缓解信息检索中的过度思考

发表
Yeonseok JeongYeonseok Jeong 提交
作者: Dohyeon LeeDohyeon Lee, Yeonseok JeongYeonseok Jeong, Seung-won Hwang

摘要

思维链 (CoT) 提示使大型语言模型 (LLM) 能够进行复杂推理,包括在信息检索 (IR) 中的应用。然而,它经常导致过度思考,即模型产生过长且语义冗余的轨迹,而收益甚微或全无。我们在信息检索中识别出两个关键挑战:重复轨迹(重复访问相似状态)和误导性推理(偏离用户意图)。为了解决这些问题,我们提出了状态机推理 (SMR),这是一种基于转换的推理框架,由离散动作(Refine、Rerank、Stop)组成,支持早期停止和细粒度控制。在BEIR和BRIGHT基准测试上的实验表明,SMR 将检索性能 (nDCG@10) 提高了3.4%,同时将令牌使用量减少了74.4%。它在LLM和检索器之间通用,无需任务特定调整,为传统CoT推理提供了一种实用的替代方案。代码和详细信息可在 https://github.com/ldilab/SMR 获取。
查看 arXiv 页面查看 PDF

评论

Yeonseok JeongYeonseok Jeong
论文作者
论文提交者

信息检索(IR)中的过度思考表现为冗余且错位的token级推理链,SMR通过使用一个由离散的REFINE、RERANK和STOP动作组成的状态机在结构化(查询、文档)状态上进行操作,以强制提前停止和精确控制来解决这个问题。