⏶60

扩展LLM智能体的测试时计算能力

06月15日发表

06月18日由 Ge Zhang 提交

作者: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, minghao Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Zhou Wangchunshu Zhou

摘要

扩展推理时计算量在大语言模型（LLMs）推理能力的提升方面取得了显著成功。在这项工作中，我们首次系统性地探索将推理时扩展方法应用于语言智能体，并研究其在多大程度上提升了它们的有效性。具体而言，我们探索了不同的推理时扩展策略，包括：(1) 并行采样算法；(2) 序列修订策略；(3) 验证器和合并方法；(4) 多样化推演策略。我们仔细分析并消融了不同设计策略在将推理时扩展应用于语言智能体时的影响，并得出以下发现：1. 扩展推理时计算量可以提升智能体的性能。2. 知道何时进行反思对智能体很重要。3. 在不同的验证和结果合并方法中，列表式（list-wise）方法表现最佳。4. 增加多样化推演对智能体的任务性能产生积极影响。

查看 arXiv 页面查看 PDF

Teemu Maatta

扩展大语言模型代理的测试时间计算

ATTS（代理测试时间扩展）：探索语言代理的测试时间扩展策略，包括并行采样、顺序修订、验证器和合并以及多样化推演。
该研究系统分析了不同设计策略对代理性能的影响，发现扩展测试时间计算可以提高代理能力。
主要发现包括了解何时进行反思的重要性、列表式方法在验证和合并方面的优越性，以及多样化推演对代理性能的积极影响。

总结者：自主代理

Ge Zhang

论文作者

论文提交者

🧠💥 想要更智能的语言代理？只需让它们思考更长时间。

这篇新论文对此进行了测试：通过扩展测试时间计算（更彻底地运行LLM），代理的推理能力显著提高。主要收获：

1️⃣ 更多计算 = 更好结果

2️⃣ 反思时机至关重要

3️⃣ 列表式验证效果最佳

4️⃣ 多样化推演 = 更强性能

扩展LLM智能体的测试时计算能力

摘要

评论