思考与行动:通过扩展测试时交互进行推理的智能体

发表
HAO BAIHAO BAI 提交
作者: Junhong Shen, HAO BAIHao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar

摘要

当前的测试时扩展范式依赖于在生成响应之前产生长时间的推理轨迹(即“思考”更多)。在需要交互的代理问题中,这可以通过在实际行动之前生成思考轨迹来完成。然而,这个过程不允许代理从环境中获取新信息或随着时间调整其行为。在这项工作中,我们提出扩展测试时交互,这是测试时扩展的一个尚未开发的维度,它增加了代理的交互范围,从而能够在一次运行中实现探索、回溯和动态重新规划等丰富的行为。为了展示这一扩展维度的前景,我们研究了网络代理领域。我们首先展示,即使是基于提示的交互扩展,无需任何训练也能显著提高网络基准测试上的任务成功率。在此基础上,我们引入了TTI(测试时交互),这是一种基于课程的在线强化学习(RL)方法,通过自适应地调整代理的运行长度来训练它们。使用Gemma 3 12B模型,TTI在WebVoyager和WebArena基准测试上生成了最先进的开源、开放数据网络代理。我们进一步表明,TTI使代理能够自适应地平衡探索和利用。我们的结果确立了交互扩展作为每步计算扩展的强大补充轴,为训练自适应代理提供了新的途径。
查看 arXiv 页面查看 PDF

评论

HAO BAIHAO BAI
论文作者
论文提交者

在R1提出之后,我一直在思考:在后训练阶段,推理轨迹变得越来越长是件好事吗?由于单步强化学习(RL)任务通常是完全可观测的赌博机问题,模型推理轨迹的增长是有道理的——更长的推理可以重复地从问题中重构信息,以匹配预训练阶段的token分布。然而,大多数现实世界的问题是多步的,这意味着需要许多连续影响的决策才能获得最终奖励;显然,用多步马尔可夫决策过程(MDP)来建模更合理。我坚信真正的智能必须能够解决多步问题。

在多步任务中,后训练后推理轨迹长度是否持续增长是一个开放性问题。与赌博机问题的本质区别在于部分可观测性:做出决策后,智能体实际上会收到新信息,而这些新信息对最终的成功或失败至关重要。在获取决定成功或失败的信息之前,智能体不应该提供答案。而且找到这些信息通常不需要太多推理;它非常简单。

让我们以网页智能体为例。假设一个智能体需要找到一个满足多个要求的网站,但这些要求只有在点击进入网站后才能验证;在访问特定网站之前,智能体无法知道它是否符合标准。因此,智能体必须进入网站,然后退出,再进入下一个,直到找到一个满足所有要求的网站。选择网站实际上可以完全随机:智能体只需点击一个它从未访问过的网站进行浏览,无需推理。同样,如果智能体不了解网站的底层逻辑,它也只能识别出几个最有可能包含目标的选项——这也无需真正的推理。

因此,在一个单步环境中经过后训练的智能体,在多步环境中进行零样本推理是低效的。一个多步环境自然要求模型在该环境本身中进行后训练,并且应该观察到,随着训练的进行,性能应该提高,推理token应该减少,轨迹应该变长;此外,避免过度思考的能力必须在后训练期间完全自动地出现,而不能在后训练时对CoT(思维链)长度施加任何限制——否则,该方法显然无法任意扩展。

这是我们最近工作的核心思想。通过一种新的后训练算法,我们希望获得一个具有三个期望属性的模型:无需干预、思考时间短、行动多。最终,我们实现了这三点,如下图所示。每个图有三条线;我们的方法是绿色的那条。一旦达到最大步数限制(稍后详细解释),图(a)显示平均轨迹长度增长,图(b)显示智能体更频繁地尝试收集信息(通过返回上一页或跳转到搜索引擎)——这两个图都证明了“行动多”;图(c)显示智能体的推理以非常快的速度缩短,证明了“思考时间短”;并且我们的算法根本没有对CoT施加任何限制,展示了“无需干预”。

image.png

现在,我们来讨论算法。我们全程使用在线过滤行为克隆(即REINFORCE),但调整了训练时的步数限制(horizon)。我们使用gemma-3-12b作为基础模型。我们定义在后训练期间,智能体的轨迹有两种结束方式:智能体认为它已经完成了任务,或者它因为超出步数限制(horizon)而未能完成任务,强制轨迹结束。请注意,我们只调整训练时的步数限制,而在评估时我们总是提供一个非常大的步数限制,以便智能体总是自行结束。一个非常幼稚的想法是使用一个大的步数限制,例如h=30。我们的实验表明,性能非常差。这归因于REINFORCE的误差累积:当训练时的步数限制很大时,即使智能体解决了任务,轨迹中也包含许多次优步骤,导致在评估时无法精确地成功复制相同的轨迹。从图中我们可以看到,h=30实现了非常好的轨迹长度,但性能很差(在WebVoyager和WebArena上都是如此)。

一个自然的想法是使用一个小的步数限制,例如h=10。我们发现这比h=30带来了更好的性能。然而,图中显示轨迹长度一直在缩短。在我们的定性示例中,h=10的运行表现出大量的早期停止:智能体在完成任务之前就结束了轨迹,认为它已经成功了。这发生是因为一些复杂任务缺乏探索,所以训练时成功的轨迹大多来自简单任务,导致智能体过拟合“结束任务”这个动作。此外,在评估时,智能体的探索能力比h=30时弱得多,使其行为过于确定性。

现在你可以根据这些观察来思考,你会如何设计算法——记住,它必须是“无需干预”的。如果你猜想一个h=20的实验,那不是一个好主意,因为(1)它不能任意扩展——它很可能在整体难度更高的任务集上失败,需要重复调整——(2)它效率低下:h=20对于简单任务来说太大了,对于困难任务来说又太小了。

现在你可能已经知道我们做了什么:我们从h=10开始,逐渐增加步数限制,直到h=30。这解释了为什么不能反过来——智能体需要首先学习环境(MDP)的动态并解决简单任务,因此它必须从一个小的步数限制开始。在掌握了基础知识后,我们慢慢增加步数限制,以充分探索更困难的问题,这些问题才是我们关心的涉及渐进式信息收集的问题。我们将这类算法称为测试时交互(Test-Time Interaction),或TTI。

如上所示,在达到最大步数限制之前,TTI的轨迹长度和信息收集频率都下降;一旦达到最大步数限制(绿色区域),这两个指标都明显开始上升。这里我们使用了10→20→30的调度;你可以使用我们的代码库尝试其他调度,指标可能在达到最大步数限制之前就开始上升。与h=10稳定下降的情况相比,TTI实现了“行动多”。

我们还发现,TTI的CoT长度呈线性下降,比h=10运行的次线性下降快得多——这证明了“思考时间短”。

该算法具有我们描述的“无需干预”的特性:它不作任何环境假设,也不对CoT长度施加任何限制。这是一个极其简单的方法——只需设置一个小的起始训练时步数限制和一个较大的结束步数限制,并在两者之间插入几个步数限制,你就能获得更好的性能。

总结。我们着手考虑如何在单步环境中进行后训练的模型上进行多步训练。我们认为,一个高效且可任意扩展的训练算法应该具有“无需干预”、“思考时间短”和“行动多”的特性。我们尝试了固定的长训练时步数限制,但发现结果不佳;我们也尝试了固定的短步数限制,但发现它无法实现“行动多”。因此,我们设计了一个从短到长的调度,并发现它优于固定短步数限制和固定长步数限制。

要点:设计一个从短到长的训练时步数限制调度,以显著提高多步环境中的后训练性能,同时实现“无需干预”、“思考时间短”和“行动多”。

论文:https://arxiv.org/pdf/2506.07976