FaSTA^*:快慢工具路径代理,结合子程序挖掘实现高效多轮图像编辑

发表
Tianyi ZhouTianyi Zhou 提交
作者: Advait GuptaAdvait Gupta, Rishie Raj, Dang Nguyen, Tianyi ZhouTianyi Zhou

摘要

我们开发了一种成本高效的神经符号智能体,以解决具有挑战性的多轮图像编辑任务,例如“检测图像中的长凳并将其重新着色为粉红色。另外,移除猫以获得更清晰的视图,并将墙壁重新着色为黄色。”它将大型语言模型(LLM)的快速、高级子任务规划与每个子任务的慢速、精确、工具使用和局部A*搜索相结合,以找到成本高效的工具路径——即一系列对AI工具的调用。为了节省在类似子任务上进行A*搜索的成本,我们通过LLM对先前成功的工具路径进行归纳推理,以持续提取/完善常用子例程,并在自适应的快慢规划中将它们作为新工具重复用于未来的任务,其中首先探索高级子例程,只有当它们失败时才激活低级A*搜索。可重用的符号子例程显著节省了在应用于类似图像的同类型子任务上的探索成本,从而产生了类似人类的快慢工具路径智能体“FaSTA^*”:LLM首先尝试快速子任务规划,然后是每个子任务的基于规则的子例程选择,这有望覆盖大多数任务,而慢速A*搜索仅针对新颖和具有挑战性的子任务触发。通过与最近的图像编辑方法进行比较,我们证明FaSTA^*在计算效率上显著更高,同时在成功率方面与最先进的基线保持竞争力。
查看 arXiv 页面查看 PDF
FaSTA^*:快慢工具路径代理,结合子程序挖掘实现高效多轮图像编辑
FaSTA^*:快慢工具路径代理,结合子程序挖掘实现高效多轮图像编辑
FaSTA^*:快慢工具路径代理,结合子程序挖掘实现高效多轮图像编辑

评论

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

FaSTA是一种神经符号在线学习工具使用代理,它通过快慢规划处理复杂的、多轮图像编辑任务。它将一个任务分解为子任务,并调用一系列AI工具来处理每个子任务。通过学习一个常用子程序库(工具子序列),它可以在大多数子任务中依赖快速规划,偶尔则会懒惰地激活慢速规划(需要A搜索),以处理学习到的子程序库无法应对的罕见和具有挑战性的子任务。

在FaSTA*中:

  • 快速规划通过以下方式实现:(1) LLM基于现有基准和以往经验进行高级子任务规划;(2) LLM从学习到的库中选择符号子程序。

  • 慢速规划通过对快速规划未能完成的子任务进行A*搜索实现(VLM判断器将检查每个子任务的输出质量)。

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

你可以在这里尝试演示:https://github.com/tianyi-lab/FaSTAR/blob/main/Demo.ipynb