⏶28

PyVision：具有动态工具的代理视觉

07月10日发表

07月11日由 steve z 提交

作者: Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li Ming Li, Jerry Wu Qilong Wu, Kaipeng Zhang, Chen Wei

摘要

LLM（大型语言模型）正越来越多地被部署为智能体，这些系统能够进行规划、推理并动态调用外部工具。然而，在视觉推理领域，此前的方法在很大程度上仍受限于预定义的工作流程和静态的工具集。在本报告中，我们介绍了PyVision，一个交互式、多轮框架，它使多模态大型语言模型（MLLMs）能够自主生成、执行和优化基于Python的工具，以适应手头的任务，从而实现灵活且可解释的问题解决。我们开发了PyVision创建的工具的分类法，并分析了它们在各种基准测试中的使用情况。在定量方面，PyVision取得了持续的性能提升，在V*上使GPT-4.1提高了+7.8%，在VLMsAreBlind-mini上使Claude-4.0-Sonnet提高了+31.1%。这些结果表明一个更广泛的转变：动态工具使模型不仅能使用工具，还能发明工具，从而推动更具智能体特性的视觉推理。

查看 arXiv 页面查看 PDF

steve z

论文作者

论文提交者

项目主页：https://agent-x.space/pyvision/

代码：https://github.com/agents-x-project/PyVision

空间：https://huggingface.co/spaces/Agents-X/PyVision

PyVision：具有动态工具的代理视觉

摘要

评论