⏶28
PyVision:具有动态工具的代理视觉
发表
由
steve z 提交

作者:
Shitian Zhao,
Haoquan Zhang, Shaoheng Lin,
Ming Li,
Qilong Wu, Kaipeng Zhang, Chen Wei



摘要
LLM(大型语言模型)正越来越多地被部署为智能体,这些系统能够进行规划、推理并动态调用外部工具。然而,在视觉推理领域,此前的方法在很大程度上仍受限于预定义的工作流程和静态的工具集。在本报告中,我们介绍了PyVision,一个交互式、多轮框架,它使多模态大型语言模型(MLLMs)能够自主生成、执行和优化基于Python的工具,以适应手头的任务,从而实现灵活且可解释的问题解决。我们开发了PyVision创建的工具的分类法,并分析了它们在各种基准测试中的使用情况。在定量方面,PyVision取得了持续的性能提升,在V*上使GPT-4.1提高了+7.8%,在VLMsAreBlind-mini上使Claude-4.0-Sonnet提高了+31.1%。这些结果表明一个更广泛的转变:动态工具使模型不仅能使用工具,还能发明工具,从而推动更具智能体特性的视觉推理。
项目主页:https://agent-x.space/pyvision/
代码:https://github.com/agents-x-project/PyVision
空间:https://huggingface.co/spaces/Agents-X/PyVision