⏶15

VISTA：测试时自改进视频生成代理

10月17日发表

10月20日由 Do Xuan Long 提交

作者: Do Xuan Long, X Wan Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık

摘要

AI 生成总结

VISTA 是一个多智能体系统，通过迭代地完善用户提示来提高视频质量并使其更符合用户意图，其性能优于现有方法。

尽管文本到视频合成取得了快速进展，但生成的视频质量仍然关键地依赖于精确的用户提示。现有的测试时优化方法虽然在其他领域取得了成功，但在处理视频的多方面性质时却显得力不从心。在这项工作中，我们引入了 VISTA（视频迭代自改进代理），这是一个新颖的多代理系统，它通过在迭代循环中改进提示来自主地提高视频生成质量。VISTA 首先将用户想法分解为结构化的时间计划。生成后，通过稳健的成对竞赛来识别最佳视频。然后，由专门关注视觉、音频和上下文保真度的三个代理对获胜视频进行评论。最后，一个推理代理综合这些反馈，以内省地重写和增强下一个生成周期的提示。在单场景和多场景视频生成场景上的实验表明，尽管先前的方法收益不一致，VISTA 能够持续提高视频质量和与用户意图的对齐度，在与最先进的基线进行成对比较时，获胜率高达 60%。人工评估者也表示同意，在 66.4% 的比较中更喜欢 VISTA 的输出。

查看 arXiv 页面查看 PDF

Do Xuan Long

论文作者

论文提交者

很高兴分享我们的工作“自改进视频生成代理”：https://g-vista.github.io/