VISTA:测试时自改进视频生成代理

发表
Do Xuan LongDo Xuan Long 提交
作者: Do Xuan LongDo Xuan Long, X WanXingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık

摘要

AI 生成总结
VISTA 是一个多智能体系统,通过迭代地完善用户提示来提高视频质量并使其更符合用户意图,其性能优于现有方法。
尽管文本到视频合成取得了快速进展,但生成的视频质量仍然关键地依赖于精确的用户提示。现有的测试时优化方法虽然在其他领域取得了成功,但在处理视频的多方面性质时却显得力不从心。在这项工作中,我们引入了 VISTA(视频迭代自改进代理),这是一个新颖的多代理系统,它通过在迭代循环中改进提示来自主地提高视频生成质量。VISTA 首先将用户想法分解为结构化的时间计划。生成后,通过稳健的成对竞赛来识别最佳视频。然后,由专门关注视觉、音频和上下文保真度的三个代理对获胜视频进行评论。最后,一个推理代理综合这些反馈,以内省地重写和增强下一个生成周期的提示。在单场景和多场景视频生成场景上的实验表明,尽管先前的方法收益不一致,VISTA 能够持续提高视频质量和与用户意图的对齐度,在与最先进的基线进行成对比较时,获胜率高达 60%。人工评估者也表示同意,在 66.4% 的比较中更喜欢 VISTA 的输出。
查看 arXiv 页面查看 PDF

评论

Do Xuan LongDo Xuan Long
论文作者
论文提交者

很高兴分享我们的工作“自改进视频生成代理”:https://g-vista.github.io/