⏶53
ImagerySearch:用于超出语义依赖约束的视频生成的自适应测试时搜索
发表
由
xiaochonglinghu 提交
作者: Meiqi Wu,
Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang
摘要
AI 生成总结
ImagerySearch 是一种提示引导的自适应测试时搜索策略,通过动态调整搜索空间和奖励函数来增强想象场景中的视频生成,在一个新的基准 LDT-Bench 上优于现有方法。视频生成模型在真实场景方面取得了显著进步;然而,在富有想象力的场景中,它们的性能会明显下降。这些提示通常涉及很少共同出现的概念,并且具有长距离的语义关系,超出了训练分布。现有方法通常采用测试时扩展来提高视频质量,但它们固定的搜索空间和静态奖励设计限制了对富有想象力场景的适应性。为了弥合这一差距,我们提出了 ImagerySearch,一种提示引导的自适应测试时搜索策略,该策略根据提示中的语义关系动态调整推理搜索空间和奖励函数。这使得在具有挑战性的富有想象力的场景中能够生成更连贯、视觉上更可信的视频。为了评估这方面的进展,我们引入了 LDT-Bench,第一个专门用于长距离语义提示的基准,该基准包含 2839 个多样的概念对和一个自动评估创意生成能力的协议。广泛的实验表明,ImagerySearch 在 LDT-Bench 上始终优于强大的视频生成基线和现有的测试时扩展方法,并在 VBench 上取得了有竞争力的改进,证明了其在各种提示类型上的有效性。我们将发布 LDT-Bench 和代码,以促进未来在富有想象力的视频生成方面的研究。
https://github.com/AMAP-ML/ImagerySearch