InstructX:迈向量模型引导下的统一视觉编辑

发表
ChongMouChongMou 提交
作者: Chong Mou, Qichao SunQichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He

摘要

AI 生成总结
InstructX集成了多模态大型语言模型和扩散模型,用于指令驱动的图像和视频编辑,在各种任务中取得了最先进的性能。
随着多模态大型语言模型(MLLMs)在视觉理解和推理方面取得的最新进展,人们越来越有兴趣利用它们来提高扩散模型的编辑性能。尽管取得了快速进展,但大多数研究缺乏对 MLLM 设计选择的深入分析。此外,在视频编辑等一些困难任务中,MLLM 和扩散模型的集成仍然是一个开放的挑战。在本文中,我们提出了 InstructX,一个统一的图像和视频编辑框架。具体来说,我们对将 MLLM 和扩散模型集成到跨不同任务的指令驱动编辑中进行了全面的研究。在此研究的基础上,我们分析了统一建模中图像和视频之间的协作与区别。(1)我们表明,仅在图像数据上进行训练就可以实现视频编辑能力,而无需显式监督,从而缓解了稀缺视频训练数据带来的限制。(2)通过整合特定于模态的 MLLM 特征,我们的方法有效地将图像和视频编辑任务统一在单个模型中。广泛的实验表明,我们的方法可以处理各种图像和视频编辑任务,并达到了最先进的性能。
查看 arXiv 页面查看 PDF

评论

ChongMouChongMou
论文提交者

InstructX 是一个统一的图像和视频编辑框架。通过将 MLLM 与扩散模型集成,它能够实现跨图像和视频的灵活、精确的指令引导操作。

项目主页:https://mc-e.github.io/project/InstructX/
论文:https://arxiv.org/pdf/2510.08485
代码将在 https://github.com/MC-E/InstructX 发布
https://cdn-uploads.huggingface.co/production/uploads/63ec78f4c81b6a52391e1291/lmGr5KnxSaVG8IXY9bMoL.mp4

xiaoxinxiaoxin

太棒了!我迫不及待想试试!🚀