⏶3
审计与修复:文本到图像扩散模型中故事可视化一致性的代理框架
发表
由
Tahira Kazimi 提交

作者:
Kiymet Akdemir,
Tahira Kazimi, Pinar Yanardag

摘要
故事可视化已成为一项热门任务,其中生成视觉场景以在多个面板中描绘叙事。在此背景下,一个核心挑战是保持视觉一致性,特别是角色和物体在整个故事中如何保持和演变。尽管扩散模型最近取得了进展,但当前方法通常未能保留关键角色属性,导致叙事不连贯。在这项工作中,我们提出了一种协作式多智能体框架,可以自主识别、纠正和细化多面板故事可视化中的不一致性。智能体在迭代循环中运行,实现了细粒度、面板级的更新,而无需重新生成整个序列。我们的框架与模型无关,并且可以灵活地与各种扩散模型集成,包括像Flux这样的修正流变压器和像Stable Diffusion这样的潜在扩散模型。定量和定性实验表明,我们的方法在多面板一致性方面优于先前的方法。


故事可视化已成为一项热门任务,其中生成视觉场景以在多个面板上描绘叙事。在此背景下的一个核心挑战是保持视觉一致性,特别是角色和对象在整个故事中如何保持和演变。尽管扩散模型取得了最新进展,但当前方法通常未能保留关键角色属性,导致叙事不连贯。在这项工作中,我们提出了一个协作式多智能体框架,该框架能够自主识别、纠正和改进多面板故事可视化中的不一致性。这些智能体在迭代循环中运行,实现了细粒度、面板级的更新,而无需重新生成整个序列。我们的框架与模型无关,并且可以灵活地与各种扩散模型集成,包括像 Flux 这样的修正流变换器和像 Stable Diffusion 这样的潜在扩散模型。定量和定性实验表明,我们的方法在多面板一致性方面优于现有方法。项目网页:https://auditandrepair.github.io/