⏶64
Story2Board:一种无需训练的富有表现力的故事板生成方法
发表
由
Omri Avrahami 提交
作者:
David Dinkevich,
Matan Levy,
Omri Avrahami,
Dvir Samuel, Dani Lischinski

摘要
我们提出了 Story2Board,一个无需训练的框架,用于从自然语言生成富有表现力的故事板。现有方法过于关注主体身份,而忽略了视觉叙事中的关键方面,例如空间构图、背景演变和叙事节奏。为了解决这个问题,我们引入了一个轻量级的一致性框架,由两个组件组成:潜面板锚定,它在面板之间保留共享的角色参考;以及互惠注意力值混合,它在具有强互惠注意力的标记对之间柔和地融合视觉特征。这些机制共同增强了连贯性,而无需架构更改或微调,使最先进的扩散模型能够生成视觉多样但一致的故事板。为了组织生成,我们使用现成的语言模型将自由形式的故事转换为基于面板的提示。为了评估,我们提出了 Rich Storyboard Benchmark,一套开放领域叙事,旨在除了连贯性之外,还评估布局多样性和基于背景的叙事。我们还引入了一个新的场景多样性指标,用于量化故事板中的空间和姿态变化。我们的定性和定量结果以及用户研究表明,Story2Board 比现有基线生成更动态、更连贯、更具叙事吸引力的故事板。

Story2Board:一种用于富有表现力的故事板生成的无训练方法
我们提出了 Story2Board,一个用于从自然语言生成富有表现力的故事板的无训练框架。现有方法狭隘地关注主题身份,忽略了视觉叙事中的关键方面,如空间构图、背景演变和叙事节奏。为了解决这个问题,我们引入了一个轻量级的一致性框架,由两个组件组成:潜在面板锚定,它在面板之间保留了一个共享字符参考;以及互惠注意力值混合,它在具有强互惠注意力的 token 对之间柔和地混合视觉特征。这些机制共同增强了一致性,而无需架构更改或微调,使最先进的扩散模型能够生成视觉多样但一致的故事板。为了结构化生成,我们使用现成的语言模型将自由形式的故事转换为基于面板的提示。为了进行评估,我们提出了 Rich Storyboard Benchmark 和场景多样性指标,除了量化一致性外,还量化布局变化和基于背景的叙事。