⏶38
OmniHuman-1.5:通过认知模拟为虚拟形象注入活跃思维
发表
由
taesiri 提交

作者: Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang,
Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao

摘要
现有的视频化身模型可以产生流畅的人类动画,但它们很难超越单纯的物理相似性来捕捉角色的真实精髓。它们的运动通常与音频节奏等低级线索同步,缺乏对情绪、意图或上下文的更深层语义理解。为了弥合这一差距,我们提出了一个旨在生成不仅物理上合理,而且在语义上连贯且富有表现力的角色动画的框架。我们的模型 OmniHuman-1.5 构建于两项关键技术贡献之上。首先,我们利用多模态大型语言模型合成条件的结构化文本表示,提供高层语义指导。这种指导使我们的运动生成器超越了简单的节奏同步,能够生成在上下文和情感上都能引起共鸣的动作。其次,为了确保这些多模态输入的有效融合并减轻模态间冲突,我们引入了一个专门的多模态 DiT 架构,具有新颖的伪最后一帧设计。这些组件的协同作用使我们的模型能够准确地解释音频、图像和文本的联合语义,从而生成与角色、场景和语言内容深度连贯的运动。广泛的实验表明,我们的模型在包括唇语同步准确性、视频质量、运动自然度和与文本提示的语义一致性在内的全面指标集上实现了领先的性能。此外,我们的方法在复杂场景(例如涉及多人和非人类主体)中表现出卓越的可扩展性。主页:https://omnihuman-lab.github.io/v1_5/
> 现有的视频头像模型可以产生流畅的人类动画,但它们难以超越纯粹的形似,难以捕捉角色的真实精髓。它们的动作通常与音频节奏等低级线索同步,缺乏对情感、意图或上下文的更深层语义理解。为了弥合这一差距,我们提出了一个框架,旨在生成不仅物理上合理,而且在语义上连贯且富有表现力的角色动画。 我们的模型 OmniHuman-1.5 基于两个关键技术贡献。首先,我们利用多模态大型语言模型来合成结构的文本表示条件,提供高级语义指导。这种指导使我们的运动生成器能够超越简单的节奏同步,从而生成在上下文和情感上都具有共鸣的动作。其次,为了确保这些多模态输入的有效融合并减轻模态间的冲突,我们引入了一种专门的多模态 DiT 架构,并带有新颖的伪最后一帧设计。这些组件的协同作用使我们的模型能够准确地解释音频、图像和文本的联合语义,从而生成与角色、场景和语言内容深度连贯的动作。大量实验表明,我们的模型在全面的指标集上都取得了领先的性能,包括唇语同步准确性、视频质量、运动自然度和与文本提示的语义一致性。此外,我们的方法在复杂场景中也显示出卓越的可扩展性,例如涉及多人和非人类主体的场景。