⏶7
ThinkSound:用于音频生成和编辑的多模态大型语言模型中的思维链推理
发表
由
liuhuadai 提交
作者: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
摘要
尽管端到端视频到音频生成已经有了很大的改进,但生成能够真实捕捉视觉内容细微差别的高保真音频仍然具有挑战性。像创意行业的专业人士一样,这种生成需要对视觉动态、声学环境和时间关系等项目进行复杂的推理。我们提出了 ThinkSound,一个利用思维链 (CoT) 推理的新颖框架,以实现视频的逐步交互式音频生成和编辑。我们的方法将该过程分解为三个互补的阶段:创建语义连贯声景的基础拟音生成、通过精确的用户交互进行交互式对象中心细化,以及由自然语言指令指导的有针对性的编辑。在每个阶段,多模态大型语言模型都会生成上下文对齐的 CoT 推理,从而指导统一的音频基础模型。此外,我们引入了 AudioCoT,一个带有结构化推理注释的综合数据集,该数据集建立了视觉内容、文本描述和声音合成之间的联系。实验表明,ThinkSound 在音频指标和 CoT 指标的视频到音频生成方面均取得了最先进的性能,并且在超界 Movie Gen Audio 基准测试中表现出色。演示页面可在 https://ThinkSound-Project.github.io 上找到。
一个统一的框架,用于通过思维链推理驱动的多模态到音频生成。