⏶20
AudioStory:使用大型语言模型生成长篇叙事音频
发表
由
wybertwang 提交
作者: Yuxin Guo,
Teng Wang, Yuying Ge,
Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
摘要
文本到音频(TTA)生成方面的最新进展在合成短音频片段方面表现出色,但在长篇叙事音频方面却面临挑战,而这需要时间连贯性和组合推理。为了弥补这一差距,我们提出了AudioStory,一个统一的框架,将大型语言模型(LLM)与TTA系统相结合,以生成结构化的长篇音频叙事。AudioStory拥有强大的指令遵循和推理生成能力。它利用LLM将复杂的叙事查询分解为具有上下文线索的时间有序子任务,从而实现连贯的场景过渡和情感语调一致性。AudioStory具有两个吸引人的特点:(1)解耦的桥接机制:AudioStory将LLM-diffuser协作分解为两个专门的组件,即用于事件内语义对齐的桥接查询和用于事件间连贯性保持的残差查询。(2)端到端训练:通过将指令理解和音频生成统一在单一的端到端框架中,AudioStory消除了对模块化训练管道的需求,同时增强了组件之间的协同作用。此外,我们建立了一个基准AudioStory-10K,涵盖了动画音景和自然声音叙事等多样化领域。广泛的实验表明AudioStory在单音频生成和叙事音频生成方面均表现优越,在指令遵循能力和音频保真度方面均超越了现有的TTA基线。我们的代码可在https://github.com/TencentARC/AudioStory获取。
首个基于统一理解-生成框架的长篇叙事音频生成模型,能够处理文本到音频生成、音频续写和视频配音。