OmniResponse:两人交互中的在线多模态对话响应生成

发表
Bing LiBing Li 提交
作者: Cheng Luo, Jianghui Wang, Bing LiBing Li, Siyang Song, Bernard GhanemBernard Ghanem

摘要

在本文中,我们介绍了在线多模态对话响应生成(OMCRG),这是一项新颖的任务,旨在根据说话者的多模态输入,在线生成同步的口头和非口头听众反馈。OMCRG反映了自然的两人对话互动,并在实现听众生成的音频和面部响应同步方面提出了新挑战。为应对这些挑战,我们创新性地引入文本作为中间模态,以连接音频和面部响应。因此,我们提出了OmniResponse,一个多模态大语言模型(MLLM),它能够自回归地生成高质量的多模态听众响应。OmniResponse利用一个预训练的LLM,并增强了两个新颖组件:Chrono-Text(用于时间锚定生成的文本token)和TempoVoice(一个可控的在线TTS模块,能生成与面部反应同步的语音)。为支持OMCRG的进一步研究,我们提出了ResponseNet,这是一个包含696个高质量两人对话互动的新数据集,其中包含同步的分屏视频、多通道音频、文本记录和面部行为标注。在ResponseNet上进行的综合评估表明,OmniResponse在语义语音内容、视听同步和生成质量方面显著优于基线模型。
查看 arXiv 页面查看 PDF

评论

Bing LiBing Li
论文作者
论文提交者

我们提出了一项新颖的任务,旨在根据说话者的多模态输入,在线生成同步的口头和非口头听众反馈。