ARIG: 实时对话的自回归交互式头部生成

发表
Apolinário from multimodal AI artApolinário from multimodal AI art 提交
作者: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei

摘要

面对面交流作为一种常见的人类活动,推动了交互式头部生成的研究。虚拟代理可以根据其他用户和自身的声音或动作信号,生成兼具听觉和说话能力的动作响应。然而,以往的片段式生成范式或显式的听者/说话者生成器切换方法,在未来信号获取、上下文行为理解和切换平滑性方面存在局限性,使其难以实现实时性和真实感。在本文中,我们提出了一种基于自回归(AR)的逐帧生成框架ARIG,以实现具有更好交互真实感的实时生成。为了实现实时生成,我们将动作预测建模为一个非向量量化的自回归过程。与离散码本索引预测不同,我们使用扩散过程来表示动作分布,在连续空间中实现了更准确的预测。为了提高交互真实感,我们强调交互行为理解(IBU)和详细的对话状态理解(CSU)。在IBU中,我们基于双轨双模态信号,通过双向集成学习总结短程行为,并进行长程的上下文理解。在CSU中,我们利用语音活动信号和IBU的上下文特征来理解实际对话中存在的各种状态(中断、反馈、停顿等)。这些作为最终渐进式动作预测的条件。大量实验验证了我们模型的有效性。
查看 arXiv 页面查看 PDF

评论

Apolinário from multimodal AI artApolinário from multimodal AI art
论文提交者

一篇令人兴奋的论文,实现了实时图像 ➡️ 头像生成,并支持听取和停顿功能!