从流式第一人称视角视频生成主动式助手对话

发表
Yichi ZhangYichi Zhang 提交
作者: Yichi ZhangYichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon

摘要

会话式AI领域的最新进展显著,但开发用于感知任务指导的实时系统仍然充满挑战。这些系统必须基于流式视觉输入提供交互式、主动的帮助,但其开发受限于数据收集和系统评估成本高昂且劳动密集型的过程。为了解决这些限制,我们提出了一个包含三个关键贡献的综合框架。首先,我们引入了一个新颖的数据整理管道,可以从带注释的第一人称视角视频中合成对话,从而生成一个名为 \dataset 的大规模合成对话数据集,该数据集涵盖多个领域。其次,我们开发了一套自动评估指标,并通过广泛的人类研究进行了验证。第三,我们提出了一个端到端模型,用于处理流式视频输入以生成符合上下文的响应,该模型结合了处理数据不平衡和长时长视频的新颖技术。这项工作为开发能够指导用户完成各种任务的实时、主动式AI助手奠定了基础。项目页面:https://pro-assist.github.io/
查看 arXiv 页面查看 PDF

评论

Yichi ZhangYichi Zhang
论文作者
论文提交者
此评论已隐藏。