⏶2

从流式第一人称视角视频生成主动式助手对话

06月06日发表

06月10日由 Yichi Zhang 提交

作者: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon

摘要

会话式AI领域的最新进展显著，但开发用于感知任务指导的实时系统仍然充满挑战。这些系统必须基于流式视觉输入提供交互式、主动的帮助，但其开发受限于数据收集和系统评估成本高昂且劳动密集型的过程。为了解决这些限制，我们提出了一个包含三个关键贡献的综合框架。首先，我们引入了一个新颖的数据整理管道，可以从带注释的第一人称视角视频中合成对话，从而生成一个名为 \dataset 的大规模合成对话数据集，该数据集涵盖多个领域。其次，我们开发了一套自动评估指标，并通过广泛的人类研究进行了验证。第三，我们提出了一个端到端模型，用于处理流式视频输入以生成符合上下文的响应，该模型结合了处理数据不平衡和长时长视频的新颖技术。这项工作为开发能够指导用户完成各种任务的实时、主动式AI助手奠定了基础。项目页面：https://pro-assist.github.io/

查看 arXiv 页面查看 PDF

Yichi Zhang

论文作者

论文提交者

此评论已隐藏。