AVoCaDO:一个由时间编排驱动的视听视频字幕生成器

发表
Yang ShiYang Shi 提交
作者: Xinlong ChenXinlong Chen, Yue Ding, Weihong Lin, jingyunJingyun Hua, Linli Yao, Yang ShiYang Shi, Bozhou LiBozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan

摘要

AI 生成总结
AVoCaDO 是一款视听视频字幕生成器,通过两阶段的后训练流程提高了时间连贯性和对话准确性,在多个基准测试中表现优于现有模型。
视听视频字幕生成旨在生成语义丰富的描述,并使视觉和听觉事件在时间上对齐,从而有益于视频理解和生成。在本文中,我们提出了AVoCaDO,一个由音频和视觉模态之间时间协同驱动的强大视听视频字幕生成器。我们提出了一种两阶段的后训练流程:(1)AVoCaDO SFT,在最近整理的107K高质量、时间对齐的视听字幕数据集上微调模型;(2)AVoCaDO GRPO,利用定制的奖励函数进一步提高时间连贯性和对话准确性,同时规范字幕长度并减少崩溃。实验结果表明,AVoCaDO在四个视听视频字幕基准上显著优于现有的开源模型,并且在仅视觉设置下在VDC和DREAM-1K基准上也取得了具有竞争力的性能。
查看 arXiv 页面查看 PDF

评论

Yang ShiYang Shi
论文作者
论文提交者

视听视频字幕生成旨在生成语义丰富的描述,并使视觉和听觉事件在时间上对齐,从而有益于视频理解和生成。在本文中,我们提出了 AVoCaDO,一个由音频和视觉模态之间时间协同驱动的强大视听视频字幕生成器。我们提出了一种两阶段后训练流程:(1)AVoCaDO SFT,它在 107K 个新策划的高质量、时间对齐的视听字幕数据集上对模型进行微调;(2)AVoCaDO GRPO,它利用定制的奖励函数来进一步增强时间连贯性和对话准确性,同时规范字幕长度并减少崩溃。实验结果表明,AVoCaDO 在四个视听视频字幕基准测试中显著优于现有的开源模型,并且在纯视觉设置下的 VDC 和 DREAM-1K 基准测试中也取得了具有竞争力的性能。