⏶34
LiveCC:大规模使用流式语音转录学习视频大型语言模型
发表
由
Joya Chen 提交

作者:
Joya Chen,
Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma,
Mike Zheng Shou

摘要
最近的视频大型语言模型(Video LLMs)通常依赖昂贵的人工标注或专有模型API(例如GPT-4o)来生成训练数据,这限制了它们的大规模训练。在本文中,我们探索了利用廉价的自动语音识别(ASR)转录本进行Video LLM的大规模训练。具体来说,我们提出了一种新颖的流式训练方法,根据时间戳将ASR词汇和视频帧密集交错。与之前使用ASR进行视觉-语言表示的研究相比,我们的方法自然地适应了ASR的流式特性,从而使模型能够学习时间对齐的、细粒度的视觉-语言建模。为了支持训练算法,我们引入了一个数据生成流水线来处理YouTube视频及其隐藏式字幕(CC,与ASR相同),从而产生了用于预训练的Live-CC-5M数据集和用于高质量监督微调(SFT)的Live-WhisperX-526K数据集。值得注意的是,即使没有SFT,仅用ASR预训练的LiveCC-7B-Base模型在通用视频问答方面也表现出具有竞争力的性能,并展示了实时视频解说的新能力。为了评估这一点,我们精心设计了一个新的LiveSports-3K基准,使用LLM作为评判者来衡量自由形式的解说。实验表明,我们的最终模型LiveCC-7B-Instruct甚至在实时模式下也能超越先进的72B模型(Qwen2.5-VL-72B-Instruct,LLaVA-Video-72B)的解说质量。同时,它在VideoMME和OVOBench等流行的视频问答基准上取得了7B/8B规模下的最先进结果,证明了我们方法的广泛泛化能力。本文的所有资源已在https://showlab.github.io/livecc发布。
全部开源!项目页面: https://showlab.github.io/livecc Gradio 演示: https://huggingface.co/spaces/chenjoya/LiveCC 训练代码: https://github.com/showlab/livecc SFT 模型: https://huggingface.co/chenjoya/LiveCC-7B-Instruct SFT 数据集: https://huggingface.co/datasets/chenjoya/Live-WhisperX-526K 预训练模型: https://huggingface.co/chenjoya/LiveCC-7B-Base 预训练数据集: https://huggingface.co/datasets/chenjoya/Live-CC-5M 基准: https://huggingface.co/datasets/stdKonjac/LiveSports-3K