⏶106
Paper2Video:从科学论文自动生成视频
发表
由
Qinghong (Kevin) Lin 提交
作者:
Zeyu Zhu,
Kevin Qinghong Lin, Mike Zheng Shou
摘要
AI 生成总结
PaperTalker 是一个多代理框架,通过集成幻灯片生成、布局优化、字幕、语音合成和虚拟人渲染,自动化学术演示视频的生成,优于现有方法。学术演示视频已成为研究交流的重要媒介,但制作过程仍然非常耗时,通常需要花费数小时进行幻灯片设计、录制和编辑才能制作出时长为 2 至 10 分钟的短视频。与自然视频不同,演示视频生成面临独特的挑战:输入源是研究论文,包含密集的多模态信息(文本、图表、表格),并且需要协调多个对齐的通道,如幻灯片、字幕、语音和真人演讲者。为了应对这些挑战,我们推出了 PaperTalker,这是第一个包含 101 篇研究论文的基准数据集,这些论文与其作者创建的演示视频、幻灯片和演讲者元数据配对。我们还设计了四种定制的评估指标——Meta Similarity、PresentArena、PresentQuiz 和 IP Memory——来衡量视频向观众传达论文信息的效果。在此基础上,我们提出了 PaperTalker,这是第一个用于学术演示视频生成的**多代理框架**。它通过新颖的有效树搜索视觉选择、光标定位、字幕、语音合成和谈话头像渲染,将幻灯片生成与有效的布局优化相结合,同时通过并行化逐幻灯片生成来提高效率。在 Paper2Video 上的实验表明,我们方法生成的演示视频比现有基线更忠实、信息量更大,为自动化、即用型学术视频生成迈出了实用的一步。我们的数据集、代理和代码可在 https://github.com/showlab/Paper2Video 获取。
https://cdn-uploads.huggingface.co/production/uploads/64440be5af034cdfd69ca3a7/bIx0o0jUFS8K1GDEOQza4.mp4
我们讨论了如何从论文创建演示视频以及如何评估演示视频。
💻 Github: https://github.com/showlab/Paper2Video
🌐 网站: https://showlab.github.io/Paper2Video/
📜 ArXiv: https://arxiv.org/abs/2510.05096
🤗 HF datasets: https://huggingface.co/datasets/ZaynZhu/Paper2Video