⏶9

PresentAgent：用于演示视频生成的多模态智能体

07月05日发表

07月08日由 Zeyu Zhang 提交

作者: Jingwei Shi, Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao

摘要

我们提出了PresentAgent，一个多模态智能体，能将长篇文档转换为带旁白的演示视频。现有方法仅限于生成静态幻灯片或文本摘要，而我们的方法超越了这些限制，通过生成与人类演示风格高度相似且完全同步的视觉和语音内容。为实现这种集成，PresentAgent采用了一个模块化流水线，系统地分割输入文档，规划和渲染幻灯片式视觉帧，利用大型语言模型和文本到语音模型生成上下文语音旁白，并以精确的音视频对齐无缝合成最终视频。鉴于评估此类多模态输出的复杂性，我们引入了PresentEval，一个由视觉-语言模型驱动的统一评估框架，它通过基于提示的评估，从内容保真度、视觉清晰度和观众理解度三个关键维度对视频进行全面评分。我们在一组包含30对文档-演示文稿的精选数据集上进行的实验验证表明，PresentAgent在所有评估指标上都接近人类水平的质量。这些结果突出了可控多模态智能体在将静态文本材料转换为动态、有效和易于访问的演示格式方面的巨大潜力。代码将在https://github.com/AIGeeksGroup/PresentAgent上提供。

查看 arXiv 页面查看 PDF

Zeyu Zhang

论文作者

论文提交者

🚀🚀🚀 想为口头报告制作演示视频，却厌倦了录制？

只需一键，即可使用 PresentAgent 生成演示视频！

我们的代码已开源，在线演示可在此处获取：

👉 https://github.com/AIGeeksGroup/PresentAgent

📝 论文：https://arxiv.org/abs/2507.04036

尽情探索吧！

PresentAgent：用于演示视频生成的多模态智能体

摘要

评论