⏶9
PresentAgent:用于演示视频生成的多模态智能体
发表
由
Zeyu Zhang 提交

作者: Jingwei Shi,
Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao

摘要
我们提出了PresentAgent,一个多模态智能体,能将长篇文档转换为带旁白的演示视频。现有方法仅限于生成静态幻灯片或文本摘要,而我们的方法超越了这些限制,通过生成与人类演示风格高度相似且完全同步的视觉和语音内容。为实现这种集成,PresentAgent采用了一个模块化流水线,系统地分割输入文档,规划和渲染幻灯片式视觉帧,利用大型语言模型和文本到语音模型生成上下文语音旁白,并以精确的音视频对齐无缝合成最终视频。鉴于评估此类多模态输出的复杂性,我们引入了PresentEval,一个由视觉-语言模型驱动的统一评估框架,它通过基于提示的评估,从内容保真度、视觉清晰度和观众理解度三个关键维度对视频进行全面评分。我们在一组包含30对文档-演示文稿的精选数据集上进行的实验验证表明,PresentAgent在所有评估指标上都接近人类水平的质量。这些结果突出了可控多模态智能体在将静态文本材料转换为动态、有效和易于访问的演示格式方面的巨大潜力。代码将在https://github.com/AIGeeksGroup/PresentAgent上提供。
🚀🚀🚀 想为口头报告制作演示视频,却厌倦了录制?
只需一键,即可使用 PresentAgent 生成演示视频!
我们的代码已开源,在线演示可在此处获取:
👉 https://github.com/AIGeeksGroup/PresentAgent
📝 论文:https://arxiv.org/abs/2507.04036
尽情探索吧!