Code2Video:面向教育视频生成的代码中心范式

发表
taesiritaesiri 提交
作者: YanzheChenYanzhe Chen, Qinghong (Kevin) LinKevin Qinghong Lin, Mike Zheng Shou

摘要

AI 生成总结
Code2Video 使用以代码为中心的代理框架生成教育视频,与直接代码生成相比,提高了连贯性和可解释性。
尽管最近的生成模型在像素级视频合成方面取得了进展,但它们在生成专业的教育视频方面仍然受到限制,因为这些视频需要学科知识、精确的视觉结构和连贯的过渡,这限制了它们在教育场景中的应用。直观地说,这些要求最好通过对可渲染环境的操作来解决,而环境可以通过逻辑命令(例如代码)显式控制。在本研究中,我们提出了 Code2Video,这是一个以代码为中心的代理框架,用于通过可执行的 Python 代码生成教育视频。该框架由三个协作代理组成:(i) 规划器,负责将讲座内容组织成时间上连贯的流程并准备相应的视觉资产;(ii) 编码器,负责将结构化指令转换为可执行的 Python 代码,同时纳入作用域引导的自动修复以提高效率;(iii) 批评家,负责利用具有视觉锚定提示的视觉语言模型 (VLM) 来优化空间布局并确保清晰度。为了支持系统性评估,我们构建了 MMMC,一个包含专业制作的、学科特定的教育视频的基准。我们在多个维度上评估 MMMC,包括 VLM 作为裁判的美学评分、代码效率,特别是 TeachQuiz,一个量化 VLM 在遗忘后通过观看生成的视频恢复知识的能力的新型端到端指标。我们的结果表明 Code2Video 作为一种可扩展、可解释和可控的方法具有潜力,比直接代码生成提高了 40%,生成的视频可与人工制作的教程相媲美。代码和数据集可在 https://github.com/showlab/Code2Video 获取。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者
此评论已隐藏。
YanzheChenYanzheChen
论文作者

HF 数据集:https://huggingface.co/datasets/YanzheChen/MMMC