⏶3
多模态 DeepResearcher:采用代理框架从零开始生成文本-图表交错报告
发表
由
Zhaorui Yang 提交

作者:
Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu,
Minfeng Zhu, Bo Zhang, Wei Chen

摘要
可视化在概念和信息的有效沟通中起着至关重要的作用。推理和检索增强生成方面的最新进展使得大型语言模型(LLM)能够进行深入研究并生成全面的报告。尽管取得了进展,但现有的深度研究框架主要侧重于生成纯文本内容,而文本与可视化交织的自动化生成仍未得到充分探索。这项新颖的任务在设计信息可视化和将其与文本报告有效整合方面提出了关键挑战。为了应对这些挑战,我们提出了可视化形式化描述(FDV),一种图表的结构化文本表示,使 LLM 能够从中学习并生成多样化、高质量的可视化。基于这种表示,我们引入了多模态深度研究员(Multimodal DeepResearcher),一个智能体框架,将任务分解为四个阶段:(1)研究,(2)示例报告文本化,(3)规划,以及(4)多模态报告生成。为了评估生成的多模态报告,我们开发了 MultimodalReportBench,它包含 100 个不同主题作为输入,并附带 5 个专用指标。对模型和评估方法进行的广泛实验证明了 Multimodal DeepResearcher 的有效性。值得注意的是,利用相同的 Claude 3.7 Sonnet 模型,Multimodal DeepResearcher 在总体胜率上比基线方法高出 82%。
我们引入了一个代理框架,可以自动从零开始生成全面的多模态报告,其中包含文本和可视化内容的交错,超越了仅文本的内容生成。项目网站: https://rickyang1114.github.io/multimodal-deepresearcher/