FS-DAG: 用于视觉丰富文档理解的少样本域适应图网络

发表
Amit AgarwalAmit Agarwal 提交
作者: Amit AgarwalAmit Agarwal, Srikant Panda, Kulbhushan Pachauri

摘要

在这项工作中,我们提出了少量样本域适应图(Few Shot Domain Adapting Graph, FS-DAG),这是一种可扩展、高效的模型架构,用于少量样本设置下的视觉丰富文档理解(Visually Rich Document Understanding, VRDU)。FS-DAG 在一个模块化框架内利用领域特定以及语言/视觉特定的骨干网络,以极少的数据适应不同的文档类型。该模型对实际挑战具有鲁棒性,例如处理 OCR 错误、拼写错误和领域漂移,这些在实际部署中至关重要。FS-DAG 性能出色,参数量不到 9000 万,非常适用于计算资源有限的复杂信息抽取(Information Extraction, IE)任务的实际应用。我们通过大量信息抽取任务实验展示了 FS-DAG 的能力,与最先进的方法相比,在收敛速度和性能方面均有显著提升。此外,这项工作突出了在开发更小、更高效且不牺牲性能的模型方面正在取得的进展。代码:https://github.com/oracle-samples/fs-dag
查看 arXiv 页面查看 PDF

评论

Amit AgarwalAmit Agarwal
论文作者
论文提交者

少量样本领域自适应图 (FS-DAG) 提出了一种可扩展且高效的模型架构,用于少量样本设置下的视觉丰富文档理解 (VRDU)。FS-DAG 在模块化框架内利用领域特定和语言/视觉特定的骨干网络,以便用最少的数据适应不同的文档类型。该模型能够应对实际挑战,例如处理 OCR 错误、拼写错误和领域迁移,这在实际部署中至关重要。FS-DAG 性能优异,参数少于 90M,非常适合计算资源有限的信息抽取 (IE) 任务的复杂实际应用。我们通过大量信息抽取任务的实验展示了 FS-DAG 的能力,结果表明与现有最先进方法相比,其收敛速度和性能都有显著提升。此外,这项工作强调了在开发更小、更高效且不牺牲性能的模型方面的持续进展。

代码:https://github.com/oracle-samples/fs-dag