TaxoAdapt:使基于大型语言模型的多维分类体系构建适配不断演进的研究语料库

发表
Priyanka KarguptaPriyanka Kargupta 提交
作者: Priyanka KarguptaPriyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han

摘要

科学领域的快速发展给科学文献的组织和检索带来了挑战。尽管专家策划的分类法传统上满足了这一需求,但该过程耗时且昂贵。此外,近期自动分类法构建方法要么 (1) 过度依赖特定语料库,牺牲了通用性,要么 (2) 严重依赖大型语言模型(LLM)预训练数据集中包含的通用知识,常常忽视不断演进的科学领域的动态性质。此外,这些方法未能考虑到科学文献的多面性,单一研究论文可能涉及多个维度(例如,方法论、新任务、评估指标、基准)。为了解决这些空白,我们提出了 TaxoAdapt,一个能够将 LLM 生成的分类法动态适应到给定语料库的多个维度上的框架。TaxoAdapt 执行迭代分层分类,根据语料库的主题分布扩展分类法的宽度和深度。我们展示了它在多年来各种计算机科学会议上的最先进性能,以展示其组织和捕捉科学领域演变的能力。作为一种多维方法,TaxoAdapt 生成的分类法比最具竞争力的基线(由 LLM 评判)在粒度保持方面提高了 26.51%,在连贯性方面提高了 50.41%。
查看 arXiv 页面查看 PDF
TaxoAdapt:使基于大型语言模型的多维分类体系构建适配不断演进的研究语料库
TaxoAdapt:使基于大型语言模型的多维分类体系构建适配不断演进的研究语料库
TaxoAdapt:使基于大型语言模型的多维分类体系构建适配不断演进的研究语料库

评论

Priyanka KarguptaPriyanka Kargupta
论文作者
论文提交者

TaxoAdapt:使基于 LLM 的多维分类体系构建与不断演变的科研语料库对齐 📚

我们推出 TaxoAdapt 框架,这是一个动态框架,用于构建和调整多维分类体系——在广度和深度上均按层级组织——通过迭代地与目标研究语料库的演变内容对齐来实现。

🌱 动态分类体系增长 – 相较于静态层级结构,TaxoAdapt 会根据传入语料库论文的主题分布,增量扩展其分类体系结构(包括广度和深度)

📏 多维视角 – 识别出论文在多个维度上都有所贡献(例如:方法论、新任务、评估指标、基准),并明确建模这种复杂性

arxiv.org

🤖 LLM 引导的分类 – 利用大型语言模型进行层级分类,根植于语料库证据,而非仅仅预训练知识

📈 跨时间 & 领域验证 – 经过对多个人工智能会议论文的时间序列验证,根据 LLM 的判断,TaxoAdapt 生成的分类体系在粒度保留方面比强基线高 26.5%,在连贯性方面高 50.4%

✨ 高效 & 自适应 – 自动适应新主题和研究趋势的变化——减少对人工专家策展的依赖,同时保持结构的时效性和高质量