AI辅助的摘要和结论分析:标记未经证实的主张和模糊的代词

发表
Evgeny MarkhasinEvgeny Markhasin 提交
作者: Evgeny MarkhasinEvgeny Markhasin

摘要

我们提出并评估了一套概念验证(PoC)结构化工作流提示,旨在引导大型语言模型(LLM)对学术手稿进行高层次语义和语言分析,同时引发类人分层推理。这些提示针对学术摘要(引言和结论)中的两项非平凡分析任务:识别未经证实的说法(信息完整性)和标记语义上令人困惑的模糊代词引用(语言清晰度)。我们对两种前沿模型(Gemini Pro 2.5 Pro 和 ChatGPT Plus o3)在不同上下文条件下进行了系统的多轮评估。我们针对信息完整性任务的结果显示模型性能存在显著差异:虽然两种模型都成功识别了名词短语中未经证实的核心部分(95% 的成功率),但 ChatGPT 始终未能识别(0% 的成功率)Gemini 正确标记的未经证实的形容词修饰语(95% 的成功率),这引发了对目标句法作用潜在影响的疑问。对于语言分析任务,两种模型在完整手稿上下文下表现良好(80-90% 的成功率)。令人惊讶的是,在仅提供摘要的情况下,Gemini 的性能大幅下降,而 ChatGPT 取得了完美的(100%)成功率。我们的研究结果表明,虽然结构化提示是复杂文本分析的可行方法,但提示性能可能高度依赖于模型、任务类型和上下文之间的相互作用,这凸显了进行严格、针对特定模型的测试的必要性。
查看 arXiv 页面查看 PDF

评论

Evgeny MarkhasinEvgeny Markhasin
论文作者
论文提交者

本研究调查了大型语言模型 (LLM) 在结构化提示的引导下,标记学术摘要(摘要和结论)中细微语义问题的能力。 该研究侧重于两个具体问题:主要文本未证实的主张,以及语法上含糊不清的代词(如“this”)的混淆使用。 使用 ChatGPT Plus o3 和 Gemini Pro 2.5 Pro 模型,提示在测试案例中取得了很高的成功率,但实验也揭示了模型之间重要的局限性和明显的性能差异。