⏶1
如果我们可以预设:通过无预设问题的分解来有力地验证主张
发表
由
Shubhashis Roy Dipta 提交

作者:
Shubhashis Roy Dipta, Francis Ferraro

摘要
先前的研究表明,生成问题中的预设会引入未经证实的假设,从而导致论点验证不一致。
此外,提示敏感性仍然是大型语言模型(LLMs)的一个重大挑战,可能导致高达 3-6% 的性能差异。
尽管最近的进展缩小了这一差距,但我们的研究表明,提示敏感性仍然是一个持续存在的问题。
为了解决这个问题,我们提出了一个结构化且健壮的论点验证框架,该框架通过无预设的、分解的问题进行推理。
在多个提示、数据集和 LLMs 上进行的广泛实验表明,即使是最先进的模型仍然容易受到提示方差和预设的影响。
我们的方法持续缓解这些问题,性能提升高达 2-5%。
先前的工作表明,生成问题中的预设信息会引入未经证实的假设,导致声明验证中的不一致。此外,提示敏感性仍然是大型语言模型 (LLM) 的一个重大挑战,导致性能差异高达 3-6%。尽管最近的进展缩小了这一差距,但我们的研究表明,提示敏感性仍然是一个持续存在的问题。为了解决这个问题,我们提出了一种结构化且稳健的声明验证框架,该框架通过无预设、分解的问题进行推理。在多个提示、数据集和 LLM 上进行的广泛实验表明,即使是最先进的模型仍然容易受到提示差异和预设的影响。我们的方法一致地缓解了这些问题,实现了高达 2-5% 的改进。