SATA-BENCH:多项选择题的“选择所有适用项”基准

发表
Weijie XuWeijie Xu 提交
作者: Weijie XuWeijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy

摘要

大型语言模型 (LLM) 越来越多地在单答案多项选择任务上进行评估,然而许多现实世界的问题需要从一组选项中识别所有正确答案。这种能力仍未得到充分探索。我们引入了 SATA-BENCH,这是第一个专门用于评估LLM在包括阅读理解、法律和生物医学等不同领域中的“选择所有适用项” (SATA) 问题上的基准。我们对27个开源和专有模型的评估揭示了一个显著的差距:即使是最强的模型也仅达到41.8%的精确匹配,暴露出LLM无法可靠识别所有正确答案的问题。我们发现这一弱点源于两个核心挑战:选择偏差——模型无论内容如何都偏爱某些选项,以及计数偏差——模型未能预测正确答案的数量。为了解决这些问题,我们提出了 Choice Funnel,这是一种结合了词元去偏和自适应阈值化的解码策略,以引导模型进行完整准确的选择。Choice Funnel 的精确匹配率比竞争基线高出29%,同时将推理成本降低了64%以上。我们的发现揭示了当前LLM的根本性局限,并引入了一个诊断和改进多答案推理的新框架。我们发布了 SATA-BENCH 和 Choice Funnel,以促进LLM在实际多答案应用中实现稳健决策的发展。
查看 arXiv 页面查看 PDF
SATA-BENCH:多项选择题的“选择所有适用项”基准
SATA-BENCH:多项选择题的“选择所有适用项”基准

评论

Weijie XuWeijie Xu
论文作者
论文提交者

Screenshot 2025-06-02 at 7.50.47 PM.png
当有多个正确答案时,LLM不擅长回答多项选择题。