⏶15
有争议的智能:通过辩论言语评估对LLM评判器进行基准测试
发表
由
Noy Sternlicht 提交

作者:
Noy Sternlicht,
Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim

摘要
我们引入了辩论演讲评估(Debate Speech Evaluation),作为评估大型语言模型(LLM)评判者的一项新颖且具有挑战性的基准。评估辩论演讲需要对演讲内容有多个层面的深入理解,包括论证的强度和相关性、演讲的连贯性和组织性、其风格和语气的恰当性等等。这项任务涉及一系列独特的认知能力,而这些能力在以往的系统性LLM基准测试中受到的关注有限。为了探索这些技能,我们利用了包含600多份精心标注的辩论演讲数据集,并首次深入分析了最先进的LLM在此任务上与人类评判者相比的表现。我们的发现揭示了一个微妙的画面:虽然大型模型在某些方面可以接近个体人类的判断,但它们在整体判断行为上存在显著差异。我们还调查了前沿LLM生成有说服力、带有个人观点的演讲的能力,结果表明模型可能在此任务上达到人类水平。
项目页面 - https://noy-sternlicht.github.io/Debatable-Intelligence-Web