⏶3
超越数学问答:评估大型推理模型索取信息的能力
发表
由
YouchengHuang 提交
作者:
Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
摘要
大型推理模型(LRM)在数学方面展现出卓越的问题解决能力,这已通过现有基准在明确定义的问题上进行了评估。然而,这种评估设置构成了一个关键的空白,因为一个真正的智能代理不仅应该解决问题(如同数学测验求解器),还应该能够在问题缺乏足够信息时主动请求信息,从而在响应用户请求时展现主动性。为了弥补这一空白,我们提出了一个新的数据集,包含两种不同背景下的不完整问题。基于该数据集,我们对LRM进行系统评估,揭示了它们无法主动请求信息。此外,我们发现了LRM与过度思考和幻觉相关的行为,并强调了监督微调在学习这种能力方面的潜力和挑战。我们希望为开发具有真正智能(而不仅仅是解决问题)的LRM提供新的见解。
对大型推理模型在不完整问题上的系统评估揭示了它们无法主动寻求信息,突出了过度思考和幻觉等问题,以及监督微调在发展真正智能方面的挑战。