⏶6
更多的推理时计算真的有助于鲁棒性吗?
发表
由
Tong Wu 提交
作者:
Tong Wu, Chong Xiang, Jiachen T. Wang, Weichen Yu, Chawin Sitawarin, Vikash Sehwag, Prateek Mittal
摘要
最近,Zaremba等人证明,增加推理时间计算可以提高大型专有推理LLM的鲁棒性。在本文中,我们首先展示了小型开源模型(例如DeepSeek R1、Qwen3、Phi-reasoning)也可以通过简单的预算强制策略从推理时间扩展中获益。更重要的是,我们揭示并批判性地审视了先前工作中一个隐含的假设:中间推理步骤对攻击者是隐藏的。通过放宽这个假设,我们识别出一个重要的安全风险,它通过直观的动机和经验验证表现为一种反向缩放定律:如果中间推理步骤变得可显式访问,增加推理时间计算会持续降低模型的鲁棒性。最后,我们讨论了模型在隐藏推理链的情况下仍然容易受到攻击的实际场景,例如具有工具集成推理的模型和高级推理提取攻击。我们的发现共同表明,推理时间扩展的鲁棒性益处在很大程度上取决于对抗性设置和部署环境。我们敦促实践者在安全敏感的实际应用中应用推理时间扩展之前,仔细权衡这些微妙的权衡。

推理模型安全性的逆向缩放定律