⏶2
检测大型语言模型训练后强化学习中的数据污染
发表
由
Yongding Tao 提交

作者:
Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li

摘要
AI 生成总结
Self-Critique 通过检测策略崩溃来解决 LLM 强化学习后训练阶段的数据污染问题,其 AUC 显著提高,优于现有方法。数据污染对大型语言模型(LLMs)的可靠评估构成了重大威胁。当基准样本无意中出现在训练集中时,就会出现这个问题,从而损害了报告性能的有效性。虽然已经为预训练和有监督微调阶段开发了检测方法,但对于越来越重要的强化学习(RL)后训练阶段,仍然存在一个关键的研究空白。随着 RL 后训练对于推进 LLM 推理变得至关重要,这种范式中缺乏专门的污染检测方法构成了一个关键的漏洞。为了解决这个问题,我们进行了首次关于 RL 后训练场景中数据检测的系统研究,并提出了 Self-Critique。我们的方法源于一个关键观察:在 RL 阶段之后,LLMs 的输出熵分布倾向于坍缩成高度具体和稀疏的模式。Self-Critique 探测底层策略坍缩,即模型收敛到狭窄的推理路径,这导致了熵减少。为了促进这项研究,我们还引入了 RL-MIA,一个用于模拟这种特定污染场景的基准。广泛的实验表明,Self-Critique 在多个模型和污染任务上显著优于基线方法,AUC 提高了 30%。而现有的方法在 RL 阶段污染检测方面接近于随机猜测,我们的方法使得检测成为可能。
Arxiv: https://arxiv.org/abs/2510.09259 代码: https://github.com/yongding-tao/RL-Data-Contamination