⏶4
通过推理和强化学习实现 LLM 中的上下文完整性
发表
由
Eric Lan 提交

作者:
Guangchen Lan, Huseyin A. Inan,
Sahar Abdelnabi, Janardhan Kulkarni,
Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim

摘要
随着自主代理代表用户做出决策的时代到来,确保情境完整性(CI)——即在执行特定任务时共享何种适当信息——成为该领域的核心问题。我们认为 CI 需要一种推理形式,即代理需要推断其所操作的情境。为了验证这一点,我们首先提示 LLM 在决定披露何种信息时明确地推理 CI。然后,我们通过开发一个强化学习(RL)框架来扩展这种方法,该框架进一步向模型灌输实现 CI 所需的推理。我们使用一个仅包含 700 个示例但具有不同情境和信息披露规范的合成、自动创建的数据集,结果表明我们的方法显著减少了不当信息披露,同时在多个模型大小和系列中保持了任务性能。更重要的是,改进从这个合成数据集转移到了既有的 CI 基准,例如 PrivacyLens,后者具有人工标注并评估 AI 助手在行动和工具调用中的隐私泄露情况。
📄 论文:https://arxiv.org/abs/2506.04245