⏶17

DynaGuard：一个具有用户定义策略的动态防护模型

09月02日发表

09月03日由 Neel Jain 提交

作者: Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein

摘要

守护模型用于监督和审查面向用户的聊天机器人的输出，强制执行防护栏并检测不良行为。标准的守护模型，如 LlamaGuard，可以检测预定义、静态的伤害类别。我们提出了一种动态守护模型，该模型根据用户定义的策略评估文本，使其适用于标准守护模型未能涵盖的不同应用领域。我们的动态守护模型可以用于快速检测策略违规，或者结合链式思考（chain-of-thought）推理，清晰地阐述和解释模型输出。我们的动态守护模型在检测静态伤害类别方面的准确性与静态模型相当，同时能够以更少的时间识别出自由格式策略的违规，其准确性可与前沿推理模型相媲美。

查看 arXiv 页面查看 PDF

Monte Hoover

论文作者

查看我们的互动演示，并提供改进意见！

演示：https://huggingface.co/spaces/tomg-group-umd/DynaGuard

项目页面：https://taruschirag.github.io/DynaGuard/

代码：https://github.com/montehoover/DynaGuard

Neel Jain

论文作者

论文提交者

此评论已隐藏。