DynaGuard:一个具有用户定义策略的动态防护模型

发表
Neel JainNeel Jain 提交
作者: Monte HooverMonte Hoover, Vatsal Baherwani, Neel JainNeel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein

摘要

守护模型用于监督和审查面向用户的聊天机器人的输出,强制执行防护栏并检测不良行为。标准的守护模型,如 LlamaGuard,可以检测预定义、静态的伤害类别。我们提出了一种动态守护模型,该模型根据用户定义的策略评估文本,使其适用于标准守护模型未能涵盖的不同应用领域。我们的动态守护模型可以用于快速检测策略违规,或者结合链式思考(chain-of-thought)推理,清晰地阐述和解释模型输出。我们的动态守护模型在检测静态伤害类别方面的准确性与静态模型相当,同时能够以更少的时间识别出自由格式策略的违规,其准确性可与前沿推理模型相媲美。
查看 arXiv 页面查看 PDF

评论

Monte HooverMonte Hoover
论文作者

查看我们的互动演示,并提供改进意见!

演示:https://huggingface.co/spaces/tomg-group-umd/DynaGuard

项目页面:https://taruschirag.github.io/DynaGuard/

代码:https://github.com/montehoover/DynaGuard

Neel JainNeel Jain
论文作者
论文提交者
此评论已隐藏。