⏶5
PROMPTEVALS:一个用于定制生产大语言模型管线的断言和护栏数据集
发表
由
Reya Vir 提交
作者:
Reya Vir,
Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran
摘要
大型语言模型 (LLM) 正越来越多地部署在跨不同领域的专业生产数据处理流程中——例如金融、营销和电子商务。然而,当在生产环境中处理大量输入时,它们经常无法遵循指令或达到开发者预期。为了提高这些应用的可靠性,创建断言或护栏来与流程并行运行以约束 LLM 输出至关重要。然而,确定能够捕捉开发者任务要求的正确断言集具有挑战性。在本文中,我们介绍了 PROMPTEVALS,这是一个包含 2087 个 LLM 流程提示和 12623 个相应断言标准的数据集,数据来源于使用我们开源 LLM 流程工具的开发者。该数据集比以往的集合大 5 倍。使用 PROMPTEVALS 的一个留置测试集作为基准,我们评估了闭源和开源模型在生成相关断言方面的表现。值得注意的是,我们微调过的 Mistral 和 Llama 3 模型平均性能优于 GPT-4o 达 20.93%,同时提供了更低的延迟和更高的性能。我们相信我们的数据集能够促进在 LLM 可靠性、对齐和提示工程领域的进一步研究。
大语言模型 (LLMs) 越来越多地部署在跨越不同领域的专门生产数据处理流程中——例如金融、市场营销和电子商务。然而,当在生产环境中针对大量输入运行时,它们常常未能遵循指令或达到开发者预期。为了提高这些应用的可靠性,为LLM输出创建与流程并行运行的断言或安全护栏至关重要。然而,确定能够捕捉任务开发者需求的正确断言集是具有挑战性的。在本文中,我们介绍了 PROMPTEVALS,这是一个包含 2087 个 LLM 流程提示和 12623 个相应断言标准的数据集,这些数据来源于使用我们开源 LLM 流程工具的开发者。该数据集比以往的集合大5倍。我们使用 PROMPTEVALS 的保留测试集作为基准,评估了闭源和开源模型在生成相关断言方面的能力。值得注意的是,我们微调的 Mistral 和 Llama 3 模型平均表现优于 GPT-4o 20.93%,既提供了更低的延迟又提高了性能。我们相信我们的数据集可以促进在 LLM 可靠性、对齐和提示工程领域的进一步研究。