⏶28
RAVine: 现实对齐的智能体搜索评估
发表
由
yilong xu 提交
作者:
Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao
摘要
自主搜索(Agentic search)作为一种更具自主性和适应性的检索增强范式,正在推动智能搜索系统的演进。然而,现有的评估框架未能与自主搜索的目标良好契合。首先,当前基准测试中常用的复杂查询往往偏离了真实的用户搜索场景。其次,以往的方法在为端到端评估提取“黄金标准”(ground truth)时容易引入噪声,导致细粒度评估结果失真。第三,大多数现有框架只关注最终答案的质量,忽略了自主搜索固有的迭代过程评估。为了解决这些局限性,我们提出了 RAVine——一个面向具备搜索能力的自主大语言模型的真实对齐评估框架。RAVine 针对更符合用户意图的多点查询和长篇答案,并引入了一种可归因的“黄金标准”构建策略,以提高细粒度评估的准确性。此外,RAVine 检查模型在整个迭代过程中与搜索工具的交互,并考虑了效率因素。我们使用 RAVine 对一系列模型进行了基准测试,并得出了一些见解,希望能为推动自主搜索系统的发展做出贡献。代码和数据集可在 https://github.com/SwordFaith/RAVine 获取。
代码:https://github.com/SwordFaith/RAVine
数据集:
核心数据:https://huggingface.co/datasets/sapphirex/RAVine-nuggets
查询相关性判断:https://huggingface.co/datasets/sapphirex/RAVine-qrels
索引:https://huggingface.co/datasets/sapphirex/RAVine-dense-index
映射器:https://huggingface.co/datasets/sapphirex/RAVine-mapper
运行和评估日志:https://huggingface.co/datasets/sapphirex/RAVine-logs