⏶4
优化检索增强生成:超参数对性能和效率的影响分析
发表
由
Omartificial Intelligence Space 提交

作者:
Adel Ammar,
Anis Koubaa,
Omer Nacar,
Wadii Boulila

摘要
大型语言模型在任务性能上表现出色,但常常产生幻觉或依赖过时知识。检索增强生成(RAG)通过将生成与外部搜索相结合来解决这些不足。我们分析了超参数如何影响 RAG 系统的速度和质量,研究范围包括 Chroma 和 Faiss 向量存储、分块策略、交叉编码器重排序和温度,并评估了六个指标:忠实性、答案正确性、答案相关性、上下文精确率、上下文召回率和答案相似度。Chroma 处理查询速度快 13%,而 Faiss 产生更高的检索精确率,这揭示了明显的速度-准确性权衡。采用小窗口和最小重叠的朴素固定长度分块优于语义分割,同时也是最快的选项。重排序在检索质量上提供了适度提升,但会将运行时增加大约 5 倍,因此其有效性取决于延迟限制。这些结果有助于从业者在调优 RAG 系统以获得透明、最新响应时平衡计算成本和准确性。最后,我们使用纠错 RAG 工作流重新评估了顶级配置,并表明当模型可以迭代请求额外证据时,它们的优势依然存在。我们获得了接近完美的上下文精确率(99%),这表明通过正确的超参数组合,RAG 系统可以实现极高的检索准确率,这对检索质量直接影响下游任务性能的应用(例如医疗保健中的临床决策支持)具有重要意义。
大语言模型在任务性能上表现出色,但经常会产生幻觉或依赖过时知识。检索增强生成 (RAG) 通过将生成与外部搜索相结合来弥补这些不足。我们分析了超参数如何影响 RAG 系统的速度和质量,涵盖了 Chroma 和 Faiss 向量存储、分块策略、跨编码器重排序和温度等因素,并评估了六个指标:忠实度、答案正确性、答案相关性、上下文精确率、上下文召回率和答案相似度。Chroma 处理查询速度快 13%,而 Faiss 产生更高的检索精确率,这揭示了明显的速-准权衡。具有小窗口和最小重叠的朴素固定长度分块优于语义分段,同时仍然是最快的选择。重排序在检索质量上提供了适度提升,但运行时增加了约 5 倍,因此其有效性取决于延迟限制。这些结果有助于实践者在调整 RAG 系统以获得透明、最新的响应时,平衡计算成本和准确性。最后,我们使用纠正性 RAG 工作流重新评估了最佳配置,并表明当模型可以迭代地请求额外证据时,其优势仍然存在。我们获得了接近完美的上下文精确率(99%),这表明 RAG 系统通过超参数的正确组合可以实现极高的检索准确性,这对检索质量直接影响下游任务性能的应用具有重要意义,例如医疗保健领域的临床决策支持。