⏶41
F2LLM技术报告:使用600万开源数据匹配SOTA嵌入性能
发表
由
Ziyin Zhang 提交

作者:
Ziyin Zhang, Zihan Liao,
Hang Yu, Peng Di, Rui Wang


摘要
AI 生成总结
F2LLM 是一套大型语言模型,通过使用开源数据集从基础模型进行高效微调,实现了高嵌入性能。我们提出了 F2LLM——Foundation to Feature Large Language Models,这是一套具有 0.6B、1.7B 和 4B 三种规模的最先进嵌入模型。与以往需要大规模对比预训练、复杂训练管道和昂贵合成训练数据的顶级嵌入模型不同,F2LLM 直接在现有基础模型上,使用从开源、非合成数据集中精心策划的 600 万个查询-文档-负例元组进行微调,在训练成本、模型大小和嵌入性能之间取得了强有力的平衡。在 MTEB 英文排行榜上,F2LLM-4B 在约 4B 参数的模型中排名第 2,总体排名第 7;F2LLM-1.7B 在 1B-2B 模型规模中排名第 1。为了促进该领域的未来研究,我们发布了模型、训练数据集和代码,使 F2LLM 成为未来研究强有力、可复现且经济高效的基线。
我们提出了 F2LLM,这是一系列完全开源的嵌入模型,在训练成本、模型大小和嵌入性能之间取得了强大的平衡,为未来开发嵌入模型提供了一个强大、可复现且经济高效的基准。