⏶16
来自代码生成模型的代码嵌入效率
发表
由
Han Xiao 提交

作者:
Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens,
Han Xiao


摘要
jina-code-embeddings 是一个新颖的代码嵌入模型套件,旨在根据自然语言查询检索代码、执行技术问答以及识别跨编程语言的语义相似代码片段。它创新性地使用了一个在文本和代码上进行预训练的自回归骨干模型,通过最后一个 token 池化生成嵌入。我们概述了训练方案,并展示了尽管模型尺寸相对较小,但仍取得了最先进的性能,验证了这种代码嵌入模型构建方法。
我们新的代码嵌入