来自代码生成模型的代码嵌入效率

发表
Han XiaoHan Xiao 提交
作者: Daria KryvosheievaDaria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han XiaoHan Xiao

摘要

jina-code-embeddings 是一个新颖的代码嵌入模型套件,旨在根据自然语言查询检索代码、执行技术问答以及识别跨编程语言的语义相似代码片段。它创新性地使用了一个在文本和代码上进行预训练的自回归骨干模型,通过最后一个 token 池化生成嵌入。我们概述了训练方案,并展示了尽管模型尺寸相对较小,但仍取得了最先进的性能,验证了这种代码嵌入模型构建方法。
查看 arXiv 页面查看 PDF

评论

Han XiaoHan Xiao
论文作者
论文提交者

我们新的代码嵌入