用于联合生成式搜索和推荐的语义 ID

发表
Marco De NadaiMarco De Nadai 提交
作者: Gustavo Penha, Edoardo D'Amico, Marco De NadaiMarco De Nadai, Enrico Palumbo, Alexandre Tamborrino, Ali Vardasbi, Max Lefarov, Shawn Lin, Timothy Heath, Francesco FabbriFrancesco Fabbri, Hugues Bouchard

摘要

由大型语言模型(LLM)驱动的生成模型正在成为一种统一的解决方案,可同时支持推荐和搜索任务。这些模型中的一个关键设计选择是如何表示项目,传统上通过唯一标识符(ID),最近通过由嵌入获得的离散代码组成的语义 ID。虽然特定于任务的嵌入模型可以提高单个任务的性能,但它们在联合设置中可能无法很好地泛化。在本文中,我们探讨了如何构建在统一模型中在搜索和推荐方面均表现良好的语义 ID。我们比较了构建语义 ID 的一系列策略,包括特定于任务和跨任务的方法,以及在联合搜索和推荐生成模型中,每个任务是否应该有自己的语义 ID 标记。我们的结果表明,使用在搜索和推荐任务上微调的双编码器模型来获取项目嵌入,然后构建统一的语义 ID 空间,提供了一种有效的权衡,可以在两个任务中实现强大的性能。我们希望这些发现能够引发关于可泛化、语义接地 ID 方案的后续工作,并为下一波统一生成推荐架构提供信息。
查看 arXiv 页面查看 PDF

评论

Marco De NadaiMarco De Nadai
论文作者
论文提交者

🎉 很高兴与大家分享我们的最新研究成果“语义 ID 用于联合生成搜索和推荐”,该研究将发表在 RecSys ’25 上。

🧠 生成模型 + LLM 正在重塑我们处理搜索和推荐的方式。但是,我们如何以一种既适用于搜索又适用于推荐的方式来表示物品呢?

📦 我们探索了语义 ID,并研究了如何创建它们,以便在统一模型中同时在搜索和推荐任务上表现良好。

⚖️ 我们的关键发现:一个同时在两个任务上进行微调的双编码器创建了一个共享的嵌入空间,该空间在各项任务上都表现出色,避免了我们与特定任务嵌入所见的权衡。