⏶2
R^2ec:迈向具备推理能力的大型推荐模型
发表
由
Xin Zhang 提交

作者:
Runyang You,
Yongqi Li, Xinyu Lin,
Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie

摘要
大型推荐模型已通过编码或物品生成将 LLM 扩展为强大的推荐器,而 LLM 推理的最新突破同步地促使人们探索推荐中的推理。当前研究通常将 LLM 定位为外部推理模块,以产生辅助思考,从而增强传统的推荐管道。然而,这种解耦设计在显著的资源成本和次优联合优化方面受到限制。为了解决这些问题,我们提出了 \name,一个具有内在推理能力的统一大型推荐模型。首先,我们重新构思了模型架构,以促进自回归过程中的交错推理和推荐。随后,我们提出了 RecPO,一个相应的强化学习框架,它在单个策略更新中同时优化 \name 的推理和推荐能力;RecPO 引入了一种融合奖励方案,该方案仅利用推荐标签来模拟推理能力,消除了对专门推理标注的依赖。在三个数据集上使用各种基线进行的实验验证了 \name 的有效性,显示 Hit@5 相对提高了 68.67%,NDCG@20 相对提高了 45.21%。代码可在 https://github.com/YRYangang/RRec 获取。
我们开发了一个具有内在推理能力的统一大型推荐模型!