利用多模态大型语言模型描述所见内容,以增强视频推荐

发表
Marco De NadaiMarco De Nadai 提交
作者: Marco De NadaiMarco De Nadai, Andreas Damianou, Mounia Lalmas

摘要

现有的视频推荐系统主要依赖用户定义的元数据或由专门编码器提取的低级视觉和声学信号。这些低级特征描述了屏幕上出现的内容,但却缺失了更深层的语义,例如意图、幽默和世界知识,而这些才是让片段与观众产生共鸣的关键。例如,一个 30 秒的片段是仅仅一个歌手在屋顶上,还是在土耳其卡帕多奇亚的仙女烟囱中拍摄的讽刺模仿?这种区别对于个性化推荐至关重要,但传统编码管道却无法察觉。在本文中,我们引入了一个简单、与推荐系统无关的零微调框架,通过提示现成的多模态大型语言模型(MLLM)将每个片段总结为丰富的自然语言描述(例如“一部带有打斗和管弦乐的超级英雄模仿剧”),从而将高层语义注入推荐管道,弥合原始内容与用户意图之间的差距。我们将 MLLM 输出与最先进的文本编码器结合使用,并将其输入到标准的协同过滤、基于内容和生成推荐器中。在 MicroLens-100K 数据集上(模拟用户与 TikTok 风格视频的互动),我们的框架在五个代表性模型中始终优于传统的视频、音频和元数据特征。我们的研究结果凸显了利用 MLLM 作为即时知识提取器以构建更具意图感知的视频推荐器的前景。
查看 arXiv 页面查看 PDF

评论

Marco De NadaiMarco De Nadai
论文作者
论文提交者

很高兴分享我们最新的被 Recsys 2025 录用的论文!

“使用多模态大型语言模型描述所见内容以增强视频推荐”,这篇论文让我有机会连接了我的计算机视觉和推荐系统经验。

📌 挑战:视频推荐具有挑战性,因为我们不知道什么让视频对用户来说很有趣。视频编码器会生成关于“某人在屋顶上跳舞”的特征,但它们无法感知使视频如此酷的原因,例如文化背景(舞蹈模仿了 1990 年代超级英雄的陈词滥调)。

🧠 我们的解决方案:我们使用多模态大型语言模型(MLLM)来创建视频、角色等的丰富描述。然后,我们将所有内容通过轻量级的文本编码器集成到标准的推荐模型中。

✅ 关键收获:

  • 像素显示屏幕上发生的事情

  • 标题反映了上传者希望吸引点击的内容

  • 但 MLLM 生成的文本捕捉了观众可能关心原因

  • 性能提升高达 60%。

ZhuoranZhuoran

你好 Marco,

ZhuoranZhuoran

请问我可以在哪里找到论文中提到的提示词?

Marco De NadaiMarco De Nadai
论文作者
论文提交者

哦,我忘了上传它们!周一我来传。抱歉