每日论文

使用一个训练样本对大型语言模型进行推理的强化学习

使用一个训练样本对大型语言模型进行推理的强化学习

排行榜错觉

UniversalRAG：跨越多种模态和粒度的多个语料库上的检索增强生成

UniversalRAG：跨越多种模态和粒度的多个语料库上的检索增强生成

ReasonIR: 训练用于推理任务的检索器

ReasonIR: 训练用于推理任务的检索器

迈向评估性思维：伴随演化奖励模型的元策略优化

迈向评估性思维：伴随演化奖励模型的元策略优化

TesserAct: 学习 4D 具身世界模型

TesserAct: 学习 4D 具身世界模型

上下文编辑：利用大规模扩散Transformer中的上下文生成实现指令式图像编辑

上下文编辑：利用大规模扩散Transformer中的上下文生成实现指令式图像编辑

经认证的减轻最坏情况下的LLM版权侵权

经认证的减轻最坏情况下的LLM版权侵权

YoChameleon: 个性化视觉与语言生成

YoChameleon: 个性化视觉与语言生成

X-Fusion: 引入新模态到冻结的大型语言模型

X-Fusion: 引入新模态到冻结的大型语言模型

RAGEN：通过多轮强化学习理解大型语言模型智能体中的自我演化

RAGEN：通过多轮强化学习理解大型语言模型智能体中的自我演化

ISDrama：通过多模态提示生成沉浸式空间戏剧

ISDrama：通过多模态提示生成沉浸式空间戏剧

TreeHop：高效地生成和过滤下一个查询嵌入，用于多跳问答

TreeHop：高效地生成和过滤下一个查询嵌入，用于多跳问答

利用贝叶斯优化学习可解释的密集奖励形状

利用贝叶斯优化学习可解释的密集奖励形状

解耦身份，协同情感：关联感知的情感口播肖像生成

解耦身份，协同情感：关联感知的情感口播肖像生成

LawFlow : 收集与模拟律师的思维过程

LawFlow : 收集与模拟律师的思维过程

防御性思维链：结构化推理增强大型语言模型抵御参考污染的鲁棒性

防御性思维链：结构化推理增强大型语言模型抵御参考污染的鲁棒性

基于视觉-语言模型的三维目标检测综述

基于视觉-语言模型的三维目标检测综述

CaRL: 使用简单的奖励学习可扩展的规划策略

CaRL: 使用简单的奖励学习可扩展的规划策略