面向对话代理的多模态策略内化

发表
Zhenhailong WangZhenhailong Wang 提交
作者: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya

摘要

AI 生成总结
多模态策略内化(MPI)将复杂的多模态策略内化到模型参数中,增强了对话代理的策略遵从性和性能。
像ChatGPT和Alexa+这样的现代对话代理依赖于预定义的策略,这些策略规定了元数据、响应风格和工具使用规则。随着这些基于LLM的系统扩展以支持多样化的业务和用户查询,这些策略(通常以上下文内提示的形式实现)正变得越来越复杂和冗长,导致难以忠实遵守,并带来巨大的固定计算成本。随着多模态代理的兴起,控制视觉和多模态行为的策略至关重要,但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和演示,而现有的策略对齐研究仅关注基于文本的安全规则。我们引入了多模态策略内化(MPI),一项将推理密集型多模态策略内化到模型参数中的新任务,无需在推理过程中包含策略即可实现更强的策略遵循。MPI带来了独特的数据和算法挑战。我们构建了两个数据集,涵盖了合成和现实世界中的决策和工具使用任务,并提出了TriMPI,一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识,然后进行监督微调,最后应用PolicyRollout,这是一个GRPO风格的强化学习扩展,通过策略感知的响应来增强rollout,以进行接地探索。TriMPI在端到端准确性、泛化能力和抗遗忘性方面取得了显著的进步。作为多模态策略内化的第一项工作,我们提供了数据集、训练配方和全面的评估,以促进未来的研究。项目页面:https://mikewangwzhl.github.io/TriMPI
查看 arXiv 页面查看 PDF

评论

Zhenhailong WangZhenhailong Wang
论文提交者

像ChatGPT和Alexa+这样的现代对话式代理依赖于预定义的策略,这些策略规定了元数据、响应风格和工具使用规则。随着这些基于LLM的系统扩展以支持各种业务和用户查询,这些策略(通常以上下文内提示的形式实现)变得越来越复杂和冗长,导致难以忠实遵守,并带来高昂的固定计算成本。随着多模态代理的兴起,控制视觉和多模态行为的策略至关重要,但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和演示,而现有的策略对齐研究仅关注基于文本的安全规则。我们引入了多模态策略内化(MPI),这是一项将推理密集型多模态策略内化到模型参数中的新任务,使得在推理时不包含策略也能实现更强的策略遵循。MPI带来了独特的数据和算法挑战。我们构建了两个跨越合成和真实世界决策和工具使用任务的数据集,并提出了TriMPI,一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识,然后进行监督微调,最后应用PolicyRollout,这是一个GRPO风格的强化学习扩展,它通过策略感知的响应来增强rollouts,以进行有依据的探索。TriMPI在端到端准确性、泛化能力和遗忘鲁棒性方面取得了显著的提升。作为多模态策略内化的第一项工作,我们提供了数据集、训练方法和全面的评估,以促进未来的研究。项目主页:https://mikewangwzhl.github.io/TriMPI/