⏶4

面向对话代理的多模态策略内化

10月10日发表

10月14日由 Zhenhailong Wang 提交

作者: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya

摘要

AI 生成总结

多模态策略内化（MPI）将复杂的多模态策略内化到模型参数中，增强了对话代理的策略遵从性和性能。

像ChatGPT和Alexa+这样的现代对话代理依赖于预定义的策略，这些策略规定了元数据、响应风格和工具使用规则。随着这些基于LLM的系统扩展以支持多样化的业务和用户查询，这些策略（通常以上下文内提示的形式实现）正变得越来越复杂和冗长，导致难以忠实遵守，并带来巨大的固定计算成本。随着多模态代理的兴起，控制视觉和多模态行为的策略至关重要，但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和演示，而现有的策略对齐研究仅关注基于文本的安全规则。我们引入了多模态策略内化（MPI），一项将推理密集型多模态策略内化到模型参数中的新任务，无需在推理过程中包含策略即可实现更强的策略遵循。MPI带来了独特的数据和算法挑战。我们构建了两个数据集，涵盖了合成和现实世界中的决策和工具使用任务，并提出了TriMPI，一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识，然后进行监督微调，最后应用PolicyRollout，这是一个GRPO风格的强化学习扩展，通过策略感知的响应来增强rollout，以进行接地探索。TriMPI在端到端准确性、泛化能力和抗遗忘性方面取得了显著的进步。作为多模态策略内化的第一项工作，我们提供了数据集、训练配方和全面的评估，以促进未来的研究。项目页面：https://mikewangwzhl.github.io/TriMPI。

查看 arXiv 页面查看 PDF

Zhenhailong Wang

论文提交者

像ChatGPT和Alexa+这样的现代对话式代理依赖于预定义的策略，这些策略规定了元数据、响应风格和工具使用规则。随着这些基于LLM的系统扩展以支持各种业务和用户查询，这些策略（通常以上下文内提示的形式实现）变得越来越复杂和冗长，导致难以忠实遵守，并带来高昂的固定计算成本。随着多模态代理的兴起，控制视觉和多模态行为的策略至关重要，但仍未得到充分研究。先前的提示压缩工作主要缩短任务模板和演示，而现有的策略对齐研究仅关注基于文本的安全规则。我们引入了多模态策略内化（MPI），这是一项将推理密集型多模态策略内化到模型参数中的新任务，使得在推理时不包含策略也能实现更强的策略遵循。MPI带来了独特的数据和算法挑战。我们构建了两个跨越合成和真实世界决策和工具使用任务的数据集，并提出了TriMPI，一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识，然后进行监督微调，最后应用PolicyRollout，这是一个GRPO风格的强化学习扩展，它通过策略感知的响应来增强rollouts，以进行有依据的探索。TriMPI在端到端准确性、泛化能力和遗忘鲁棒性方面取得了显著的提升。作为多模态策略内化的第一项工作，我们提供了数据集、训练方法和全面的评估，以促进未来的研究。项目主页：https://mikewangwzhl.github.io/TriMPI/

面向对话代理的多模态策略内化

摘要

评论