⏶2
DeepTravel:用于自主旅行规划代理的端到端代理强化学习框架
发表
由
Yansong NING 提交
作者: Yansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu
摘要
AI 生成总结
DeepTravel 是一个端到端的自主旅行规划强化学习框架,它使用分层奖励系统和回复增强学习来提高性能,优于现有模型。旅行规划(TP)代理最近作为一种新兴的构建模块,通过与外部工具和资源交互来生成旅行行程,确保愉快的用户体验。尽管有其优点,现有的研究依赖于手工制作的提示和固定的代理工作流程,阻碍了更灵活和自主的 TP 代理。本文提出了 DeepTravel,一个端到端的代理强化学习框架,用于构建自主旅行规划代理,能够自主规划、执行工具并反思工具响应,以在多步推理中探索、验证和优化中间动作。为了实现这一目标,我们首先通过缓存交通、住宿和 POI 数据来构建一个强大的沙盒环境,从而在不受现实世界 API 限制(例如,不一致的输出)约束的情况下促进 TP 代理的训练。此外,我们开发了一个分层奖励建模系统,其中轨迹级别的验证器首先检查时空可行性并过滤掉不符合要求的旅行行程,然后回合级别的验证器进一步验证行程细节与工具响应的一致性,从而实现高效且精确的奖励服务。最后,我们提出了回复增强强化学习方法,该方法使 TP 代理能够周期性地从失败经验缓冲区中重放,从而涌现出显著的代理能力。我们在滴滴企业解决方案 App 上部署了训练好的 TP 代理,并进行了全面的在线和离线评估,证明 DeepTravel 能够使小型 LLM(例如,Qwen3 32B)在旅行规划任务上显著优于 OpenAI o1、o3 和 DeepSeek R1 等现有的前沿 LLM。
评论
论文提交者
此评论已隐藏。