Trinity-RFT:用于大型语言模型强化微调的通用统一框架

发表
Yanxi ChenYanxi Chen 提交
作者: Xuchen Pan, Yanxi ChenYanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou

摘要

Trinity-RFT 是一个通用、灵活和可扩展的框架,专为大型语言模型的强化微调(RFT)而设计。它采用解耦设计,包含:(1) 一个统一和泛化同步/异步、在线/离线、以及 on-policy/off-policy RFT 模式的 RFT 核心;(2) 与智能体-环境交互的无缝集成,具有高效率和鲁棒性;以及 (3) 为 RFT 优化的系统化数据管道。Trinity-RFT 可以轻松适用于各种应用场景,并作为一个统一平台用于探索先进的强化学习范式。本技术报告概述了 Trinity-RFT 的愿景、特性、设计和实现,并附有大量示例演示了该框架的实用性和用户友好性。
查看 arXiv 页面查看 PDF
Trinity-RFT:用于大型语言模型强化微调的通用统一框架

评论

Yanxi ChenYanxi Chen
论文作者
论文提交者

GitHub:https://github.com/modelscope/Trinity-RFT

文档:https://modelscope.github.io/Trinity-RFT

Trinity-RFT 目前正在积极开发中。欢迎提出评论、建议和贡献!