开放式生成的逆向工程推理

发表
taesiritaesiri 提交
作者: Haozhe Wang, Haoran Que, XuQixinQixin Xu, minghaoMinghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge ZhangGe Zhang, Fangzhen Lin

摘要

AI 生成总结
REER 是一种深度推理的新范式,它利用逆向工程来发现循序渐进的推理过程,使模型能够在开放式任务中表现出竞争力。
虽然“深度推理”范式已经在数学等可验证的领域取得了重大进展,但其在开放式、创造性生成方面的应用仍然是一个严峻的挑战。用于注入推理的两种主要方法——强化学习(RL)和指令蒸馏——在该领域都步履维艰;RL 在缺乏明确的奖励信号和高质量奖励模型的情况下举步维艰,而蒸馏则成本高昂且受限于教师模型的性能。为了克服这些限制,我们引入了反向工程推理(REER),这是一种从根本上改变方法的新范式。REER 不是通过反复试验或模仿“向前”构建推理过程,而是“向后”从已知良好的解决方案计算发现可能产生这些解决方案的潜在、逐步的深度推理过程。使用这种可扩展、无梯度的方法,我们策划并开源了 DeepWriting-20K,这是一个包含 20,000 个开放式任务深度推理轨迹的大规模数据集。我们的模型 DeepWriter-8B 在该数据上进行训练,不仅超越了强大的开源基线,而且在性能上可以与 GPT-4o 和 Claude 3.5 等领先的专有模型相媲美,有时甚至更胜一筹。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

该论文分析了逆向工程的推理过程,以理解和改进大型语言模型中的开放式生成。

RosswillRosswill

终于有 LLM 的写作内容了?

Yury PanikovYury Panikov

谢谢!