⏶145
开放式生成的逆向工程推理
发表
由
taesiri 提交

作者: Haozhe Wang, Haoran Que,
Qixin Xu,
Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang,
Ge Zhang, Fangzhen Lin

摘要
AI 生成总结
REER 是一种深度推理的新范式,它利用逆向工程来发现循序渐进的推理过程,使模型能够在开放式任务中表现出竞争力。虽然“深度推理”范式已经在数学等可验证的领域取得了重大进展,但其在开放式、创造性生成方面的应用仍然是一个严峻的挑战。用于注入推理的两种主要方法——强化学习(RL)和指令蒸馏——在该领域都步履维艰;RL 在缺乏明确的奖励信号和高质量奖励模型的情况下举步维艰,而蒸馏则成本高昂且受限于教师模型的性能。为了克服这些限制,我们引入了反向工程推理(REER),这是一种从根本上改变方法的新范式。REER 不是通过反复试验或模仿“向前”构建推理过程,而是“向后”从已知良好的解决方案计算发现可能产生这些解决方案的潜在、逐步的深度推理过程。使用这种可扩展、无梯度的方法,我们策划并开源了 DeepWriting-20K,这是一个包含 20,000 个开放式任务深度推理轨迹的大规模数据集。我们的模型 DeepWriter-8B 在该数据上进行训练,不仅超越了强大的开源基线,而且在性能上可以与 GPT-4o 和 Claude 3.5 等领先的专有模型相媲美,有时甚至更胜一筹。
评论
arXiv 论文解读 👉 https://arxivexplained.com/papers/reverse-engineered-reasoning-for-open-ended-generation
该论文分析了逆向工程的推理过程,以理解和改进大型语言模型中的开放式生成。