⏶145

开放式生成的逆向工程推理

09月07日发表

09月09日由 taesiri 提交

作者: Haozhe Wang, Haoran Que, XuQixin Qixin Xu, minghao Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin

摘要

AI 生成总结

REER 是一种深度推理的新范式，它利用逆向工程来发现循序渐进的推理过程，使模型能够在开放式任务中表现出竞争力。

虽然“深度推理”范式已经在数学等可验证的领域取得了重大进展，但其在开放式、创造性生成方面的应用仍然是一个严峻的挑战。用于注入推理的两种主要方法——强化学习（RL）和指令蒸馏——在该领域都步履维艰；RL 在缺乏明确的奖励信号和高质量奖励模型的情况下举步维艰，而蒸馏则成本高昂且受限于教师模型的性能。为了克服这些限制，我们引入了反向工程推理（REER），这是一种从根本上改变方法的新范式。REER 不是通过反复试验或模仿“向前”构建推理过程，而是“向后”从已知良好的解决方案计算发现可能产生这些解决方案的潜在、逐步的深度推理过程。使用这种可扩展、无梯度的方法，我们策划并开源了 DeepWriting-20K，这是一个包含 20,000 个开放式任务深度推理轨迹的大规模数据集。我们的模型 DeepWriter-8B 在该数据上进行训练，不仅超越了强大的开源基线，而且在性能上可以与 GPT-4o 和 Claude 3.5 等领先的专有模型相媲美，有时甚至更胜一筹。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

该论文分析了逆向工程的推理过程，以理解和改进大型语言模型中的开放式生成。

Rosswill

终于有 LLM 的写作内容了？

Yury Panikov

谢谢！

Grant Singleton

arXiv 论文解读 👉 https://arxivexplained.com/papers/reverse-engineered-reasoning-for-open-ended-generation

开放式生成的逆向工程推理

摘要

评论