一次性熵最小化

发表
zitian gaozitian gao 提交
作者: zitian gaoZitian Gao, Lynx Chen, Joey Zhou, Bryan Dai

摘要

我们训练了 13,440 个大型语言模型,发现熵最小化仅需要一个未标注数据和 10 步优化,即可实现与使用数千个数据和精心设计的基于规则的强化学习奖励所获得的性能提升相当甚至更大的改进。这一惊人的结果可能促使人们重新思考大型语言模型的后训练范式。我们的代码可在 https://github.com/zitian-gao/one-shot-em 获取。
查看 arXiv 页面查看 PDF

评论

zitian gaozitian gao
论文作者
论文提交者

我们训练了 13,440 个大型语言模型,发现熵最小化仅需要单个未标注数据和 10 步优化,即可获得与在基于规则的强化学习中使用数千个数据和精心设计的奖励所获得的性能提升相当甚至更高的改进。这一引人注目的结果可能会促使人们重新思考大型语言模型的后训练范式。我们的代码可在以下链接获取:https://github.com/zitian-gao/one-shot-em。