⏶7

一次性熵最小化

05月26日发表

05月30日由 zitian gao 提交

作者: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai

摘要

我们训练了 13,440 个大型语言模型，发现熵最小化仅需要一个未标注数据和 10 步优化，即可实现与使用数千个数据和精心设计的基于规则的强化学习奖励所获得的性能提升相当甚至更大的改进。这一惊人的结果可能促使人们重新思考大型语言模型的后训练范式。我们的代码可在 https://github.com/zitian-gao/one-shot-em 获取。

查看 arXiv 页面查看 PDF

zitian gao

论文作者

论文提交者

我们训练了 13,440 个大型语言模型，发现熵最小化仅需要单个未标注数据和 10 步优化，即可获得与在基于规则的强化学习中使用数千个数据和精心设计的奖励所获得的性能提升相当甚至更高的改进。这一引人注目的结果可能会促使人们重新思考大型语言模型的后训练范式。我们的代码可在以下链接获取：https://github.com/zitian-gao/one-shot-em。

一次性熵最小化

摘要

评论