⏶6
熵正则化激活:通过激活作为熵约束,增强连续控制、大语言模型和图像分类
发表
由
Chonghua Liao 提交
作者:
Zilin Kang,
Chonghua Liao,
Tingqiang Xu, Huazhe Xu

摘要
AI 生成总结
ERA 是一种使用特制激活的新范式,以最小的计算开销提高了 LLM、强化学习和图像分类的性能。我们提出了 **ERA**,这是一个通过将**特殊设计的激活**应用于模型输出来约束给定阈值之上的**采样熵**的新范式。我们的方法在不同领域展现出广泛的有效性:1) 对于**大型语言模型 (LLM)**,将 Qwen2.5-Math-7B 的 AIME 2025 分数**提高了 37.4%**;2) 对于**连续控制强化学习智能体**,在具有挑战性的 HumanoidBench 上性能**提高了 30% 以上**,优于 SAC 等强大基线;3) 对于**图像分类**,将 ResNet-50 的 ImageNet Top-1 准确率**提高了 0.69%**。这些增益是在**不到 7% 的计算开销**下实现的。我们的工作验证了输出激活作为一种强大的熵控制工具,为设计更简单、更健壮的算法开辟了新的方向。
🚀 隆重推出 ERA:熵正则化激活!
一种通过输出激活控制模型熵的新范例。
在以下方面实现了重大的性能提升:
🤖 LLM 推理
🤸 连续控制
🖼️ 图像分类
🤖对于 LLM,ERA 将 Qwen2.5-Math-7B 的 AIME 2025 分数提高了 37.4%!它减轻了熵崩溃,提高了不同 pass@k 级别的探索和推理能力。
🤸在连续控制 RL 中,ERA 在各种基准上提高了 SAC、TD-MPC2 和 PPO 的性能。
🖼️ 对于图像分类,ERA 将 ResNet-50 的 ImageNet top-1 准确率提高了 0.69%。
最好的部分是什么? ERA 是:
🔌 即插即用:可能适用于广泛的算法。
✍️ 经证明有效:熵界限得到理论分析支持。