当今的大型语言模型准备好解释幸福概念了吗?

发表
Bohan JiangBohan Jiang 提交
作者: Bohan Jiang, Bill AvanDawei Li, Zhen Tan, Chengshuai ZhaoChengshuai Zhao, Huan Liu

摘要

幸福感包含心理、生理和社会维度,对个人成长和明智的生活决策至关重要。随着个人越来越多地咨询大型语言模型 (LLM) 以了解幸福感,一个关键挑战出现了:LLM 能否生成不仅准确而且针对不同受众量身定制的解释?高质量的解释既需要事实的正确性,也需要满足具有不同专业知识的用户期望的能力。在这项工作中,我们构建了一个大规模数据集,包含由十个不同的 LLM 生成的 2,194 个幸福感概念的 43,880 个解释。我们引入了一个原则引导的 LLM-as-a-judge 评估框架,采用双重评判来评估解释质量。此外,我们表明,使用监督微调 (SFT) 和直接偏好优化 (DPO) 对开源 LLM 进行微调可以显著提高生成的解释质量。我们的结果揭示:(1)所提出的 LLM 评判与人类评估高度一致;(2)解释质量在模型、受众和类别之间存在显著差异;(3)DPO 和 SFT 微调模型优于其更大的对应模型,证明了基于偏好学习在专业解释任务中的有效性。
查看 arXiv 页面查看 PDF

评论

Bohan JiangBohan Jiang
论文提交者

随着人们越来越多地转向大型语言模型(LLM)寻求心理、身体和社会福祉方面的指导,我们不禁要问:这些模型能否针对不同的受众准确、适当地解释福祉概念?

我们做了什么:

  1. 构建了第一个大规模数据集,包含来自10个不同LLM的43,880个解释,涉及2,194个福祉概念。

  2. 设计了一个以原则为指导的“LLM即评委”框架,其中包含针对特定受众的评估标准。

  3. 使用监督微调(SFT)和直接偏好优化(DPO)对一个开源模型进行微调,以提高解释质量。

主要发现:

  1. 大型模型通常表现更好,但在专业任务中,经过微调的小型模型可以达到或超越它们。

  2. 对于公众解释,LLM比对于领域专家更可靠。

  3. 所有模型在实用建议(Utility)和分析深度(Depth)方面都存在共同的弱点。

overview.png

PEILIN XIONGPEILIN XIONG

评估方法与我的日常使用非常一致。未来有没有计划评测Gemini Pro和最新的GPT5?我很期待。

Bohan JiangBohan Jiang
论文提交者

您好,培林,

感谢您的关注。我们计划未来纳入更多大型语言模型(LLM)生成的概念解释。此外,还将涵盖更多类型的目标受众(例如,K12 学生)。如果您想进一步讨论,请随时联系我们。

Chengshuai ZhaoChengshuai Zhao
论文作者

做得好!