⏶26
LongEmotion:衡量大型语言模型在长上下文交互中的情商
发表
由
Hui Shen 提交

作者:
Weichu Liu,
Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu,
Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong

摘要
AI 生成总结
LongEmotion 基准使用检索增强生成和协同情绪建模,增强了大型语言模型在长上下文场景中的情绪智能。大型语言模型(LLM)在情感智能(EI)和长上下文理解方面取得了显著进展。然而,现有的基准往往忽略了长上下文场景下 EI 的某些方面,尤其是在交互时间长、多样且嘈杂的现实实际设置下。为了朝着这些实际设置迈进,我们提出了 LongEmotion,这是一个专门为长上下文 EI 任务设计的基准。它涵盖了多种任务,包括情感分类、情感检测、情感问答、情感对话、情感摘要和情感表达。平均而言,这些任务的输入长度达到 8,777 个令牌,并且情感表达需要长格式生成。为了在实际约束下提高性能,我们集成了检索增强生成(RAG)和协作情感建模(CoEM),并将其与标准的基于提示的方法进行了比较。与传统方法不同,我们的 RAG 方法利用对话上下文和大型语言模型本身作为检索源,避免了对外部知识库的依赖。CoEM 方法通过将任务分解为五个阶段,整合检索增强和有限的知识注入,进一步提高了性能。实验结果表明,RAG 和 CoEM 在大多数长上下文任务中一致地提高了 EI 相关性能,推动 LLM 向更实用、更贴近现实世界的 EI 应用发展。此外,我们对 GPT 系列模型进行了比较案例研究实验,以展示不同模型在 EI 方面的差异。代码可在 GitHub 上获取:https://github.com/LongEmotion/LongEmotion,项目页面可在 https://longemotion.github.io/ 找到。
LongEmotion 基准通过检索增强生成和协作情感建模,增强了大型语言模型在长上下文场景中的情感智能。