有感知能力的智能体作为评判者:评估大型语言模型中的高阶社会认知能力

发表
Ruotian MaRuotian Ma 提交
作者: Bang Zhang, Ruotian MaRuotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng TuZhaopeng Tu, Xiaolong Li

摘要

评估大型语言模型(LLM)理解人类(而非仅仅文本)的能力,仍然是一个悬而未决的挑战。为了弥合这一差距,我们引入了 Sentient Agent as a Judge (SAGE),这是一个自动化评估框架,用于衡量 LLM 的高阶社会认知能力。SAGE 实例化了一个 Sentient Agent,它在交互过程中模拟类人的情绪变化和内心想法,为在多轮对话中测试模型提供了更真实的评估。在每一轮中,该 Agent 会推理 (i) 它的情绪如何变化,(ii) 它的感受如何,以及 (iii) 它应该如何回复,从而产生一个数值化的情绪轨迹和可解释的内心想法。在 100 个支持性对话场景上的实验表明,最终的 Sentient 情绪得分与 Barrett-Lennard 关系量表(BLRI)评分和话语层面的同情度指标高度相关,验证了其心理学真实性。我们还建立了一个公共的 Sentient 排行榜,涵盖了 18 个商业和开源模型,揭示了前沿系统(如 GPT-4o-Latest、Gemini2.5-Pro)与早期基线模型之间存在巨大差距(高达 4 倍),这些差距并未体现在传统的排行榜(如 Arena)中。因此,SAGE 提供了一个原则性、可扩展且可解释的工具,用于追踪通往真正具有同情心和社会适应能力的语言代理的进展。
查看 arXiv 页面查看 PDF

评论

Ruotian MaRuotian Ma
论文作者
论文提交者

今天的LLM能否真正理解你,而不仅仅是你的文字?🤖❤️

隆重推出 SAGE:情感智能体判官(Sentient Agent as a Judge)—— 首个利用情感智能体来模拟人类情感动态和内在推理、用于评估LLM对话中社交认知能力的评估框架。

🧠 我们提出一个自动化“情感智能体在环”框架,用于压力测试LLM理解情感、推断隐藏意图并以真诚同理心回应的能力。

🤝 在100个支持性对话场景中,情感智能体的情感得分与以人为中心的评估指标(BLRI: r = 0.82;同理心指标: r = 0.79)高度一致,证实了心理学有效性。

📈 情感智能体排行榜揭示了与传统排行榜(如Arena)相比显著的排名差异,表明排名靠前的“乐于助人”模型并非总是最擅长社交的。

🏆 高级社交推理不需要冗长的表达——最擅长社交的LLM竟然以惊人的高效token使用实现了同理心!

让我们构建不只是会说话,而是真正能连接情感的AI!🌟 快来了解吧!

Ruotian MaRuotian Ma
论文作者
论文提交者

image.png

Ruotian MaRuotian Ma
论文作者
论文提交者

查看我们的代码:https://github.com/Tencent/digitalhuman/tree/main/SAGE!