⏶1

超越“一个世界”：跨越多元宇宙背景的角色扮演超级英雄的基准测试

10月16日发表

10月17日由 kun kerdthaisong 提交

作者: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot

摘要

AI 生成总结

Beyond One World 基准通过事实回忆和道德推理任务评估 LLM 在不同领域中持续描绘版本特定超级英雄的能力。

大型语言模型（LLM）越来越多地被用作角色扮演智能体，但它们忠实且一致地描绘特定版本角色的能力——例如，漫画和电影宇宙中的超级英雄——仍未得到充分探索。漫威和 DC 等超级英雄经典作品提供了一个丰富的测试平台：数十年的叙事为同一角色产生了多个化身，这些化身具有不同的历史、价值观和道德准则。为了研究这个问题，我们推出了“超越一个世界”（Beyond One World），这是一个跨越 30 位标志性英雄和 90 个特定经典版本的角色基础角色扮演基准。该基准包含两个任务：（i）经典事件，探测关键生命阶段的事实回忆；（ii）道德困境，让模型面对道德充电的场景。我们在一个将内部审议（“思考”）与外部决策（“行动”）分离的框架下，对响应进行经典准确性和推理保真度评分。我们进一步提出“思考-行动匹配”（Think-Act Matching），这是一种量化原因与行动之间一致性的指标，作为模型可信度的代理。跨推理和非推理导向模型的实验产生了三个发现：（1）链式思维提示可提高较弱模型的叙事连贯性，但可能降低较强模型的经典准确性；（2）角色内的跨版本泛化仍然是一个主要障碍；（3）模型通常擅长“思考”或“行动”，但很少两者兼顾。“超越一个世界”暴露了多重宇宙一致性和推理对齐方面的关键差距，为角色扮演 LLM 提供了一个具有挑战性的评估。

查看 arXiv 页面查看 PDF

kun kerdthaisong

论文作者

论文提交者

添加论文

超越“一个世界”：跨越多元宇宙背景的角色扮演超级英雄的基准测试

摘要

评论