TextArena

04月15日发表
04月16日由 Bo LiuBo Liu 提交
作者: Leon GuertlerLeon Guertler, Bobby ChengBobby Cheng, Simon YuSimon Yu, Bo LiuBo Liu, Leshem Choshen, Cheston Tan

摘要

TextArena 是一个开源的竞争性文本游戏集合,用于训练和评估大型语言模型 (LLM) 中的代理行为。它涵盖 57 多个独特的环境(包括单人、双人和多人设置),并允许通过在线游戏系统(与人类和其他提交的模型对抗)轻松评估模型能力,并提供实时的 TrueSkill 分数。传统的基准很少评估动态社交技能,例如谈判、心智理论和欺骗,TextArena 弥补了这一差距。TextArena 的设计考虑了研究、社区和可扩展性,强调易于添加新游戏、调整框架、测试模型、与模型对战以及训练模型。有关环境、游戏、排行榜和示例的详细文档可在 https://github.com/LeonGuertler/TextArenahttps://www.textarena.ai/ 上找到。

评论

Leon GuertlerLeon Guertler
论文作者

您可以在这里试用这些模型: https://www.textarena.ai/

代码: https://github.com/LeonGuertler/TextArena

Bo LiuBo Liu
论文作者
论文提交者

您可以在这里试用这些模型: https://www.textarena.ai/

排行榜: https://www.textarena.ai/leaderboard

代码: https://github.com/LeonGuertler/TextArena