⏶27
TextArena
04月15日发表
04月16日由
Bo Liu 提交

作者:
Leon Guertler,
Bobby Cheng,
Simon Yu,
Bo Liu, Leshem Choshen, Cheston Tan




摘要
TextArena 是一个开源的竞争性文本游戏集合,用于训练和评估大型语言模型 (LLM) 中的代理行为。它涵盖 57 多个独特的环境(包括单人、双人和多人设置),并允许通过在线游戏系统(与人类和其他提交的模型对抗)轻松评估模型能力,并提供实时的 TrueSkill 分数。传统的基准很少评估动态社交技能,例如谈判、心智理论和欺骗,TextArena 弥补了这一差距。TextArena 的设计考虑了研究、社区和可扩展性,强调易于添加新游戏、调整框架、测试模型、与模型对战以及训练模型。有关环境、游戏、排行榜和示例的详细文档可在 https://github.com/LeonGuertler/TextArena 和 https://www.textarena.ai/ 上找到。
您可以在这里试用这些模型: https://www.textarena.ai/
代码: https://github.com/LeonGuertler/TextArena