⏶9
Orak:用于训练和评估 LLM 代理在各种视频游戏中的基础基准
发表
由
Dongmin Park 提交
作者: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang,
Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
摘要
大型语言模型 (LLM) 代理正在重塑游戏行业,尤其是在智能和人类偏好游戏角色方面。然而,现有的游戏基准无法满足实际需求:它们缺乏对跨各种游戏类型的多样化 LLM 能力的评估,缺乏对复杂游戏玩法至关重要的代理模块的研究,以及缺乏用于将预训练 LLM 调整为游戏代理的微调数据集。为了弥补这些空白,我们推出了 \benchname{},这是一个基础性基准,旨在跨各种真实世界视频游戏训练和评估 LLM 代理。与现有基准不同,Orak 包含 12 款涵盖所有主要类型的热门视频游戏,从而能够对 LLM 能力和复杂游戏场景中必不可少的代理模块进行全面研究。为了支持对 LLM 的一致评估,我们引入了一个基于模型上下文协议 (MCP) 的即插即用接口,使 LLM 能够与游戏无缝连接并操作代理模块。此外,我们提出了一个微调数据集,其中包含跨各种游戏类型的 LLM 游戏轨迹。Orak 提供了一个全面的评估框架,包括通用游戏分数排行榜、LLM 对战竞技场,以及对视觉输入状态、代理策略和微调效果的深入分析,为构建通用游戏代理奠定了基础。代码可在 https://github.com/krafton-ai/Orak 获取。
我们推出 Orak (오락),这是一个用于训练和评估 LLM 智能体在各种真实世界视频游戏中的基础基准。
> *Orak 这个名字来源于韩语单词 오락 (orak),意为“游戏”。
GitHub: https://github.com/krafton-ai/Orak