StockBench:LLM智能体能否在真实市场中进行盈利性的股票交易?

发表
taesiritaesiri 提交
作者: Chen YanxuYanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li

摘要

AI 生成总结
StockBench 在现实股票交易环境中评估大型语言模型,揭示了开发 LLM 驱动的金融智能体的挑战和机遇。
大型语言模型(LLM)最近在自主代理方面展现出强大的能力,在推理、工具使用和顺序决策方面显示出潜力。虽然先前的基准已在软件工程和科学发现等领域评估了 LLM 代理,但金融领域仍未得到充分探索,尽管它与经济价值和高风险决策直接相关。现有的金融基准主要通过问答测试静态知识,但它们未能捕捉交易的动态和迭代性质。为了解决这一差距,我们推出了 StockBench,这是一个无污染的基准,旨在在现实的、多月的股票交易环境中评估 LLM 代理。代理会接收每日市场信号——包括价格、基本面和新闻——并且必须做出连续的买入、卖出或持有决策。性能使用金融指标进行评估,例如累积回报、最大回撤和索提诺比率。我们对最先进的专有(例如,GPT-5、Claude-4)和开源(例如,Qwen3、Kimi-K2、GLM-4.5)模型的评估表明,虽然大多数 LLM 代理难以超越简单的买入持有基线,但一些模型显示出提供更高回报和更有效管理风险的潜力。这些发现突显了开发 LLM 驱动的金融代理所面临的挑战和机遇,表明在静态金融知识任务上的优异表现并不一定能转化为成功的交易策略。我们将 StockBench 作为一项开源资源发布,以支持可复现性并促进该领域的未来研究。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

大型语言模型 (LLM) 近期在作为自主代理方面展现出强大的能力,在推理、工具使用和顺序决策方面显示出潜力。虽然之前的基准已经评估了 LLM 代理在软件工程和科学发现等领域的表现,但金融领域仍然未得到充分探索,尽管它与经济价值和高风险决策直接相关。现有的金融基准主要通过问答测试静态知识,但它们未能捕捉交易的动态和迭代性质。为了弥合这一差距,我们引入了 StockBench,这是一个无污染的基准,旨在评估 LLM 代理在现实的、长达数月的股票交易环境中的表现。代理接收每日市场信号——包括价格、基本面和新闻——并且必须做出连续的买入、卖出或持有决策。使用累积回报、最大回撤和 Sortino 比率等财务指标来评估性能。我们对最先进的专有(例如,GPT-5、Claude-4)和开源(例如,Qwen3、Kimi-K2、GLM-4.5)模型的评估表明,虽然大多数 LLM 代理难以超越简单的买入并持有基线,但一些模型显示出提供更高回报和更有效管理风险的潜力。这些发现突显了开发 LLM 驱动的金融代理的挑战和机遇,表明在静态金融知识任务上的出色表现并不一定能转化为成功的交易策略。我们发布 StockBench 作为开源资源,以支持可重复性并推进该领域的未来研究。

Caleb FahlgrenCaleb Fahlgren

非常棒的论文!

phil d.phil d.

引人入胜!