AI自由职业者能竞争吗?:规模化基准测试收入、可靠性和任务成功

发表
David NoeverDavid Noever 提交
作者: David Noever, Forrest McKee

摘要

本研究探索了大型语言模型(LLM)作为现实世界任务的自主代理,包括自由职业软件开发。这项工作提出了一个新的基准测试,用于评估 LLM 在源自经济数据的自由职业编程和数据分析任务上的表现。我们利用 Kaggle Freelancer 数据集中招聘信息创建合成任务来构建此基准,所有工作价格均标准化为美元(固定项目价格中位数约为 250 美元,平均约为 306 美元)。每个任务都附带结构化的输入-输出测试用例和估算的价格标签,从而能够进行自动化正确性检查和货币性能评估。这种方法受到了 OpenAI 最近的 SWE-Lancer 基准(1,400 个真实的 Upwork 任务,总价值 100 万美元)的启发。然而,我们的框架通过使用可程序化测试的任务和预测的价格值简化了评估,使其具有高度的可扩展性和可重复性。在此基准上,我们评估了四种现代 LLM:Claude 3.5 Haiku、GPT-4o-mini、Qwen 2.5 和 Mistral。我们报告了每个模型的准确性(任务成功率和测试用例通过率)以及其获得的总“自由职业收入”(解决任务的价格总和)。我们的结果显示,Claude 3.5 Haiku 表现最佳,收入约为 152 万美元,紧随其后的是 GPT-4o-mini,约为 149 万美元,然后是 Qwen 2.5(133 万美元)和 Mistral(70 万美元)。我们分析了每个任务的错误分布,观察到最强的模型解决了最多的任务,并且很少在任何项目上完全失败。我们讨论了这些结果对于 AI 作为自由职业开发者的可行性的意义、我们自动化基准方法的优点和局限性,以及结构化任务性能与真实世界自由职业工作真正复杂性之间的差距。
查看 arXiv 页面查看 PDF

评论

David NoeverDavid Noever
论文提交者

自由职业者软件基准测试与经济记分卡对比 LLM