⏶3
StyleBench: 评估大型语言模型中的思维风格
发表
由
taesiri 提交

作者: Junyu Guo,
Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
摘要
AI 生成总结
StyleBench 评估了各种推理风格在不同任务和模型上的表现,揭示了策略的有效性取决于模型规模和任务类型。大型语言模型(LLM)的有效性在很大程度上受到提示中使用的推理策略或思维风格的影响。然而,这些推理风格、模型架构和任务类型之间的相互作用仍然知之甚少。为了解决这个问题,我们引入了 StyleBench,这是一个全面的基准测试,用于系统地评估各种任务和模型中的推理风格。我们评估了五种代表性的推理风格,包括思维链(CoT)、思维树(ToT)、思维算法(AoT)、思维草图(SoT)和草稿链(CoD),并在五种推理任务上,使用了来自主要家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi 和 DeepSeek)的 15 个开源模型,参数量从 270M 到 120B 不等。我们的大规模分析显示,没有一种单一风格是普遍最优的。我们证明了策略的有效性高度依赖于模型规模和任务类型:基于搜索的方法(AoT、ToT)在开放式问题中表现出色,但需要大规模模型,而在定义明确的任务上,简洁的风格(SoT、CoD)可以实现激进的效率提升。此外,我们还识别了关键的行为模式:小型模型经常无法遵循输出指令并默认猜测,而推理鲁棒性则作为规模的函数出现。我们的发现为根据特定约束选择最优推理策略提供了关键路线图,我们在 https://github.com/JamesJunyuGuo/Style_Bench 上开源了该基准测试。
大型语言模型 (LLMs) 的有效性在很大程度上受到其提示中使用的推理策略或思维方式的影响。然而,这些推理风格、模型架构和任务类型之间的相互作用仍然知之甚少。为了解决这个问题,我们引入了 StyleBench,这是一个用于系统评估不同任务和模型推理风格的综合基准。我们在 15 个来自主要家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi 和 DeepSeek)的开源模型上,对五种代表性的推理风格(包括思维链 (CoT)、思维树 (ToT)、思维算法 (AoT)、思维草图 (SoT) 和草稿链 (CoD))进行了评估,模型的参数范围从 270M 到 120B。我们的大规模分析显示,没有一种风格是普遍最优的。我们证明了策略的有效性高度依赖于模型规模和任务类型:基于搜索的方法(AoT、ToT)在开放式问题上表现出色,但需要大规模模型,而简洁的风格(SoT、CoD)在明确定义的问题上实现了根本性的效率提升。此外,我们确定了关键的行为模式:较小的模型经常无法遵循输出指令并默认为猜测,而推理鲁棒性则作为规模的函数而出现。我们的发现为根据特定约束选择最优推理策略提供了一个关键的路线图。