⏶39
当标点符号至关重要时:LLM 提示鲁棒性方法的大规模比较
发表
由
Mikhail Seleznyov 提交

作者:
Mikhail Seleznyov, Mikhail Chaichuk,
Gleb Ershov,
Alexander Panchenko, Elena Tutubalina, Oleg Somov



摘要
大型语言模型(LLM)对提示措辞和格式中细微的非语义变动高度敏感。在这项工作中,我们首次在一个统一的实验框架内,系统性地评估了5种提高提示鲁棒性的方法。我们使用Llama、Qwen和Gemma系列中的8个模型,在自然指令数据集的52项任务上对这些技术进行了基准测试。我们的评估涵盖了来自微调和上下文学习范式的鲁棒性方法,并测试了它们对多种类型分布变化的泛化能力。最后,我们将分析扩展到GPT-4.1和DeepSeek V3,以评估前沿模型目前对格式扰动的鲁棒性。我们的发现为这些鲁棒性方法的相对有效性提供了可操作的见解,使从业者在实际应用中旨在实现稳定可靠的LLM性能时,能够做出明智的决策。代码:https://github.com/AIRI-Institute/when-punctuation-matters。
我们希望为大型语言模型(LLM)的鲁棒性增强方法的系统开发和评估奠定基础。
很想听听您的反馈!