⏶30
REFINE-AF:一个通过使用来自自动化反馈的强化学习自生成指令来对齐语言模型的任务无关框架
发表
由
Abhilash Nandy 提交
作者: Aniruddha Roy,
Pretam Ray,
Abhilash Nandy, Somak Aditya, Pawan Goyal
摘要
基于指令的大语言模型 (LLM) 已在大量少样本或零样本自然语言处理 (NLP) 任务中被证明有效。然而,创建人工标注的指令数据费时、昂贵,且数量和任务多样性往往有限。此前的研究尝试通过提出能够直接从模型本身半自动化地、与任务无关地生成指令的框架来解决这一挑战。其中许多工作依赖于大型的仅通过API访问的参数化模型,例如 GPT-3.5 (175B),这些模型价格昂贵,且受查询次数限制。本文探讨了使用半自动化框架时,LLaMA 2-7B、LLama 2-13B 和 Mistral 7B 这三个开源小型 LLM 的性能,从而减少了生成用于微调 LLM 的指令数据集所需的人工干预、精力和成本。此外,我们证明了将基于强化学习 (RL) 的训练算法融入此基于 LLM 的框架可以带来进一步的提升。我们对数据集的评估显示,与先前的方法相比,这些基于 RL 的框架在 63-66% 的任务中取得了显著的改进。
论文 - REFINE-AF:一个通过使用来自自动化反馈的强化学习生成自生指令来对齐语言模型的任务无关框架
作者 - Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
摘要 -
基于指令的大型语言模型 (LLM) 已被证明在众多少样本或零样本自然语言处理 (NLP) 任务中是有效的。然而,创建人工标注的指令数据耗时、昂贵,并且在数量和任务多样性方面通常受限。先前的研究工作试图通过提出能够直接从模型本身以半自动化和任务无关的方式生成指令的框架来解决这一挑战。其中许多工作依赖于大型的仅支持API的参数模型,例如 GPT-3.5 (175B),这些模型价格昂贵,并且受到查询次数的限制。本文探讨了使用半自动化框架的三种开源小型 LLM(例如 LLaMA 2-7B、LLama 2-13B 和 Mistral 7B)的性能,从而减少了生成用于微调 LLM 的指令数据集所需的人工干预、工作量和成本。此外,我们证明将基于强化学习 (RL) 的训练算法整合到这个基于 LLM 的框架中可以带来进一步的增强。我们对数据集的评估表明,与现有方法相比,这些基于 RL 的框架在 63-66% 的任务中取得了显著的改进。