⏶3
采用自适应加权拒绝采样的来自语言模型的快速可控生成
04月07日发表
04月10日由
Ben Lipkin 提交

作者:
Benjamin Lipkin,
Benjamin LeBrun, Jacob Hoover Vigly,
João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka,
Timothy J. O'Donnell,
Alexander K. Lew, Tim Vieira


摘要
从语言模型生成并受限于某些约束的主流方法是局部约束解码 (LCD),即在每个时间步逐步采样 token,从而永远不会违反约束。通常,这是通过 token 掩码实现的:循环遍历词汇表并排除不符合要求的 token。这种方法存在两个重要的问题。(i) 在每个 token 上评估约束的成本可能非常高——LM 词汇表通常超过 100,000 个 token。(ii) LCD 可能会扭曲字符串的全局分布,仅根据局部信息采样 token,即使它们会导致死胡同。这项工作引入了一种新算法,可以解决这两个问题。首先,为了避免在生成的每个步骤中评估完整词汇表上的约束,我们提出了一种自适应拒绝采样算法,该算法通常需要比约束评估少几个数量级。其次,我们展示了如何扩展该算法以产生低方差、无偏的重要性权重估计,而只需付出很小的额外成本——这些估计可以可靠地用于先前提出的顺序蒙特卡洛算法中,以纠正局部约束执行的短视行为。通过在文本到 SQL、分子合成、目标推断、模式匹配和 JSON 领域进行广泛的实证评估,我们表明我们的方法优于最先进的基线,支持更广泛的约束类别,并提高了运行时和性能。额外的理论和实证分析表明,我们方法的运行时效率是由其计算的动态使用驱动的,随着非约束 LM 和约束 LM 之间的差异而扩展,因此,对于更好的模型,运行时改进更大。
一种新的受控生成方法,它快速、灵活且概率可靠。
AWRS SMC 优于最先进的基线,支持更广泛的约束类别,并提高了运行时和性能。
通过根据难度自适应缩放,运行时可以为性能最佳的模型加速,同时可以为最困难的令牌采样步骤分配额外的计算资源。