摘要
近年来,随着变压器编码解码器架构的优化以及越来越大规模的无监督文本数据训练,GPT2等预训练语言模型的能力越来越强大,已逐渐在自然语言处理各领域里大显身手。使用预训练语言模型并通过自回归预测下一Token的方式即可连续生成文本,其所生成的语句在通顺性和多样性上表现较好。但其预测下一Token的方式本质上只是在已知上文所确定的概率分布下的较大概率采样,若不加一定控制,生成文本很容易陷入循环重复,甚至出现前后矛盾、事实错误等"幻觉"现象。笔者在解码算法中使用了一种抑制特定Token采样概率的方法并取得了不错的效果,在给定开头句进行开放式文本续写的任务上可以生成出更高质量、更通顺且语句更长的文本段落。该方法适用于各种生成式预训练语言模型,不需要额外训练或精调,仅针对性地配置一些抑制Token集合,便可有效提高文本续写的质量,是一种实现简单且计算成本较低的实用方法,已成功应用于笔者参与的多个项目。