摘要

随着文本生成算法的快速发展,生成语句通顺、逻辑性强的新闻已经成为可能。但是人类检测机器生成新闻的能力是有限的,因此本文提出了RoBerta-BiLstm-Attention的检测框架,以实现机器生成新闻的自动检测。首先使用RoBerta的词嵌入表示新闻文本,RoBerta能很好的捕捉新闻的语义信息,提高词嵌入关联上下文的质量。然后将新闻的嵌入表示输入到BiLstm-Attention神经网络中。通过微调GPT2构建的机器生成新闻数据集进行了实验测试。实验表明本文提出的方法在检测解码策略是核采样和序列长度为125的机器生成新闻时,相比于目前最好的方法 F1值和准确率都提升了近2%,召回率提升了5.56%。在检测解码策略是topK和序列长度为125的机器生成新闻时,无论是准确率和F1值都比目前最好的方法提高了4%左右。