摘要
[目的/意义]为了进一步降低作者身份验证中训练语料的字符数和测试样本的颗粒度,满足更多情报分析工作实际应用的需要。[方法/过程]文章提出了一种基于神经网络语言模型的作者身份验证方法。该方法在用某一作者的语料训练出的语言模型,将给予该作者书写的其他语料更高概率的指导思想下提出。[结果/结论]实验结果表明,相较于传统的作者身份验证方法,文章提出的方法可以使用更少的训练语料,并且在小于传统方法一个数量级的测试样本颗粒度上,仍能获得略高于传统方法的AUC值,最终使得可有效验证的测试样本的颗粒度降到50。[局限]在跨体裁方面效果仍有待提高。
-
单位大连外国语大学