摘要
采用位置编码的Transformer语言模型,超越前代循环神经网络(RNN)语言模型,在各项语言任务中均表现优异,表明该系列模型通过对语料的学习获得了文本数据中的语言规律。相较于前代RNN语言模型,Transformer模型加入的线性位置编码机制,为模型充分利用语言数据中的涌现规律提供了新的路径。然而,语言规律表征形式的差异以及语言学传统研究中对词的线性位置研究的忽视,使得研究者未能关注到这一浅层特征中蕴含的规律。本文通过探索六种印欧语中功能词的线性位置分布,揭示了其中的规律性和高度可预测的分布模式,即功能词线性位置分布的句长稳定性、历时稳定性以及跨语言近义词线性位置分布的相似性,并探讨了这些规律的语言学意义。同时,本文通过对基于Transformer的神经网络语言模型注意力矩阵的研究,发现语言模型能够充分利用位置编码提供的位置信息,即掌握了线性位置分布中潜在的语言规律。研究也揭示了线性位置分布对于语言规律表征的价值。
-
单位浙江大学; 北京语言大学