摘要

本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中隐含表达的信息重构出来.本文的主要贡献是两个方面,第一方面是使用统计方法评估BERT模型的表示能力;第二方面是利用BERT模型来处理中文句子分词的歧义模糊困难问题.在第一方面:我们的发现:一是BERT模型的表示能力的确很充足,即使是针对数十万的文本数据,也可以获得较好的向量表示效果,这说明了BERT模型已经预留了充足的表示向量空间来包含各种复杂的语言结构,我们发现BERT模型的不同层深度的表示向量表示了语言知识的不同层次信息,其中第1层表示了单字和单词的信息,而深度越深,表示向量则越接近表示文本的整体语言知识(从中文的词组,再到句子段落,直到文档以及文档之间的主题语言信息);二是发现语义相近的句子在BERT向量空间也是处于相近的空间领域,这说明整个BERT向量表示空间是自适应地将相似的语言组织安排在相近的子空间中.在第二方面,我们巧妙地利用了这个BERT模型的MASK机制,该机制允许模型的输入句子中将部分的词随意隐藏掉,但模型依然能够自适应地预测被隐藏部分的表示向量,通过比较正确分词以及错误分词masked后的句子表示向量,我们能够正确地识别出来哪一种分词方法是正确的,平均准确率达到66.875%.