摘要
针对中文分词、词性标注等序列标注任务,本文提出了结合BERT语言模型、BiLSTM(双向长短时记忆模型)、CRF(条件随机场模型)和马尔可夫族模型(MFM)或树形概率(TLP)构建的中文分词和词性标注联合方法.隐马尔可夫(HMM)词性标注方法忽略了词本身到词性的发射概率,而在利用树形概率或马尔可夫族统计模型的词性标记中,一个词的词性不仅和该词前一个词的词性关联,且与该词自身关联.使用联合方法有助于使用词性信息帮助分词,将两者紧密结合能够帮助消除歧义和改进分词、词性标记的性能.实验结果表明本文使用的中文分词和词性标注联合方法与普通的BiLSTM-CRF分词算法相比,可以明显提升分词性能,而且相比于通常的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率.
- 单位