摘要
循环神经网络作为一种处理时序数据的有效模型,已在序列标注问题上得到了广泛应用。为解决序列标注中典型的中文分词任务,基于门限循环单元(Gated Recurrent Unit,GRU)神经网络,提出了一种改进的双向门限循环单元条件随机场(BI-GRU-CRF)模型,该模型不仅可以通过双向门限循环单元有效利用双向上下文信息,而且可以通过条件随机场层联合考虑相邻标签间的相关性,得到全局最优的标记序列结果。在常用的中文分词测评集(PKU、MSRA)以及由构建的军事领域分词语料上,分别采用四词位及六词位标注法进行了实验,结果表明BI-GRU-CRF模型具有良好的分词性能,且六词位标注法可以改进分词效果。
-
单位中国人民解放军陆军工程大学