摘要

针对当前基于深度学习模型中文分词算法中存在的语义理解不全和词位信息不足的问题,提出了基于双向长短期记忆(Bi-LSTM)神经网络模型的六词位标注集中文分词方法。首先,利用双向长短期记忆神经网络模型自动发现文本特征;然后,通过六词位标注集从文本深层语义上高效准确完成中文分词任务;最后,通过第二国际汉语分词评测(SIGHAN)提供的Backoff2005语料集进行实验验证,在相同实验条件下,该方法与条件随机场(CRF)方法、单向长短期记忆神经网络方法、双向长短期记忆神经网络四词位方法进行比较,分别可以提高分词准确率3%、4%、1%,从而证明该中文分词方法是合理和有效的。