摘要
传统机器学习分词方法大都依赖人工设计的特征工程,需要大量的工作来验证这些特征的有效性,显然工作效率比较低。基于神经网络的深度学习算法逐渐兴起之后,使得自动学习文本特征成为一种可能。基于长短时记忆神经网络(LSTM)与条件随机场模型(CRF)相结合的中文自动分词模型是本文主要阐述内容。首先,利用工具Word2Vec从未标记的语料库中训练出字嵌入向量;其次,将上一步训练得到的字向量输入到LSTM并计算出其上下文表示向量;最后,再将第二步得到的上下文表示向量作为特征应用到CRF判别模型层中进行有监督的中文分词。
- 单位