摘要
为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升整体分词效率。该模型考虑到ELMo模型生成的词向量与上下文有关,BiLSTM能够有效解决输入序列的特征提取,且CRF可以通过状态转移矩阵进行训练优化。采用自建的训练样本集对模型进行训练时,分别运用了ELMoBiLSTM-CRF、BiLSTM-CRF以及BiLSTM,并进行对比。结果表明,ELMo-BiLSTM-CRF模型的分词效果更佳,具有更高的准确率。
-
单位武汉邮电科学研究院