基于ELMo-BiLSTM-CRF模型的中文地址分词

余俊; 于文年; 彭艳兵

doi:10.14022/j.issn1674-6236.2021.20.015

摘要

为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升整体分词效率。该模型考虑到ELMo模型生成的词向量与上下文有关,BiLSTM能够有效解决输入序列的特征提取,且CRF可以通过状态转移矩阵进行训练优化。采用自建的训练样本集对模型进行训练时,分别运用了ELMoBiLSTM-CRF、BiLSTM-CRF以及BiLSTM,并进行对比。结果表明,ELMo-BiLSTM-CRF模型的分词效果更佳,具有更高的准确率。

单位
武汉邮电科学研究院

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-17 14:22

基于ELMo-BiLSTM-CRF模型的中文地址分词

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友