摘要

本发明公开了一种基于百科知识库和词向量的中文地名语义消歧方法,包括:预训练词向量模型的生成;基于Bi-LSTM与CRF集成的地名识别模型的生成;待消歧地名所在文本中地名识别和词向量表示;歧义地名义项名及其义项内容获取;歧义地名义项内容中的地名识别和词向量表示;歧义地名所在文本中的地名列表词向量与歧义地名义项内容中的地名列表词向量进行相似度计算;歧义地名的义项频率统计;歧义地名最可能指代的地理位置的综合评估。本发明能够有效解决位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题,适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况,满足智能化位置服务、全息位置地图等的迫切需求。