摘要
获取大量电力领域文本数据后,由于网元链路业务命名规则不统一、业务人员表述差异等问题,会造成数据存在歧义、指代不明确等现象。为解决上述问题,提出一种基于深度序列匹配网络(Deep Sequential Matching Network, DSMN)的短文本实体链接算法,综合考虑实体指代项和候选实体间的内容和结构相似性,针对多源异构知识库实现高质量的消歧,支撑有效开展面向电力通信管理台帐以及网管数据的清洗校核工作。DSMN从多粒度对词进行全方位向量化表示,将实体指代项和句子中的每个词进行序列匹配,分别将候选实体与上层匹配结果进行序列匹配,通过卷积池化层提炼重要的匹配信息,通过动态平均算法计算实体指代项和候选实体之间的相似度。实验结果表明,DSMN在多个数据集上都展示了优异的实体链接能力。
-
单位中国电力科学研究院有限公司