摘要

本发明属于数据清洗、数据集成应用技术领域,公开了一种考虑文本语义信息的实体识别方法及系统,对于待识别记录集合A与B,所述实体识别方法包括:数据读取与预处理;创建关于数据集的倒排索引;加载SBERT模型;计算数据集中词语的IDF值;生成待匹配记录对;计算记录相似性;处理与返回识别结果。本发明基于倒排索引与SBERT模型,通过倒排索引与计算数据源中单词的IDF值快速生成待匹配记录对,提高了识别效率;通过SBERT模型充分提取文本记录中的语义信息,利用余弦相似度计算记录间的相似性,提高识别准确性,由此达到高效准确的实体识别效果;相较于传统实体识别方法,本方法在论文数据集上实体识别结果的查全率提升了20%左右,查准率提升10%左右。