基于主题异构图嵌入的Token粒度实体解析方法

作者:初慧琳; 申德荣*; 窦文周; 聂铁铮; 寇月
来源:小型微型计算机系统, 2023, 44(07): 1398-1404.
DOI:10.20009/j.cnki.21-1106/TP.2021-0832

摘要

实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中token误放的情形,也不能有效利用跨属性中tokens的语义和结构信息,影响实体识别准确性.本文提出了一种采用主题异构图嵌入的token粒度的实体解析方法(THGE-ER).在token、属性和记录基础上,利用LDA模型为实体记录添加一个主题层级,并构建了一个由token、属性、记录和主题4类节点组成的主题异构图;采用区分节点类型的异构图嵌入表示方法,并将节点间的语义和结构信息嵌入到token层级的嵌入向量中;进一步结合多层次注意力机制,完成最终的实体解析决策.经过大量的实验证明,本文提出的方法表现出了良好的性能.

全文