摘要

细粒度实体分类是在给定实体指称后要求为其分配细粒度类型标签的任务。大多数细粒度实体分类采用远程监督的方法,为实体指称分配知识库中实体所对应的全部类型标签,这会引入无关或具体的噪声标签。在远程监督中,将分配与指称上下文无关的类型标签归为无关噪声标签,分配细粒度标签导致在上下文中实体含义不准确的类型标签归为具体噪声标签。为减轻噪声影响,以往采用人工标注、启发式规则剪枝等方法,但存在效率低、缩减训练集规模导致分类模型整体性能变差等问题。本文通过引入记忆网络,分类模型能深入学习实体指称上下文与类型标签之间的关联性,增强对相似的指称上下文所对应类型标签的记忆表示,有效减轻无关噪声标签的影响。与此同时,利用变形的层次损失函数有效学习类型标签之间的层次关系,从而缓解具体噪声标签的负面影响。此外,结合L2正则化函数防止训练模型对噪声标签的过拟合。在公开数据集上的实验结果表明,本文提出的方法能够有效缓解无关噪声标签和具体噪声标签对分类模型的消极影响,在准确率、Macro F1值、Micro F1值上表现均优于以往处理标签噪声的方法。