摘要

政府公文内容多,涉及范围广,从中挖掘出有价值的信息,可减轻政府工作人员的压力,比如应用实体关系抽取技术挖掘人事信息。采用远程监督的关系抽取方法可以减少人工标注成本,提高关系抽取效率,进而保证了获取重要信息的质量和实效性。该文提出一种ALBERT预训练语言模型和胶囊网络相结合的远程监督实体关系抽取方法,抽取公文中的人名职务关系。ALBERT通过字嵌入和位置嵌入的方式,提取文本中深层的语义信息,胶囊网络通过传输低层到高层的特征,提高关系分类效果。实验结果表明,提出的关系抽取模型的准确率、召回率、F1值均高于基线方法,能够有效提高关系抽取性能,解决公文领域标注数据集少的问题。该方法所获实例可扩充现有公文领域知识库,可以辅助政府工作人员在书写公文时快速获取人事信息,避免信息传递错误。