摘要
【目的】解决知识库中存在的噪声数据问题,对基于置信学习的知识库错误检测方法进行探索。【方法】利用TransE模型对知识库三元组进行向量表示,通过多层感知机模型进行错误检测识别,然后利用置信学习对样本集进行清洗,并通过多轮迭代训练,降低噪声数据对模型的影响。【结果】所提方法在DBpedia数据集上,最优F1值达到0.736 4,优于对照组方法。【局限】实验数据集中的噪声数据由人工产生,与真实噪声数据分布有一定差异,在更大规模知识库上的通用性有待考证。【结论】探索了基于置信学习的知识库错误检测方法,通过置信学习降低了噪声数据的影响,从而在知识库错误检测任务中有较好性能。
-
单位中国科学院大学; 中国科学院文献情报中心