基于置信学习的知识库错误检测方法研究

作者:李文娜; 张智雄
来源:数据分析与知识发现, 2021, 5(09): 1-9.
DOI:10.11925/infotech.2096-3467.2021.0179

摘要

【目的】解决知识库中存在的噪声数据问题,对基于置信学习的知识库错误检测方法进行探索。【方法】利用TransE模型对知识库三元组进行向量表示,通过多层感知机模型进行错误检测识别,然后利用置信学习对样本集进行清洗,并通过多轮迭代训练,降低噪声数据对模型的影响。【结果】所提方法在DBpedia数据集上,最优F1值达到0.736 4,优于对照组方法。【局限】实验数据集中的噪声数据由人工产生,与真实噪声数据分布有一定差异,在更大规模知识库上的通用性有待考证。【结论】探索了基于置信学习的知识库错误检测方法,通过置信学习降低了噪声数据的影响,从而在知识库错误检测任务中有较好性能。

全文