摘要
基于微调BERT(bidirectional encoder representation from transformers)模型的实体对齐方法,对齐百度百科、互动百科的多模态资源。首先,通过下游的分类任务微调BERT模型,提升模型预测正确结果的能力;其次,针对数据集正负样本比例不均衡的问题,提出负采样策略,提升模型的准确程度与泛化性能,实验结果证明分类任务性能明显提升,AUC(area under the curve)值提升0.29;最后,将优化后的模型应用于实体对齐任务中,利用输出概率进行排序并预测最终对齐的实体对,实验结果优于基于相似度计算的实体对齐方法,F1值达到95.9%。
- 单位