基于BERTCA的新闻实体与正文语义相关度计算模型

作者:向军毅; 胡慧君; 刘茂福; 毛瑞彬
来源:中文信息学报, 2022, 36(03): 109-119.
DOI:10.3969/j.issn.1003-0077.2022.03.013

摘要

目前的搜索引擎仍然存在“重形式,轻语义”的问题,无法做到对搜索关键词和文本的深层次语义理解,因此语义检索成为当前搜索引擎中亟需解决的问题。为了提高搜索引擎的语义理解能力,该文提出一种语义相关度的计算方法。首先,标注了金融类新闻标题实体与新闻正文语义相关度语料1万条,然后建立新闻实体与正文语义相关度计算的BERTCA(Bidirectional Encoder Representation from Transformers Co-Attention)模型,通过使用BERT预训练模型,综合考虑细粒度的实体和粗粒度的正文的语义信息,然后经过协同注意力,实现实体与正文的语义匹配,不仅能计算出金融新闻实体与新闻正文之间的相关度,还能根据相关度阈值来判定相关度类别,实验表明该模型在1万条标注语料上准确率超过95%,优于目前主流模型,最后通过具体搜索示例展示了该模型的优秀性能。

全文