摘要
伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,进一步提高信息检索系统的性能。近年来,稠密检索(Dense Retrieval)技术在信息检索任务中取得了巨大的成功,一些研究者提出了不同的面向稠密检索的伪相关反馈方法。然而,这些方法存在两个方面的问题:由于对文本截断处理而造成语义信息缺失;在检索阶段具有较高的空间复杂度。针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的伪相关反馈方法(Dense-PRF)。首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量平均池化得到查询扩展项向量;然后,按照权重结合原始查询向量和查询扩展项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果。Dense-PRF在Robust04和WT2G两个经典长文本测试集上均与基线模型进行了对比实验,在Robust04数据集上相较于模型Rep BERT+BM25在P@20和NDCG@20两个指标上分别提升了3.99%、2.72%;在WT2G数据集上相较于基线模型Rep BERT+BM25在P@20和NDCG@20两个指标上分别提升了5.12%、3.49%。实验结果表明Dense-PRF方法能有效缓解查询与文档词汇不匹配问题,提升检索精度。
- 单位