信息检索中的带权邻近度度量研究

薛源海; 俞晓明; 刘悦; 关峰; 程学旗

摘要

信息检索需要解决的主要问题是为信息索取者提供相关、准确甚至完整的信息.大量的传统检索模型基于词袋假设进行建模,不考虑查询词之间的相互联系.词项邻近度信息在现有的研究中常被用于提升经典信息检索模型的检索效果,但大部分工作没有考虑查询中各个词重要性的差异.在现代信息检索的查询请求中,查询词之间不仅不完全相互独立,而且分别具有不同的重要程度.因此,在计算邻近度信息时对查询词的重要性进行区分,将有助于提高检索效果.带权邻近度BM25模型(WP-BM25)使用待检索数据集的背景信息对查询词的重要性进行区分,并将带权邻近度度量方法整合到BM25模型中.在TREC评测的3个标准数据集FR88-89,WT2G和WT10G上的一系列对比实验表明,该模型具有较好的鲁棒性,且能够使检索效果得到显著提升.

单位
中国科学院大学; 中国科学院计算技术研究所

收藏分享被引浏览

更新时间：2024-05-29 13:12

信息检索中的带权邻近度度量研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友