摘要
目前的查询性能预测方法一般都是利用查询的特征、文档集合的特征以及结果列表的特征预测查询结果的平均精度(AP).一种性能预测方法与其他方法比较时,通常采用预测的AP和查询真实AP之间的皮尔森线性相关系数或是肯德尔等级相关系数来进行衡量.然而,这种简单比较方法往往不能准确评估预测方法的性能.深入探讨了查询性能预测方法性能评测中存在的问题,发现了影响比较公平性的4个因素:预测所基于的排序器、预测目标、评估指标以及实验的数据集合大小,并通过定量实验证明:1)排序器的检索性能越好,预测方法的预测性能也越好;2)不同的预测目标会影响预测性能,衡量搜索引擎质量指标(DCG)比AP更容易预测;3)相关性评估指标受数据分布影响严重,在相同的数据分布下,比较两种预测方法才公平;4)实验中查询集合过小会使得比较结果冲突,影响比较结果的可信度.本工作对查询性能预测方法的性能评测具有重要意义.
-
单位微软亚洲研究院; 北京大学