一种词汇共现算法及共现词对检索系统排序的影响

作者:陈翀; 彭波; 闫宏飞; 王继民
来源:清华大学学报, 2005, 45(9): 1857-1860.
DOI:10.3321/j.issn:1000-0054.2005.09.029

摘要

为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法--FDC.算法中考虑了词汇在文档中的共现频度、相对距离和共文档率.从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LSI)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果.Discounted cumulative gain(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LSI方法获得的共现词对排序相关性也表现出同样显著的改进效果.结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法.

全文