摘要
传统的网页排序算法只考虑到用户对网页的访问量、网页更新率、网页转载次数等,而忽视了跳出率,跳出率是反映页面流量质量的重要指标.本文将网页跳出因素以权重因子形式融入网页排序Hyperlink-Induced Topic Search(HITS)算法中得到Bounce Rate HITS(BRHITS)算法,更新融入页面跳出率的权威页面鉴别算法的Authority值.实验过程中,利用爬取门户网站数据将HITS算法与基于内容相关性改进的HITS算法(GHITS)、BRHITS算法进行实验对比.实验结果表明,BRHITS算法比上述两种算法的查准率提高10%~30%.因此本文提出的算法能够在一定程度上改善页面排序质量.
- 单位