摘要
一种基于时间感知的增量机器爬虫方法,根据每个页面的基于初始爬行时间表T={t1,t2,...,tn}的相似性得分序列PTS和最大相似性阈值δ,将大于最大相似性阈值δ的相似性得分和对应的初始时间戳去掉,得到优化的相似性得分时间序列newPTS和优化的爬行计划时间表newT;如果优化的爬行计划时间表newT的时间戳数|newT|大于最佳爬行频次,就根据优化的相似性得分序列newPTS得出降维后的时间感知相似性协方差矩阵,用MIQP算法得出页面的最佳爬行时间表,对发生变化的网页进行增量更新。本发明可以为目标页面制定最优的页面刷新策略,从而降低页面的刷新代价,减少数据冗余的产生,提高爬虫的效率并保证抓取资源的新鲜性。
- 单位