摘要

实现高效获取互联网中特定领域信息的有效途径是使用聚焦爬虫,针对聚焦爬虫在判断主题相关时缺少语义信息的问题,提出了一个基于语义相似度计算的聚焦爬虫框架。该框架抽取网页的主题词、内容和链接信息作为网页特征,计算主题相似度。通过链接的主题相关度计算,过滤URL和判断URL的重要程度。最后给出了对比试验,验证了该方法的有效性。