一种基于网页块特征的多级网页聚类方法

作者:范意兴; 郭岩; 李希鹏; 赵岭; 刘悦; 俞晓明; 程学旗
来源:山东大学学报(理学版), 2015, 50(07): 1-8.

摘要

利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。与已有的网页聚类方法相比较,该方法能够提供多级聚类结果,满足不同的聚类需求,而且在聚类的准确率和效率方面有本质上的提高。