摘要

为实现统一高效的网页内容过滤,提出了一种在网络设备上对网页进行过滤的方法。采用URL(Uniform Resource Location)过滤与内容过滤相结合的方式;通过设置黑白名单和老化机制,来改进URL过滤;考虑网页的结构化特性,通过改进特征的权值的计算公式,并采用K近邻(KNN)分类算法,改进内容过滤。实例的分析表明:该方法能够在满足用户延迟要求的情况下,对网页进行比较精确的过滤。