摘要
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,返回列表中的往往包含广告、失效网页等噪声信息,会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,本文提出了一种基于注意力机制和集成学习的网页黑名单判别方法。采用本方法构建一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,实现EACNN模型的构建;最后,将EACNN的输出结果作为网页内容分...
- 单位