针对网页内容信息问题,提出了一种基于视觉特征去噪和DOM树的网页信息提取方法.该方法将网页解析成DOM树,使用视觉特征和正则表达式过滤的方法去除噪声信息,通过重复水平、垂直拆分过程对网页进行分区得到组成块,最终将两个启发式规则加权平均计算组成块的分数,获得信息块.为了提高方法的通用性,在分数的计算公式中增加了系数并且可调系数权重.试验结果表明,相比于PPR方法,该方法的准确率提高了13.69%,同时提高了网页信息的提取速度.