摘要

本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文字密度函数,最后引入一种分析机制将正文部分提取出来。本文提出的算法不依赖DO M树的建立、不依赖机器学习和数据挖掘,而是根据网页正文的特性进行正文提取。实验表明本方法切实可行并且具有较高的准确性,网页正文提取的准确度高达94%。

全文