随着信息技术的飞速发展,Web页面复杂多样的特点越来越明显,传统网页正文提取方法比较复杂。针对这种情况,提出一种简单的基于网页Title标签的正文提取方法。该算法首先对网页进行预处理,然后提取出网页的标题,再把网页转换为DOM树,统计各项值,通过计算相关度实现网页正文提取。实验结果表明,该方法能够高效地提取复杂页面的正文信息。