基于文字密度提取网页正文

石**

doi:10.16707/j.cnki.fjpc.2017.04.056

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于文字密度提取网页正文

作者：石**

来源：福建电脑, 2017, 33(04): 116-117.

DOI：10.16707/j.cnki.fjpc.2017.04.056

摘要

本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文字密度函数,最后引入一种分析机制将正文部分提取出来。本文提出的算法不依赖DO M树的建立、不依赖机器学习和数据挖掘,而是根据网页正文的特性进行正文提取。实验表明本方法切实可行并且具有较高的准确性,网页正文提取的准确度高达94%。

单位
四川大学

全文

访问全文

收藏分享被引浏览

更新时间：2021-08-12 09:48

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号