一种基于页面赋权的网页内容提取方法

余杨奎; 王旅; 李婉茹; 程振林; 刘洁<sup>*</sup>

doi:10.13877/j.cnki.cn22-1284.2021.10.003

摘要

提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.

单位
广东开放大学; 长春中医药大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-17 22:24

一种基于页面赋权的网页内容提取方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友