基于决策树与单元距离抽取新闻网页内容

王晓; 罗永莲

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于决策树与单元距离抽取新闻网页内容

作者：王晓; 罗永莲

来源：晋中学院学报, 2019, 36(03): 66-71.

摘要

针对新闻网页文本处理问题,提出了一种基于决策树抽取新闻标题并利用单元距离识别正文的方法.该方法将文本相似度、网页标记和属性作为决策树节点选择的测试属性项,各属性项的信息熵计算同时考虑了与标题相关和不相关的因素,在此基础上建立决策树,并根据规则定位新闻标题.利用网页标记的嵌套特征,缩小查找范围,根据网页各信息块间的显著边界定位新闻正文.实验结果表明,该方法抽取新闻标题的准确率在87%以上,抽取正文的平均准确率达到76%,对其他网页文本处理具有一定借鉴意义.

单位
晋中学院

收藏分享被引浏览

更新时间：2024-04-09 18:38

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号