页面图文模型与元素特征归纳

于龙; 王金龙

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

页面图文模型与元素特征归纳

作者：于龙; 王金龙

来源：计算机工程与科学, 2013, (04): 136-143.

摘要

针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理论模型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元素的图文特征。在此基础上,通过定义元素分类相似度,从页面图文模型的元素特征中进行优选,归纳最佳分类特征,提出并实现了获取最佳分类特征集与识别阈值的算法。实验结果表明,页面图文模型简化了页面元素的规模,特征集归纳算法能够在较小的学习成本下获得理想的分类精度。

单位
中国人民解放军陆军工程大学

收藏分享被引浏览

更新时间：2017-10-31 17:58

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号