中文电子文档的数学公式定位研究

林晓燕; 高良才; 汤帜

doi:10.13209/j.0479-8023.2014.009

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

中文电子文档的数学公式定位研究

作者：林晓燕; 高良才; 汤帜

来源：北京大学学报(自然科学版), 2014, 50(01): 17-24.

DOI：10.13209/j.0479-8023.2014.009

摘要

区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段。实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域。此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估。

单位
北京大学王选计算机研究所

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-30 05:49

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号