摘要
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,文献格式为PDF文档,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种质资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(optical character recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1 490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。
- 单位