摘要

针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述,进而抽取其语义;最后基于已抽取的数学符号语义实现表达式的语义分析。以线性代数文本为研究实例,构建了一个语义标注数据集并进行实验,实验结果表明所提方法对标识符、线性代数实体以及表达式的语义抽取具有93%以上的精确率和91%以上的召回率。