领域本体学习语料的自动获取与预处理方法研究

作者:王思丽; 祝忠明; 刘巍; 杨恒
来源:图书馆学研究, 2019, (20): 54-64.
DOI:10.15941/j.cnki.issn1001-0424.2019.20.008

摘要

实现领域语料的自动获取与预处理,为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。首先,对所涉及语料的类型、获取方法及应用研究现状进行分析,提出多源异构领域语料的自动获取方法,包括基于Web Spider的网络开放领域语料和基于Web API的科学文献领域语料的自动获取等。其次,分析提出领域基础知识词典的自动构建方法,为语料预处理奠定基础。最后,通过对主流分词方法及开源分词工具进行测试与评估,提出基于增量训练HanLP-SP领域分词模型的多策略混合的自动分词与新词发现方法,并进行实验研究。方法能够有效获取到领域语料,并实现分词等预处理任务。