基于机器学习的技术术语识别研究综述

作者:胡雅敏; 吴晓燕; 陈方
来源:数据分析与知识发现, 2022, 6(Z1): 7-17.
DOI:10.11925/infotech.2096-3467.2021.1066

摘要

【目的】梳理机器学习算法在技术术语识别中的应用现状与前景。【文献范围】在WOS核心库和CNKI数据库中,以“technology term* recognition”、“技术术语识别”为检索词检索文献,并延伸阅读相关算法文献,共筛选62篇代表性文献进行述评。【方法】类比命名实体识别研究,归纳机器学习在技术术语识别中的应用和区别,从算法分类、一般流程、现存问题和下游应用4个方面进行梳理,并展望未来的应用前景。【结果】应用算法可分为单一的统计机器学习、单一深度学习和两者结合的混合算法,应用最广泛的是两者结合的混合算法,主流的模型代表是BiLSTM-CRF模型,迁移学习是未来重要的研究方向。【局限】深度学习快速发展,混合模型不断涌现,所归纳的算法模型仅为应用较为广泛的算法,并未逐一列出。【结论】现有方法仍然有诸多待优化研究的问题,应加强细粒度的实体识别、特征表示方法、评估方法和开源工具包等方面的研究。

全文