摘要
【目的】梳理机器学习算法在技术术语识别中的应用现状与前景。【文献范围】在WOS核心库和CNKI数据库中,以“technology term* recognition”、“技术术语识别”为检索词检索文献,并延伸阅读相关算法文献,共筛选62篇代表性文献进行述评。【方法】类比命名实体识别研究,归纳机器学习在技术术语识别中的应用和区别,从算法分类、一般流程、现存问题和下游应用4个方面进行梳理,并展望未来的应用前景。【结果】应用算法可分为单一的统计机器学习、单一深度学习和两者结合的混合算法,应用最广泛的是两者结合的混合算法,主流的模型代表是BiLSTM-CRF模型,迁移学习是未来重要的研究方向。【局限】深度学习快速发展,混合模型不断涌现,所归纳的算法模型仅为应用较为广泛的算法,并未逐一列出。【结论】现有方法仍然有诸多待优化研究的问题,应加强细粒度的实体识别、特征表示方法、评估方法和开源工具包等方面的研究。
- 单位