摘要

[目的]梳理深度学习模型在术语识别中的研究现状与面临挑战。 [文献范围]在知网和Web of Science中,分别以主题=‘术语识别’+‘术语抽取’、主题=‘(extract terms OR term recognition OR technology detection OR relation classification’) AND deep learning AND ner’作为检索式进行检索,共筛选国内文献66篇,国外文献56篇进行述评。 [方法]对基于深度学习的术语识别一般框架、模型的选择及各模型的优缺点、未来发展趋势进行综述。 [结果]基于深度学习的术语识别方法可划分为使用单一神经网络模型、复合神经网络模型和结合深度学习模型的术语识别三大类,从方法使用来看,1)以BiLSTM-CRF为核心及延伸的模型是术语识别的主流方法;2)BERT及BERT的优化模型是近年来的研究热点;3)在特定领域倾向于使用多任务模型代替神经网络模型;4)迁移学习以及主动学习的应用成为新的研究方向。 [局限]本文仅对已有研究的不同模型及训练结果进行结构化分析,缺少对不同模型在同一数据集上的训练效果对比,待未来进一步研究。 [结论]未来,基于深度学习的术语识别,需在术语标注模式、融合术语的多维特征、小数据集或零数据集的术语识别技术、跨领域模型泛化、结果可解释性和完善评价方法等方面深入研究。