摘要

航空安全命名实体识别是构建航空安全知识图谱中基础且关键的任务,对消除航空隐患,制定有效的纠正措施和宏观政策提供了重要依据。针对航空安全领域包含大量较长的专有名词和名词缩写混合等问题,采用双向长短期记忆模型(BILSTM)、卷积神经网络(CNN)和条件随机场(CRF),构建一种使用字符与词两个粒度的模型,对航空安全事故进行命名实体识别(NER),以提取事故中的实体。采用航空事故报道为实验数据集,利用BILSTM模型自动学习字符粒度的语义特征向量,再结合词粒度的特征向量,通过CNN全局特征,最后通过CRF层对提取到的特征进行序列标注,以提取命名实体。经过实验对比验证,该模型能够有效提取命名实体,F1值相对现有方法提升了2.22%。实验结果表明,增加字符粒度的嵌入并且使用CNN获取全局特征可以有效提高航空安全领域命名实体识别效果。