摘要
本发明公开一种应用在网络安全领域的实体抽取方法,包括:将分词后的网络安全文本数据输入已训练好的word2vec模型,得到网络安全领域词向量;对文本数据进行人工语料标注,构建网络安全数据集;将网络安全数据集输入SecurityBERT模型,得到字符级向量;对网络安全领域词向量和字符级向量进行融合;将BiLSTM模型的输出输入自注意力层,使用自注意力机制对字符向量进行局部关键网络安全字词特征增强,获得语义信息。本发明使用BiLSTM模型和自注意力机制进一步建模,得到上下文语义和捕捉局部关键信息,提高了网络安全领域实体抽取性能,取得更好的精确率、召回率和F1值。
- 单位