摘要

在威胁情报实体抽取领域,由于网络数据源结构复杂、无关信息多,且威胁情报实体具有专业性强、分类模糊等特点,传统实体识别方法对于威胁情报挖掘的效率不高。针对此问题,文章通过将实体识别转化为机器阅读理解的方式,提出一种融入专业知识的MRC指针标注模型(Threat Intelligence Machine Reading Comprehension,TIMRC),该模型能够为每个实体问题找到对应的开始和结尾索引。基于此,文章进一步构造了一种威胁情报实体识别(Threat Intelligence Entity Identification,TIEI)方法,通过对978篇安全类文章进行实验验证,证明了TIEI方法的有效性及高效的实体挖掘能力。