摘要
【目的】为解决反恐安全领域机器阅读理解技术研究缺少专业数据集支持的问题,提出一个面向该领域的中文机器阅读理解数据集SecMRC。【方法】构建关键词搜索引擎获取领域新闻语料,通过ERNIE-GEN模型自动生成问题文本进行预标注。使用时间特征词和领域关键词匹配算法构建领域词表,辅助模型精确分词。最后结合人工标注问答对形成数据集,并提出新的基线模型SecMT5。【结果】数据集包含2 100条反恐安全领域新闻文本,7 300个抽取式问答对,2 100个生成式问答对,总字符数4 796 264个。使用先进抽取式、生成式阅读理解模型在SecMRC数据集进行测试。结果显示抽取式F1指标达到72.05%,生成式ROUGE-L指标均值为37.62%,均大幅弱于人类水平。通过SecMRC数据集训练后抽取式模型F1指标提升6.13个百分点。【局限】数据集问答对数量还需补充,难度和多样性还有待提升。【结论】SecMRC数据集突出领域知识,具有一定难度和挑战性,能有效支持机器阅读理解技术在该领域的研究。数据集构建方法具有通用性,可推广至其他专业领域。
-
单位中国信息安全测评中心; 武汉科技大学