摘要
现阶段我国正处于事故灾难的频发时期,目前国内针对这一领域的专业化词典相对欠缺。本文以有关事故灾难领域的国家应急标准及网络数据为语料库,首先对语料库进行预处理,其次利用TF-IDF算法筛选出种子词集合,同时借助深度学习中的Word2Vec模型进行词向量训练,然后利用相似度计算的方式确定出领域候选词,最后融合应急标准术语完成事故灾难领域词典的构建。经SVM分类器与朴素贝叶斯分类器验证,将本文所构建的领域词典加入到结巴自定义词典后,分类器在准确率、召回率与F1值上分别提高了11%、11%、12%以及5%、8%、6%,表明本文构建的领域词典质量较好。
- 单位