摘要
用"全球恐怖主义研究数据库"GTD数据集分析恐怖袭击事件的聚集性,对分析未来事件发生有较好的作用。对该课题的研究中有学者发现逻辑回归模型LR对GTD数据集的分类效果最佳,并提出GTD中大多数特征参数和分类变量呈线性关系,但在其研究模型中未充分考虑GTD数据集的稀疏性以及高维度多冗余的特点,若充分考虑前面提到的GTD的特点,学者们得出的结论是否仍符合。基于此问题,选用善于对稀疏集进行分析的"因子分解机"FM"与线性模型LR对GTD进行实验,用马修斯系数MCC比较分类效果,MCC越大越好,实验结果显示FM其MCC为0.96高于LR的0.94,GTD分类中基于FM优于LR的情况,进而采用FM与深度分解机"DeepFM"模型对GTD分类是否需深度建模进行研究,基于基尼系数Gini比较分类效果,Gini越大越好,实验结果显示相对于DeepFM其FM提前33%的时间基尼系数达到0.8良好情况,最终均收敛于0.95,综合可知,针对GTD数据集的分析,低阶(d=2)FM分类模型比线性LR(d=1)和高阶DeepFM(d>2)模型效果更佳。补充FM为概率模型,文章中加入分类阈值算法,使得最终为二分类结果 ,FM与分类阈值的结合即TFM模型。
-
单位昆明理工大学; 自动化学院