摘要
【目的/意义】随着突发公共卫生事件不断演变,人们对其认识有一个从模糊到精确的过程。笔者对突发公共卫生事件网络信息可信度进行量化分级,为更细致化的谣言识别提供数据支持。【方法/过程】分析并选取信息文本关键词、情感、评论、信源和媒体五大静态特征,融合时间和当日新增确诊数两大动态特征,结合熵值法将其量化得到谣言指数RI,基于此引入“宽容区间”,并借助朴素贝叶斯分类器确定界限,将谣言识别结果的可信度分为低、中、高三类。【结果/结论】该模型在训练集和验证集上表现良好,正确率分别为95%和90.20%,与决策树和SVM两个基线模型相比,模型各项性能指标均有显著提升。【创新/局限】本研究建立了一种基于信息可信度评估的谣言识别模型,通过建立RI指数,并创新纳入有关疫情状况的动态指标,提高谣言识别的精准度;引入对谣言进行可信度分级,突破传统的谣言识别二分类检测方法的局限性。
- 单位