摘要
【目的】挖掘出不同语言虚假新闻的共性特征,为跨语言虚假新闻检测提供参考。【方法】以英语和俄语为例建立数据集,挖掘不同语言虚假新闻在词、句、可读性和情感层面的共性计量特征,随后将其用于主成分分析、K-means聚类、层次聚类和二阶聚类实验中。【结果】34个共性计量特征用于真假新闻跨语言聚类效果良好,提出的19个新计量特征发挥了更大作用;发现虚假新闻有语言简化和经济化的趋势,倾向于使用短句和简单搭配来传达信息,文本更易理解且包含负面表达更少。【局限】由于当前数据集限制,未能找到同一主题的真假新闻样本进行平行测试。【结论】不同语言的虚假新闻的确存在同语种无关的共性特征可用于自动聚类,为跨语言虚假新闻检测和甄别研究提供了新的借鉴。
- 单位