摘要
针对互联网中异源数据的风险预估问题,借鉴社会心理学中社会风险研究成果,提出基于深度学习模型Paragraph Vector的风险分类和风险预估方法.选择"天涯社区"的"天涯杂谈"和"百姓声音"子板块为例,通过话题分析和相似度比较说明了不同子版块之间社会风险分类的可行性;利用基于Paragraph Vector的K-Nearest Neighbors分类方法(KNN-PV),以"天涯杂谈"标注数据为训练集,实现"百姓声音"相同时间段新发帖的风险分类和风险预估,并通过人工标注结果验证了KNN-PV方法的有效性.研究结果表明,基于机器学习方法能够实现互联网中异源数据的风险分类和风险预估.
-
单位经济管理学院; 中国航天系统科学与工程研究院; 北京信息科技大学; 中科院数学与系统科学研究院