摘要
微博凭借其开放性、低门槛已成为最常用的社交媒体平台之一,其海量数据背后蕴藏着巨大的价值亟待研究。而准确地判断微博的传播趋势,降低不良微博带来的影响已成为当前面临的主要问题。文中以新浪微博为研究对象,将随机森林算法与数据分析处理相结合,对微博的博文发布一周后的转评赞行为进行预测,将数据特征分为三类并分析了每类特征对预测结果的影响。首先,简述了决策树及随机森林算法的原理;其次,对微博数据进行分析,将提取的特征分为用户特征、时间特征和文本类特征三类;最后,通过三组对比实验验证了随机森林算法在微博互动预测上的可行性,并分析了三类特征对预测结果的影响。实验结果表明,用户特征对预测准确率的影响较大。
- 单位