摘要

随着社会的发展,信息已经成为社会发展越来越重要的部分,人类的信息传播活动越来越明显地展示出分众特征,对用户的分类成为人类信息活动的一个重要研究课题。从这一目标出发,分别基于信息内容、拓扑关系和两者综合的方法,按兴趣主题对社会媒体用户进行分类。对于基于信息内容的用户分类,采用LDA主题模型从用户所发布的内容中提取其主题分布,基于这一分布,采用支持向量机、决策树、贝叶斯等多种模型按兴趣主题对用户进行分类。对于基于拓扑关系的分类,依据相同兴趣主题的用户倾向于拥有共同的粉丝这一发现,构建分类模型来按兴趣主题对用户进行分类。然后提出综合信息内容和拓扑关系的分类方法来对用户进行分类。最后基于大规模Twitter数据的实验发现,采用综合方法对用户进行的兴趣分类性能明显高于采用单一信息内容或粉丝拓扑方法的性能。

  • 单位
    软件工程国家重点实验室; 黄淮学院