摘要
随着移动互联技术的发展,微博作为一种新媒体形式日益成为国内主流的移动社交媒体平台,微博使用的人群数量庞大,微博平台包含的内容丰富,网络社交的功能突出。微博包含海量的信息数据且数据种类多样,即有文档文本数据,也有图片、表情符号、视频动画等非结构化的数据。因此,对各政府部门和企业单位的网络舆情监管提出了艰巨的挑战,有关中文微博文本的情感分析的研究也成为近几年数据挖掘领域的关注方向之一,情感分析研究主要围绕着信息的抽取和情感倾向的判定,均离不开对微博文本的分词工作。本文提出一种基于朴素贝叶斯分类算法的分词归类方法,对比PMI互信息和特征频度TF方法的优劣,为微博文本中的词汇进行归类,分为喜、怒、悲、惊、乐五大类,从而分析文本的情感倾向。
-
单位成都师范学院