摘要

情感分析近年来已成为国内外的研究热点,然而网络上抓取到的中文数据并不能直接进行情感分析,在对中文文本进行处理前,必须将格式杂乱的文本建模为易处理的形式,这种易处理的格式可以用来进行计算,从而满足统计和机器学习数据格式的要求。本文采用向量空间模型来表征中文文本。其中涉及到的基础理论包括中文分词、特征选择和特征加权计算。