Twitter情感分析中停用词处理

作者:高巍; 孙盼盼*; 李大舟
来源:计算机工程与设计, 2019, 40(11): 3180-3191.
DOI:10.16208/j.issn1000-7024.2019.11.020

摘要

在Twitter情感分析中首先要对数据预处理去除噪声,为了解文本预处理方法中去除停用词对Twitter情感分析分类性能的影响,使用4种特征模型和5种分类器对3个数据集保留和去除停用词分别进行分析,为自然语言处理的研究者提供在常用算法下对Twitter情感分类分析时是否去除停用词及特征数量选择的参考依据。实验结果表明,对Twitter情感分类,去除停用词降低了文本噪声,但多数情况下不会提高分类器的性能,且提取特征时适当的特征数量有助于加快分类过程。