为了解决大量的文本数据会耗费大量人工的问题,论文提出了一种基于K近邻和随机森林的混合算法来实现文本的自动分类。通过最邻近投影得到"本地化"的数据集,即与一个文本向量最近邻的向量们组成新的数据集,有效地过滤掉一些不相关的数据。利用随机森林算法中多个弱分类器的多数投票机制得出最优的分类预测。实验结果表明,KNN-RF算法对在线评论文本的情感分类比传统的分类模型具有更高的分类精度。