摘要

本文的研究背景为精细化工云平台的建设,其目的就是为了处理现阶段大量关于精细化工领域的文本信息,方便使用者能够及时有效的获取所需要的文本信息,本文主要研究的是基于KNN分类算法的数据挖掘技术,对于实现文本自动分类的过程,主要阶段即为文本预处理过程,它主要的目的是提取文本的特征项,而特征项的选取对于文本自动分类具有重要意义,对于特征项的选取有:信息增益、期望交叉嫡、互信息、统计量等计算方法,本文主要研究那种特征项选取算法最为适合KNN分本分类算法,并通过实验进行验证。