摘要
本发明提供一种基于多粒度建模的半监督文本分类方法和系统,涉及数据处理技术和机器学习技术领域。本发明使用多粒度的文本建模方式形成三通道的文本向量模型层,分别从字符级、词语级、句子级三个级别对同一文本进行文本建模,再将三个级别的建模分别作为三个通道,并将三个通道的输出输入给三个基分类器组,在不损失样本或者特征的情况下获得样本之间的分歧,取代了传统的重采样与随机子空间方法;同时,九个基分类器集成为三个基分类器组的设计,集成了不同基分类器的优点,使用不同的基分类器获取相同样本的不同特征,获得基分类器之间的分歧,从而有效提高了半监督文本分类方法的分类结果准确度。
- 单位