摘要

在基于内容学习的文本分类中,人工标注的训练样本存在着数量有限、获取困难以及由普通文本转换为向量形式的学习样本时间较长等问题.针对此情况提出一种基于有限人工标注样本特征空间和TF-IDF权重计算的样本模拟生成算法.该算法先通过特征抽取获得类别的特征空间,然后利用TF-IDF公式计算特征的权重,再通过随机算法生成模拟样本,并将其用于支持向量机的文本分类中.实验结果表明,利用该算法生成的模拟训练样本训练得到的分类器,具有良好的分类效果,能极大地减少训练样本的生成时间.