基于Stacking集成学习的大规模文本层次分类方法

作者:冉亚鑫; 韩红旗*; 张运良; 翁梦娟; 高雄; 彭柯芸
来源:情报理论与实践, 2020, 43(10): 171-182.
DOI:10.16353/j.cnki.1000-7490.2020.10.028

摘要

[目的/意义]大规模文本层次分类问题是当前文本分类领域中的研究难点之一。由于数据规模和类别数量巨大,分类难以达到理想的效果。针对该问题,提出基于Stacking集成学习的大规模文本层次分类方法。[方法/过程]该方法使用自上而下方法实现分类,分别采用两类策略来训练高层和低层分类器。训练高层分类器(第一层和第二层)时采用多分类策略,根据高层分类结果设计了一种约束算法来选择合适的低层分类器。训练低层分类器时采用二分类策略,利用Stacking算法训练每个低层类别的基分类器和融合分类器,通过融合分类器预测结果排名选择得分最高的分类标签作为分类结果。[结果/结论]在中文期刊数据集上的实验结果表明,该方法能够有效提升大规模文本层次分类的效果。