摘要
LearnNSE算法保留了所有基分类器进行集成,基分类器权重调整较慢,对长期累积大数据的分类学习效率不高,且仅关注累积大数据,缺乏对短时间内突发产生大数据的关注,为此在所提PFLearnNSE-Pruned-Age算法基础上,研究一种基于Spark的分布式时序分类学习模型DSCLM-spark。实验结果表明,DSCLM-spark能够取得非常接近、在许多场景下甚至优于LearnNSE的准确率,进一步提高集成分类学习的效率,兼顾短时产生及长时间累积的大数据,适用于对分类挖掘实时性要求较高的场合。
- 单位