摘要
针对传统大数据分类方法未对数据的主要特征进行优化分类,导致准确率低、效率差等问题,提出基于随机森林算法的不平衡大数据动态分类。设计分类系统基本框架以及分类处理器的硬件结构,针对大数据时域特征中的瞬时能量,计算帧数及过零率。依据得到的计算结果使用线性预测和梅尔频率倒谱系数两种方式,结合帧数大小构建不平衡大数据的主要特征函数。利用随机森林算法的表达函数,建立算法的基本框架,分别对其中的子模型优化分类。再获取决策树模型,对不平衡数据特征分裂处理,实现数据动态分类,并使用少数类和多数类评价指标,对结果进行理论检验。通过仿真表明,上述方法具有更高的数据分类准确率,更好的分类效果,可为今后的大数据动态分类工作提供良好的参考。
- 单位