摘要

随机森林是一种高效的分类算法,其利用了决策树的投票机制,在决策树投票时大多只利用多数为准的原则,但存在着"恶意拉票"而导致的过拟合等问题。为了解决此问题,文中改进了随机森林的投票机制,提出了改进的两步特征轮询的随机森林,算法包括特征轮询、随机森林的决策集之间汉明距离比对、投票机制选择三个步骤。实验采用绝对平均误差、均方根误差、准确度作为评价指标,在三个不同的数据集上两步特征轮询的随机森林在上述指标中均排名第一。在预测精度上分别提高了0. 62%,1. 55%和1. 12%,效果显著。本文利用该算法在睡眠质量与120余种生理、心理状况做分析,了解不同睡眠质量下患病的比例,为患者提出合理意见。

全文