摘要
动车组车载数据具有维度高、数据量大的特点,从高维度的数据中提取出牵引电机相关的有效特征是进行数据驱动模型构建的基础。文章以基尼指数为例,介绍了基于基尼指数的CART分类树构建步骤、基于CART分类树的随机森林构建方式以及基于随机森林分类算法的基尼指数平均不纯度减少和袋外误差平均准确度减少2种特征选择方法,并对2种特征选择方法进行了试验验证。基于UCI机器学习样本库,通过Dry Bean Dataset和Wine Dataset 2种典型案例验证了2种特征选择方法在特征选择和模型分类方面的有效性;基于动车组车载实测数据,通过对动车组牵引电机的特征选择,验证了2种方法都能有效筛选出牵引电机故障特征,同时基于所选故障特征建立的牵引电机故障诊断模型具有较高准确率和召回率,可用于动车组牵引电机故障特征选择。