摘要
大数据处理项目中,数据预处理工作量要占资源消耗的60%左右,而数据规约是影响大型数据集预处理效果的主要瓶颈。主成分分析(PCA)是目前使用最广泛的数据维规约算法。使用PCA方法时要关注生成的协方差矩阵质量和特征值的选取数量。改进的PCA算法将均值计算转变为加权规范平均值计算完成中心化数据,通过Rayleigh商和Cattell碎石检验原则选择更合理的特征值数目。算法验证实验结果表明,在数据准确、完整的首要要求下,改进后的PCA算法得到的主成分能解释超过90%的原变量,但可能会牺牲部分维规约效率。
-
单位贵阳学院; 南京财经大学