摘要

作为一种基于一范式的特征选择方法,Lasso算法具有能够准确、迅速且稳定地选择出重要变量的特性.在面对物联网的数据集时,可以通过这一算法进行特征选择降低分类算法的计算消耗.分布式均分Lasso算法是一种结合Hadoop分布式计算与均分Lasso算法的融合算法,通过对特征集的拆分、对特征子集的并行化特征选择以及矩阵运算的并行化来提高算法运算效率,解决传统Lasso算法在高维度数据集以及小样本数据集上遇到的问题.通过对比实验可知这一算法的可行性、准确性与效率.