海量数据广义线性模型变量选择算法研究

作者:陈少东; 李志强*
来源:北京化工大学学报(自然科学版), 2020, 47(02): 130-136.
DOI:10.13543/j.bhxbzr.2020.02.018

摘要

首先推导出了用于求解一般广义线性模型变量选择问题的非凸惩罚迭代估计算法,并利用分治思想对算法进行修正,使其能够适用于海量数据情形,以解决海量数据下进行变量选择时可能存在的内存溢出等问题。考虑到当前处理海量数据实际使用的工具,进一步给出了算法在分布式并行下的计算步骤,大幅提高了计算速度。在数值模拟中,通过单机和集群两种方式对算法进行数值计算,结果表明本文方法有效解决了数据存储问题且适用于分布式环境。最后,通过所提算法来完成Probit模型的变量选择,并将其用于新闻数据集的分类问题。

全文