海量数据广义线性模型变量选择算法研究

陈少东; 李志强<sup>*</sup>

doi:10.13543/j.bhxbzr.2020.02.018

摘要

首先推导出了用于求解一般广义线性模型变量选择问题的非凸惩罚迭代估计算法,并利用分治思想对算法进行修正,使其能够适用于海量数据情形,以解决海量数据下进行变量选择时可能存在的内存溢出等问题。考虑到当前处理海量数据实际使用的工具,进一步给出了算法在分布式并行下的计算步骤,大幅提高了计算速度。在数值模拟中,通过单机和集群两种方式对算法进行数值计算,结果表明本文方法有效解决了数据存储问题且适用于分布式环境。最后,通过所提算法来完成Probit模型的变量选择,并将其用于新闻数据集的分类问题。

单位
数理学院; 北京化工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-12 12:19

海量数据广义线性模型变量选择算法研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友