摘要

在大数据时代,医疗数据量达到TB级以上,传统的存储技术和数据挖掘,已经不能适应以成因分析、关联分析、快速查询、及时反馈、决策支持为目的智能医疗预警要求。运用大数据的理论、机制、模型和方法,采用统计学、机器学习等方法得出可靠性较高、实时性强的脑卒中发病预警信息,是今后发展的必然趋势。由于气象条件与脑卒中发病率密切相关,提出在Spark平台上基于决策树优化算法的分布式脑卒中发病率预测模型:DSIP-GBTs(Distributed Stroke Incidence Prediction with GradientBoostedTrees)、DSIP-RF(Distributed Stroke Incidence Prediction with RandomForest),采用交叉验证的方法对参数进行调校评估,降低模型预测结果的均方根误差;运用分布式情况下快速特征选择,提高模型训练效率。对比发现,基于梯度优化决策树的DSIP-GBTs模型,符合大数据背景下的各项要求。

全文