基于社区居民健康大数据预测高血压的患病风险

作者:周阳; 王妮; 黄艳群; 陈晨; 李盛俊; 陈卉*
来源:医学信息(上旬刊), 2020, 33(06): 1-12.
DOI:10.3969/j.issn.1006-1959.2020.06.001

摘要

目的利用居民健康大数据预测高血压的患病风险,并分析高血压相关的重要因素。方法基于社区公共卫生系统数据集,利用机器学习中的Logistic回归、随机森林和支持向量机算法建立高血压患病风险预测模型,并比较三者的预测性能,另通过随机森林中的基尼系数下降法分析高血压患病的影响因素。结果支持向量机模型的准确率(87.00%)、精确率(85.00%)、召回率(88.00%)、F1值(0.88)和ROC曲线下面积(0.932)优于随机森林模型(85.00%、84.00%、87.00%、0.87和0.929)和Logistic回归模型(83.00%、85.00%、81.00%、0.81和0.920)。Gini系数分析显示,冠心病、年龄、糖尿病和教育水平在预测高血压患病风险中具有重要作用;现教育水平、职业类型、其他慢病、婚姻情况、体重指数、父亲患有高血压、母亲患有高血压、饮酒、饮食偏咸、吸烟、锻炼在预测高血压患病风险中具有一般作用;性别、饮食偏素、饮食偏甜、饮食偏油、饮食偏辣在预测高血压患病风险中作用不大。结论支持向量机预测模型的预测高血压患病风险最优。文化程度低、合并患有冠心病、糖尿病和其他慢病、有家族史和老年人为高血压易患人群,针对此类人群应重点关注体重指数、饮酒和饮食习惯(偏咸)方面。

全文