摘要

现代医疗正在朝着智能健康的方向发展。在此大背景下,为了提高乳腺癌风险的发现及预测效果,文中采用大数据分析技术并基于随机森林模型,应用多个弱分类器,将多个决策树获得的结果进行集成,得到疾病发病概率;并采用管道学习方法来训练模型,基于该模型开展了致病因素分析以及结果预测。同时,通过皮尔逊相关系数和Spearman等级相关系数来进行相关度分析,研究权重较高的影响因子,提高乳腺癌风险的监测和早期预防。实验结果表明,在乳腺癌致病细胞细胞核的相关参数中,Perimeter、Texture和Concave points影响因子对于乳腺癌的致病影响程度较大,更易导致疾病的发生。基于管道训练方法所建立的模型预测精度可达99.04%,精度高、方法可靠。最终的实验研究结果对于乳腺癌风险的发现具有一定程度的参考意义。