摘要
近年来,我国甲状腺肿瘤的发病率在全球排名不断提升,恶性甲状腺肿瘤早期预测对手术成功率有很大影响,而恶性甲状腺肿瘤的预测准确率高低很大程度取决于模型的好坏。因此,预测模型的选择对于恶性甲状腺肿瘤的预测十分重要。本文借助国家人口与健康科学数据共享服务平台,对恶性甲状腺肿瘤的预测问题进行实证研究。首先对数据集进行量化分析,选择了对目标变量有影响的10个自变量,并将数据集分为训练集和测试集。在分析中分别采用了logistic回归、随机梯度下降、决策树和随机森林四个模型,进行参数调优。综合比较来看,随机森林模型对于恶性甲状腺肿瘤的预测准确率最高。通过实证分析发现,在十个影响因素中边缘、大小这两个指标对于甲状腺癌的影响最大,应重点关注边缘的情况。如果边缘呈现出边缘小分叶及毛刺、边缘小分叶或毛刺形状,则甲状腺肿瘤诊断为恶性的几率较高;四个模型中随机梯度模型的预测准确率为86.1%,Logistic模型预测准确率为93.7%,决策树模型预测准确率为94.9%,随机森林模型预测准确率为98.7%,其中随机森林模型效果最好,能准确的预测甲状腺肿瘤的良恶性;通过对危险征象进行分析和建立模型,可以看到多因素综合分析可以提高甲状腺癌预测的准确性。
- 单位