摘要

考虑样本数据集的差异性和相关性对疾病预测结果有着直接影响,提出一种基于多特征属性患者相似的糖尿病早期预测方法,根据患者之间特征具有相似性这一特点,对患者特征进行混合属性相似预分组,再把分组结果导入随机森林分类器进行疾病预测。首先以临床概念作为患者的特征项,通过聚类定量化分析不同特征属性类型间的距离来度量患者之间的混合相似度,根据患者混合相似度将患者集预分组为多个患者相似组。最后以随机森林分类器对相似组进行细分类,得到最终的疾病预测结果,该结果与基于全样本数据的随机森林分类结果相比,分类准确率提高了8.3%;与基于单一属性相似组的随机森林分类结果相比,分类准确率提高了5.1%。结果表明:所提方法具有较高的预测准确率,可为糖尿病诊断预测提供支持。