摘要

随着医疗技术的发展,临床医学中已收集了用于乳腺癌诊断的不同肿瘤特征。然而如何从庞大的医疗数据集中选择特征信息,以支持临床疾病诊断,是一项艰巨而耗时的任务。针对于此,本文提出了基于系统聚类和支持向量机(H-SVM)的组合模型。其中系统聚类算法用于特征选择,分别识别良性肿瘤和恶性肿瘤的隐藏模式;通过从属函数计算原始肿瘤数据与隐藏模式之间的相似度进行特征重建;重建后的数据集作为新的特征集通过支持向量机算法训练分类器,以检验分类效果。实验结果表明,该算法从威斯康星州乳腺癌(WDBC)数据集训练阶段的32个原始特征中提取了15个抽象的肿瘤特征,不仅将分类精确率提高到97.50%,而且大大减少了模型训练时间。

  • 单位
    上海理工大学; 同济大学附属东方医院; 万达信息股份有限公司