摘要

目的利用机器学习算法处理大肠癌中医症状与证型数据,建立适用于大肠癌不平衡数据集的虚实证型分类模型。方法量化收集的大肠癌中医临床病案数据以及文献检索数据,首先采用人工合成过采样技术对数据集进行平衡处理,再结合集成学习算法Adaboost,将症状作为输入,证型作为输出,对比传统机器学习算法分类效果,探讨大肠癌的SMOTEboost分类模型在虚实证型中的分类性能。结果 SMOTEboost分类算法在大肠癌虚实证型分类模型中,F-mean较Adaboost提高了25.40%,G-mean提高了16.60%,表明构建的分类器具有较高的分类性能与泛化能力。结论 SMOTEboost复合分类器为大肠癌中医证型分类提供很好的计算机网络模型,也为其他中医病症的临床证型判定提供借鉴意义。