摘要
针对传统机器学习模型在医疗小样本数据上由浅层模型结构和复杂数据特征导致的分类表现不佳的问题,提出了一种联合多粒度改进级联森林(cgicForest,combine multi-grained improved cascade forest)模型。通过在多粒度扫描中加入随机抽样环节以及对变换特征进行优化来提高模型表征学习能力,并改进级联森林部分的层级结构来提升模型分类能力。针对存在类别不平衡问题的数据集,提出安全边界过采样(SBS,safe-borderline-SMOTE)算法在属于安全边界的少数样本周围进行动态插值,提高训练数据质量,再通过cgicForest模型进行训练学习,最终得到支持不平衡医疗小样本数据的SBS-cgicForest分类模型。在3种医疗数据集上应用SBS-cgicForest分类模型进行测试,结果表明,cgicForest模型在具有复杂特征的医疗小样本数据上分类的性能指标较多粒度级联森林(gcForest, multi-grained cascade forest)模型提升了4.1~5.4个百分点,与SBS算法结合后各性能指标提升6.6~11.2个百分点,比与传统采样方法结合后的F1评分高出2~2.5个百分点,为解决医疗小样本数据的分类问题提供了参考,并为智慧医疗场景下的物联网应用提供了支持。
- 单位