摘要

乳腺癌严重威胁女性健康,应用人工智能进行及时诊断是应对乳腺癌的重要方法。卷积神经网络(convolutional neural network,CNN)是人工智能中最经典的处理方法之一。通常健康人数量(称作多数类数据)远大于癌症患者数量(称作少数类数据),学习后的网络模型严重倾向于多数类导致失败。针对这种数据集不平衡问题,对多数类健康数据集采用随机下采样减少数据,对少数类癌症数据采用数据增强扩充处理,控制网络模型的权重比例,同时融合这三种方法应对数据不平衡。针对采用的50×50像素癌症数据集分辨率过低的问题,调整到100×100像素以便提取更多细节。提出一种4卷积层CNN网络,分别针对两种像素进行训练测试,并与经典的16层VGG16网络进行对比。精度损失曲线和混淆矩阵的实验结果表明,提出的CNN的乳腺癌识别精度优于VGG16多达4个百分点。