摘要
基于生成对抗网络的数据生成方法在许多领域得到了广泛的运用,然而却极少用于基因数据生成,由于基因结构变异在大规模基因数据中属于小样本事件,造成基因结构变异检测精度差,假阳性率高等问题,提出基因图像数据扩增模型GeneGAN,用于增强基因结构变异样本数量,提高卷积网络识别基因结构变异的精度。首先,利用Reads堆叠方法生成初始基因图像数据,将变异基因图像数据与非变异基因图像数据分为两个数据集,为了平衡正负样本数据集,然后使用GeneGAN对变异图像样本进行扩充,通过卷积神经网络(CNN)对平衡前后数据集进行检测并对比实验结果。采用三个指标来衡量不同工具的结果,包括准确率、召回率与F1分数。实验结果表明,使用GeneGAN进行基因数据生成能够更好地解决使用卷积神经网络进行基因图像分类准确率低的问题。与传统扩增方法、生成对抗网络扩增方法、特征提取方法对比,使用GeneGAN在基因结构变异检测的F1分数上提升范围为1.94%到17.46%。
- 单位