摘要
以大数据为基础的深度学习算法在推动新一代人工智能快速发展中意义重大。然而深度学习的有效利用对标注样本数量的高度依赖,使得深度学习在小样本数据环境下的应用受到制约。本研究提出了一种基于生成对抗网络(generative adversarial network,GAN)和深度神经网络(deep neural network,DNN)分类器的方法。首先,将原始样本划分为训练集样本和测试集样本,采用训练集样本训练GAN后生成模拟样本数据,扩增训练集样本规模;然后,使用模拟样本训练DNN分类器;最后,使用测试集样本测试分类器,并通过指标验证该方法在小样本多分类问题下的有效性。作为实证案例,将该方法应用于生物领域癌症分期识别,结果表明该方法比传统方法获得更高的识别准确率。同时,该方法是一次将基于原始样本的经典统计机器学习分类方法转变为基于数据增强的深度学习分类方法的尝试。本研究有助于探索以深度学习为代表的新一代人工智能技术在应用范围与应用效果方面的潜力。这将对各领域全面推进新一代人工智能的发展具有重要意义。
- 单位