摘要

本发明公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法,利用卷积自编码器提取多类图像的特征,采用无监督的卷积自编码器CAE来提取图像块特征,采用有监督卷积神经网络(CNN)用于最终的分类任务;利用哈希方法将高维特征空间的图像映射到低维二进制空间,对所有多类图像样本产生哈希编码,每个哈希编码对应原始特征空间中的一个子空间,也称为哈希桶;计算在每个哈希桶中的抽取样本的选择比例,并挑选出具有代表性的样本。针对大规模病理组织学图像分类任务中的类不平衡问题,提出了一种高效的重采样方法HBU。不需要计算样本之间的成对距离,具有高效性和高可拓展性。