摘要
为了提高朝鲜语古籍文字图像的标注效率,提出了一种基于DeepCluster的朝鲜语古籍文字图像的无监督聚类方法.首先,基于DeepCluster对AlexNet卷积网络进行简化;然后,采用Sobel滤波器的线性变换消除图像域中的颜色和增加局部图像的对比度;最后,利用数据增强方法强化模型对朝鲜语古籍样本特征的学习能力.在无标注的朝鲜语古籍文字图像数据集上进行实验显示,该方法的准确率和NMI指标比DCN方法分别提高了15.32个百分点和0.180.由此表明,该方法可有效提高文字图像的标注效率,可应用于朝鲜语古籍文字标注数据集的构建中.
- 单位