摘要
在目标检测、图像分割、图像修复等应用中,一个好的目标形状模型有着非常重要的作用.与灰度、纹理、边缘等底层的视觉特征相比,作为一种高层视觉特征的形状更有利于描述目标的全局视觉信息.一般在加入全局形状信息的情况下算法的性能将有所提高.近年来,由于其具有卓越的学习数据中包含的内部结构的能力,深度学习模型吸引了越来越多的关注.包含多层隐层单元的深度学习模型用于模拟人类大脑的认知机制,可以提取多层数据特征和表示复杂的数据分布,学习到的多层抽象表示更有助于了解形状等数据的信息.针对复杂而又多变的目标形状,该文基于深度信念网络和深度玻尔兹曼机构造形状模型,给出了各自的模型构造方法、模型训练方法以及基于模型生成目标形状的方法.这两种模型是深层概率模型,能够充分利用底层特征和多层高层特征(越高层越复杂)拟合关于训练集形状的概率分布,所以它们能够有效地建模形状.这类模型的一个关键特性是使用贪心逐层训练快速地找到一组好的模型参数.该文的形状模型不仅能够很好地表达出训练集中的形状,还能够生成不同于训练集中样本的形状.另外,当训练集中的形状是多类别时,此时涉及到的形状变化比较大,文中模型同样能够定义形状所属的多峰分布.深度学习模型具有较强的形状表达能力,可以应用于生成形状、形状修复和去噪等多种任务.该文在Weizmann Horse和Caltech101Silhouettes数据集上进行了实验,结果表明,和浅层的受限玻尔兹曼机模型相比,深度学习模型能够更好地表达训练集形状,从包含多层非线性处理的深层结构中生成的形状看起来更符合实际,且深度玻尔兹曼机模型生成的目标形状要比深度信念网络模型更为清晰.实验中以形状图形化结果和形状相似性度量结果说明深度学习模型对训练形状的拟合能力较强,且具有较好的泛化能力.
- 单位