摘要
训练样本的质量直接影响训练阶段的训练质量(或效果),进而在一定程度上影响测试阶段的分类精度。训练样本的代表性和典型性则反映出训练样本质量的一个重要方面。对于当前非常流行的深度学习模型研究,如何尽可能地减少训练样本的数量,一方面成为一个非常“棘手”的问题,另一方面从实际应用的角度来看,这也上升为一个经济或成本方面的问题。提出了一种适用于训练样本选择的斜交因子模型方法,该方法松弛了Q型因子分析和对应分析对于公因子之间独立的假设条件,并在斜交参考解的基础上提出一种适合训练样本选择的近似求解斜交旋转的方法。实验结果表明,所提方法是可行、有效的。与基于正交因子模型的方法相比,它可以更好地描述或逼近现实的真实情况,可以选择出更合理、更具有代表性的典型训练样本,并且还可以取得满意的分类精度。适用于训练样本选择的斜交因子模型方法优于基于正交因子模型的训练样本的选择方法,被选择的训练样本分布相对更分散、更合理,而且总的分类精度平均提高3%左右。
- 单位