摘要

由于隐私保护问题,银行无法完全获取客户的信息,特别是信贷客户的违约信息,从而加大了银行的财务风险。决策树、支持向量机等传统的机器学习方法基于标签已知的学习场景进行模型构建,但在没有标签的情况下构建分类模型是一个巨大的挑战。标签比例学习问题的提出,为这一困境提供了解决思路。在仅使用无标签样本的标签比例信息的条件下,构建一个分类模型,可以对信贷客户进行有效分类,具有重要的现实意义和实践价值。笔者将比例标签学习问题和机器学习中的流行算法生成对抗网络相结合,对UCI数据集German Credit Dataset进行随机分包,通过对比有无标签下算法的训练结果,证明了所提出算法的有效性。