摘要

由于具有良好的可解释性,关联规则在基于疾病诊断的基因表达数据中表现出优越性,然而,高维基因表达数据中的大量规则阻碍了它的应用。为了缓解这个问题,提出正则化高斯混合模型RGMM(Regularized Gaussian Mixture Model),根据最小描述长度框架,挖掘离散化模型复杂度及信息丢失准则,通过离散化连续的基因表达数据,缓解监督方法中的过拟合现象,并且改善无监督方法中的一些缺点。在六个分类数据集上的大量实验验证了所提方法的有效性。实验结果表明,与其他几种最先进的方法相比,所提的RGMM方法在现实的基因表达数据集中更具实用性。