摘要

互信息可以度量变量之间的任意相关性,基于互信息的特征提取方法已被广泛的应用。但基于互信息测度的特征提取方法,易于偏向于选取取值多的特征变量。我们提出了一种新的关联度的定义形式,该关联度可以有效避免直接用互信息进行提取时偏向于取值多的特征变量,又可避免用关联度系数方法偏向于取值少的特征变量的弊端。在该方法中,选取的特征变量的个数是通过支持向量机的正确分类率来确定。最后,通过分析中风病对应的7种常见的证候要素类型的症状组合问题,验证了该特征提取方法的可行性。