摘要

数据里变量之间存在复杂联系,传统的数理统计方法已经不能解决问题,很多实际问题对数据处理提出了更高的要求.针对具有维度高,变量之间关联复杂,群组效应显著等特征的复杂数据提出了一个新的复杂数据处理方案:通过分析数据各变量之间的关联关系,找出具有群组效应的若干变量构成的变量簇,称其为团粒.为了有效地发现团粒,还提出了GC算法,用以获取若干具有群组效应的变量组.在发现团粒以后,通过分析团粒内部变量之间的相互关联,得到了反映团粒特征的内核变量.并通过实例分析说明该方法能有效地分析复杂数据变量之间的关联性.