摘要
本发明属于数据挖掘技术领域,公开了一种在大数据集中计算单变量与多变量间的最大信息系数的方法及系统,用以计算单个变量Y与m个变量(X1,X2,...,Xm)之间的最大信息系数。该方法在于找寻多维(m+1维)空间的最优网格划分:首先利用单变量和m-1个变量的最大信息系数算法固定m个变量(X1,X2,...,Xm)的划分,之后再对Y变量进行划分,进而找到对于变量Y与m个变量(X1,X2,...,Xm)较为合适的划分,之后计算归一化后的最大互信息值并作为最大信息系数数值。本发明能够解决现有的计算最大信息系数计算方法无法应用到计算单变量与多变量之间最大信息系数上的问题,本发明所设计的一种单变量与多变量间最大信息系数近似处理方法及系统,能够计算单个变量与多个变量之间的最大信息系数数值。
- 单位