摘要
目的探讨不同无监督数据分析方法分析中医证候的效果差异。方法基于临床采集的肝炎肝硬化患者中医症状数据,比较层次聚类、因子分析、复杂网络、K-means方法从症状和患者角度分析中医症状数据、挖掘其潜在规律、根据医学知识对数据分类及归纳得到证候的差异。结果从症状角度分析,层次聚类基于症状变量之间的距离关系进行聚类,能反映近似的症状从而推导出证候;因子分析用降维寻求少数潜在变量来综合反映原始指标的大部分信息,能反映出证候的主要症状。但这2种方法都无法将一症状同时归纳到多个证候,不适合临床实际中某症状属于多种证候的情况。复杂网络通过症状及症状的关系构建网络,较适合于对某种确定证候所涉及的症状进行分析,但不太适合对证候的推导与辨证。从患者角度分析,层次聚类和K-means对患者人群聚类后,可把相似的患者聚为一类,但不能同时从多个侧面进行聚类,即无法体现一个患者同时具有多种证候,不适合实际临床中的多种证候兼夹情况;对比专家组经验并分析频次发现,二者聚类结果一般。结论使用常规数据挖掘方法分析中医数据,在挖掘从症状到证候的关系时,单个方法能完成单一角度分析,但无法同时满足症状属于多种证候、患者具有多种证候的兼夹情况等多角度分析,需要改进或尝试采用新的方法研究从症状到证候的数据挖掘问题。
-
单位河南中医药大学; 福建省汀州医院