摘要

目的 探究T2DM的中医证侯特征、T2DM发生发展不同病程阶段的证侯分布特征、优化T2DM中医证候诊断模型,为T2DM证候诊断标准的研究提供依据与指导。方法 基于国家科技重大专项中医证候生物学技术平台,以大量临床证候数据为研究对象,清洗出1255条有价值的数据。基于条件概率公式对缺失的数据进行数据补全,运用多标签分类学习算法,构建了卷积神经网络模型,对输入为T2DM人性别、年龄、病程、症状等多个属性,预测T2DM证候特征。结果 应用传统机器学习算法在未进行数据补全之前,能够达到最高60.82%的准确率。利用全连接神经网络与卷积神经网络抽取数据的高维特征能够较好地提升准确率达64.65%。基于条件概率公式对缺失的数据进行补全,较大程度地提升了传统机器学习算法和神经网络算法的准确率,分别达到72.75%和75.47%。并通过多种传统机器学习算法计算出的不同输入属性对预测值的贡献比例进行统计,得出年龄属性对证候预测结果的贡献最大,达到22.65%,其次是病程。结论基于条件概率的数据补全和CNN的多标签分类学习模型用于T2DM证候诊断研究是可行的和有效的,模型具有较强的泛化力,稍作修改就可用于其它疾病的临床数据分析,为中医智能化提供新的思路。