摘要
针对聚类算法在教育大数据应用中存在的聚类数目依赖人工经验等问题,提出一种新的聚类有效性指标,用簇内全部样本与簇中心的距离之和表示簇内紧密度,用任意两簇间样本距离和的最小值表示簇间分离度,通过平衡簇内紧密度和簇间分离度之间的关系,实现最优聚类的划分。在UCI和KDD CUP99数据集上的测试结果表明,新指标的聚类质量评价结果有效、可靠。在此基础上,结合近邻传播算法设计新的聚类分析模型,使用该模型对某高校学生的职业能力进行聚类分析,结果表明:新模型能够准确地给出聚类数目k,有效地挖掘出学生的职业倾向,可以为大学生职业潜能分析、企业的人才选择提供依据与决策。
- 单位