摘要

分子动力学(MD)模拟可以很好地用于揭示蛋白质等生物大分子体系在原子尺度的结构及功能的关系.分子动力学模拟通常产生海量的描述分子在模拟中运动的数据,包含很多模拟轨迹以及随时间演化的各个原子的坐标和速度等.为了从这些海量数据中获得体系的分子机制,需要发展并利用聚类算法来将这些海量数据进行归类,聚类算法通常将具有某些相似度的构象聚成一类,这些相似度可以分为两类,几何相似度以及动力学相似度.对应地,用于分析分子动力学模拟的聚类算法通常可以分为两大类:几何聚类及动力学聚类.本文列举了一系列常用的用于分子动力学模拟的聚类算法包括分裂算法,凝聚算法(单连锁,完全连锁,平均连锁,质心连锁以及Ward连锁),中心算法(K-Means,KMedoids,K-Centers及APM),密度算法(邻居算法,DBSCAN,密度-峰及Robust-DB算法),谱算法(PCCA, PCCA+)等.本文讨论了几何分类和动力学分类的不同点以及不同算法的性能.另外注意到并不存在某一个适用于所有MD数据的聚类算法.对于某个特定体系,选择一个合适的聚类算法取决于聚类的目的,MD构象系综的内在性质等.因此,本文的一个要点也在于介绍每个聚类算法的优缺点.期望通过本文,能够指导读者在MD模拟中选择一个合适的聚类算法.