摘要
蛋白质的功能往往与其结构和动态变化密切相关.分子动力学模拟是研究蛋白质结构变化的有效方法,然而使用分子动力学模拟对蛋白质的构象空间进行采样需要花费很长的时间.近年来的一些研究表明,使用简单的机器学习模型——自编码器及其改进型,可以在有限采样的情况下,快速完成对蛋白质构象空间的探索.该模型通过训练神经网络,完成对隐变量的提取,同时根据其产生构象,但是由于提取出的隐变量没有直观的含义,探索构象空间的方向会受到影响.本工作通过引入反应坐标(如质心距离等),建立了一个中间层受监督的自编码器模型,以解决上述问题.该模型应用于噬菌体T4溶菌酶和腺苷酸激酶两个蛋白质分子,结果表明,仅使用短时间分子动力学模拟作为训练数据,就可以探索到这两种蛋白分子的多种典型构象.有监督(合理的反应坐标或者实验数据等)的自编码器模型有望成为探索蛋白质构象空间的有效工具.
- 单位