基于距离函数值和打分值的GBM算法预测酸根离子配体结合残基

作者:尤肖肖; 胡秀珍*; 孙锴; 王子洋; 徐爽; 杨彩芸; 郝四喜
来源:内蒙古工业大学学报(自然科学版), 2021, 40(06): 420-427.
DOI:10.13785/j.cnki.nmggydxxbzrkxb.2021.06.004

摘要

在生命活动中,酸根离子是一种重要的蛋白质配体,蛋白质与其结合才能发挥重要功能.因此,识别蛋白质-酸根离子配体结合位点具有重要的意义.选用SO42-,PO43-,CO32-和NO-2配体作为研究对象,采用距离函数和矩阵打分算法分别提取基础特征参数的组分信息和位置保守性信息,使用GBM算法对蛋白质-酸根离子配体结合残基进行预测.五交叉检验下得到较好的预测结果,其中CO32-和NO-2配体结合残基识别要好于IonSeq方法的结果.为了进一步验证预测模型的实用性,我们选用了欠采样方法处理数据集,将同样的特征参数放入GBM算法中,独立检验结果好于随机森林算法和SMO算法的预测结果,也好于前人的预测结果.