摘要

目的:构建具有高敏感性和高特异性的microRNA前体(pre-miRNA)识别模型。方法:根据300例经实验验证的人pre-miRNA和300例从3′UTR折成茎环结构的片段中随机选取的阴性样本,基于支持向量机方法构建了区分pre-miRNA和pseudo pre-miRNA的分类器MiRscreen。为提高分类器的性能,我们采用遗传算法搜索影响分类器性能的2个重要参数C和γ。结果与结论:该分类器对训练集的敏感性为99.33%,特异性为100%,对剩余的91例人pre-miRNA和91例3′UTR中的pseudo pre-miRNA敏感性和特异性分别达到91.21%(83/91)和93.41%(85/91)。在除人以外的其他20种动物和病毒的1353例pre-miRNA中,MiRscreen正确判断出其中的1192例,敏感性达到88.10%,其中马雷克病病毒、猕猴淋巴隐病毒、EB病毒、猿猴病毒40、非洲爪蟾、狗、绵羊和猕猴共计8个物种的敏感性达到100%;在随机抽取的100条RefSeq基因折叠形成的556例pseudo pre-miRNA和随机抽取的797例人19号染色体折叠形成的pseudo pre-miRNA(共计1353例混合阴性样本)中,MiRscreen的特异性达到85.14%(1152/1353)。与其他6种同类方法相比,MiRscreen在敏感性和特异性方面均具有较好的性能,分类精度最高,达到86.62%,比其他方法高6%以上;MiRscreen的AUC值达到0.938,也明显高于其他方法。

  • 单位
    军事医学科学院基础医学研究所