摘要
从高维、高变宏基因组数据中挖掘与疾病强关联的微生物特征是人体微生态研究的一大难题.受遗传学双生子研究的启发,本文开发了一种新型微生物特征挖掘算法——虚拟双胞胎(VTwins)算法.该算法通过将原始队列转化为具有相近的微生物组特征但分组不同的配对样本形成的配对队列来消除混淆因素的影响.结果显示,VTwins在识别因果特征的敏感性方面超过传统方法,并且将所需样本规模减小10倍,就可鉴定与疾病相关的微生物或代谢途径,并通过模拟和真实数据进行验证.与其他16种同类软件进行的基准测试进一步验证了VTwins在处理高维数据和挖掘宏基因组研究中的因果关系的能力和适用性.总体而言,VTwins可直接且强大地处理高变、高维数据,在宏基因组和其他组学数据的因果关系挖掘方面具有广阔的应用前景.VTwins的开源访问网址为https://github.com/mengqingren/VTwins.
- 单位