摘要
生物合成基因簇(biosynthetic gene cluster, BGC)是一类非常重要的基因集合(gene set)类型。BGC普遍存在于各类生物基因组中,并且发挥着重要的代谢和调控作用。从线性结构上来说,一个BGC中的基因通常在基因组中处于相邻的位置;从基因功能上来说,一个BGC中的基因通常共同负责一类通路,生成特定的化合物小分子。因此,BGC作为极具潜力的元件来源,在合成生物学研究中极为重要。然而从序列模式上来说,一个BGC中的基因数量众多且序列差异度大,很难通过序列同源性发掘新类型的BGC。因此,建立生物合成基因簇的智能发掘策略,系统性地发掘BGC并进行验证和转化研究,不论在理论方面还是实际应用方面,都具有非常重要的价值。本文主要基于微生物组大数据,较全面地介绍了BGC挖掘的意义和瓶颈问题,系统性地总结了当前BGC发掘中的数据资源和挖掘方法,尤其是人工智能方法,指出了干湿结合方法对于验证新发掘BGC的重要价值,同时展示了新发掘BGC的多样性和广泛应用领域。最后,展望了结合现有BGC挖掘方法和合成生物学转化,将如何在广度和宽度方面扩展目前的合成生物学研究。
- 单位