摘要

现代生物学不仅是一门实验科学,也是一门数据科学。为了增强生物数据的FAIR(Findable,Accessible,Interoperable,Reusable)特性,使它们能够为人、为机器所用,我们就必须推行数据的标准化。数据的标准化有很多实现手段,但对于生物学数据而言,目前只有对实验结果进行标准化最为可行。存放实验结果的数据库虽然都由数据管理系统、转换层和数据界面这三部分组成,但由于各数据库建立的目的和服务的对象不同,不同数据库的相同部分也常常遵循着不同的标准,这大大降低了数据可以被自动化处理的能力。使用统一的数据元素集建立在学科范围内具有普遍适用性的数据标准可以大大提高数据的可互操作性。本文以微生物的数据标准为例,在生物多样性、菌株资源和序列数据3个不同的层面介绍了相关数据标准并讨论了生物数据标准应达到的目的和应具有的特性,并通过《微生物资源中心数据管理和发布规范ISO 21710:2020》简要说明了建立微生物数据标准的方法。在最后我们列举了当今生物数据标准化所面临的一些困难以及可能的解决途径。