摘要
基因组学/系统生物医学、转化医学、精准医学时代以来形成的生物医学大数据不仅是生物医学领域开展数据密集型研究的基石,成为与人口健康、社会发展和国家安全相关的战略资源,而且还是利用人工智能赋能“大健康”产业发展的核心生产要素(常简称为“数据要素”)。生物医学数据元素具有与生物和医学相关的“跨尺度、多源性、高维度、细粒度”等异质性复杂体系特征,因此,具有4V特征(Volume、Velocity、Variety、Veracity)的海量生物医学数据的数据元素必须经标准化规范整合并供共享分析,才能将海量生物医学数据质变转化为生物医学大数据,发挥生产要素的功能,实现生产要素的价值。这个价值释放的“要素化”过程,面临着特有的机遇与挑战,特别是已经成为生物学与健康医疗大数据最核心的基础的多组学及多模态数据,与欧美相比,我国数据“多而不强”,由于开放共享程度低、集中程度不高,难以评估数据质量。数据库是生物医学数据共享的主要载体,其数据来源和共享模式直接影响数据要素的价值释放过程。数据中心是数据库的建设及运维主体,也是各类数据元素转换为适用各类应用场景的数据要素的重要参与者和推动者,处于数据要素化不可或缺的核心环节。在从数据元素转换到数据要素的过程中,我们面临着存量数据规模与数据规范化集成的治理能力不匹配、已开放的数据规模与数据分析挖掘的治理能力不匹配的挑战,需要在数据、数据库、数据中心三个层面上加强数据治理和数据共享等基础性工作。我们建设了1(套整合交互共享导向的数据资源服务体系)-2 (个标准化数据分析平台)-3 (种科学/技术问题驱动的健康医学数据治理平台)-X (类面向应用场景的智能分析服务体系)的生物医学大数据技术体系,秉承“安全管理、信息共享、标准增值、技术创新、尊重产权、高效利用”理念,努力将数据中心从成本中心转换为价值中心,可为生物医学大数据“要素化”提供借鉴。
-
单位中国科学院