癌症标志本体构建与应用

作者:吴萌; 康宏宇; 徐晓巍; 侯丽*; 李姣
来源:中国医学科学院学报, 2023, 45(04): 618-626.

摘要

目的 构建一种可溯源的癌症标志知识本体,支持基因突变、癌症标志和细胞系等相关数据整合、标准化和关联,并基于该本体实现新知识发现。方法 基于“七步法”和现阶段本体的构建方法,明确癌症标志本体覆盖范围、框架结构、可复用的术语和新增术语;以结直肠癌为例,利用文本挖掘和文本分类技术对PubMed文献中结直肠癌标志相关知识进行提取,利用癌症标志本体对提取的知识进行规范化表达。结合癌症体细胞突变目录中已有的癌症标志证据和进一步语义检索,实现新知识的发现。结果 最终构建癌症标志本体包含类9910个,实例6138个,实现2310篇涉及结直肠癌标志文献摘要和26个结直肠癌标志相关证据的语义表示。与癌症体细胞突变目录数据集相比,本研究发现与结直肠癌相关的多个基因的癌症标志的新证据。结论 本研究有助于整合癌症分子层面的致病机制,了解基因突变在癌症发生过程中的具体作用,实现癌症标志知识的快速发现。

  • 单位
    中国医学科学院北京协和医学院