摘要

[目的/意义]针对目前医学文本中疾病—基因等实体关联关系在知识发现中结合主题的研究较少,不足以揭示医学领域知识在主题层面的深层语义关联关系,提出了一套结合全文文本和领域知识主题的语义相似度计算方法。[方法/过程]以肿瘤期刊全文本为研究对象,用TWE模型进行词向量和主题向量的词嵌入表示,基于Siamese Network框架结合文本和领域知识主题进行相似度计算。[结果/结论]实验表明,该研究所提出的相似度计算方法在验证集中的预测F值达94%,最后通过对测试集数据进行聚类分析,从高、中、低频以及未进行临床注册实验的角度对疾病和关联基因进行分析,发现当前的热门研究以及未来可能成为研究热点的靶点基因。