摘要

[研究目的]传统主题建模忽略了词汇之间的关联情况,本研究提出一种基于语义距离的主题相似度计算方法,从而改进主题边界模糊的问题。[研究方法]基于文献题录数据,将生命科学领域文献按出版时间离散到不同年份,运用LDA主题模型聚类不同年份下的主题,分析主题强度和内容变化,在语义距离的基础上结合MeSH本体库,对不同年份下的主题进行相似度计算和关联,并揭示生命科学领域知识演化路径。[研究结论]考虑语义距离的主题关联方法对弱关联的主题识别具有一定优势,而不同主题的演化路径能够有效检测和跟踪主题,验证了本研究所提方法的科学性和可行性。

全文