摘要

本文利用后缀树向量空间模型(VSM),为每篇文献建立相应的基于内容的向量模型,通过夹角余弦得出文献之间的相似度,再结合中国医学科学院医学信息研究所提供的文献数据,最终构建出医学文献相关性数据库。该模型与传统的基于词表的VSM相比,最大的优点表现为:在获得文本的向量表示时,不需要基于词表的分词和特征项提取,而其这一特点正好能够解决现在相关性数据库中词表的建立和维护问题,从而使得该模型能够实时获得文本的向量表示。该模型的另外一个优点是与语种无关。