随着信息技术的飞速发展,互联网中的网页急剧增长,在这海量、繁杂的网页中却呈现出一定比例的重复网页及近似网页。为了减少农业领域中近似及重复网页对农业垂直搜索引擎性能的影响,文中首先使用MD5算法去除网页集合中完全相同的网页,再利用向量空间模型(VSM)、基于知网的语义相似度模型及潜在语义分析(LSA)三种相似度判断方法对其余网页的相似度进行计算。实验结果显示,当相似度阈值r=60%、维数K=250时,潜在语义分析(LSA)的综合评价F1测度最高,且准确率达到了90.5%。