摘要

笔者在空间向量模型的余弦相似度算法基础上,通过添加权重、词性和辞藻的方法提高句子相似度计算的准确性,并通过改进原有最长匹配原则的关键字查找方法来提高关键字的查找速度。在该算法中,相似度的准确性主要跟词性和权重有关,因为在单个句子的相似度比较过程中,词频起到的作用比较小,因此词性的标注与其可靠性非常重要。