摘要

由于历史流传过程中一些不可抗因素,唐代著名诗僧部分诗句出现残缺。通过引入自然语言处理的相关技术进行填充。首先对唐代诗僧皎然、齐己、贯休的完整诗句采用中文分词系统进行分词,获得词典并利用TF-IDF方法构造特征向量;其次,采用KNN分类算法,利用向量空间模型的余弦相似度作为度量标准,选取词库中相似度最高的词语对部分残缺诗句进行填充。最后,为了验证该算法的可行性,分别进行两组对比实验。实验结果表明,所提出的方法对填充词语提供客观的衡量标准,具有较强的可行性,对文学研究具有一定的参考价值。