摘要

本文从政协提案初审时的查重需求出发,采用了以句子为特征撷取单位并选择句子中权重较高的词汇作为该句子的特征,从而得到提案文件的特征向量。研究以机器学习中的支持向量机来训练分类器,根据训练样本训练分类器,输入分类器的数据为比较的提案文件的相似度向量,最后判断相关的提案文件是否为近似复本文件关系。解决了提案查重的实际问题。