[目的/意义]提出一种适用于德语文本处理的文本相似度计算方法,填补了国内外德语文本聚类研究的空缺。[方法/过程]通过词语提取和特征词选择将每个德语文本表示为一个特征词的集合,寻找集合间配对的特征词对,由特征词对的匹配度得到文本间的相似度。[结果/结论]基于多个德语数据集的实验结果表明,相比于已有方法,本文提出的基于特征词配对的德语文本聚类方法提升了约5%的NMI值和约6%的Purity值。基于特征词配对的相似度计算方法能够保留更多的文本信息,从而进一步提升德语文本聚类的性能。