摘要

由于自然语言处理技术的快速发展,同义词替换技术已成为文本隐写的重要技术之一。同义词分布在中文文本中具有两个主要的特征:基于特定句子模式的特征和基于相似上下文的特征。而现有的方法只考虑其中一个同义词提取特征,忽略它们之间的互补性,导致同义词在中文本中提取的准确率和查全率较低。提出一种新的提取模型,该模型将以上两个特征结合起来,并针对句子模式的特征,采用词向量和信息熵来提取模式中的提示词;针对上下文的特征,利用TF-IDF对余弦相似度加权的方法来提取实体同义词。实验结果表明,该方法在查全率和准确率上有明显提高。