基于中文文本的同义词提取方法研究

杨浩天; 胡勇; 王正

摘要

由于自然语言处理技术的快速发展,同义词替换技术已成为文本隐写的重要技术之一。同义词分布在中文文本中具有两个主要的特征:基于特定句子模式的特征和基于相似上下文的特征。而现有的方法只考虑其中一个同义词提取特征,忽略它们之间的互补性,导致同义词在中文本中提取的准确率和查全率较低。提出一种新的提取模型,该模型将以上两个特征结合起来,并针对句子模式的特征,采用词向量和信息熵来提取模式中的提示词;针对上下文的特征,利用TF-IDF对余弦相似度加权的方法来提取实体同义词。实验结果表明,该方法在查全率和准确率上有明显提高。

单位
四川大学

收藏分享被引(1) 浏览

更新时间：2024-04-12 21:42

基于中文文本的同义词提取方法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友