摘要

为了实现大型语料库中近义词/同义词短语的查找,提出了一种基于共同语境的近义词/同义词短语查找模型,它通过n-gram分布式方法捕获语义相似性,不需要解析就能隐式地保存局部句法结构,使底层方法语言独立;具体实现分为两个阶段:第一阶段是上下文收集和过滤,即用围绕查询短语的本地上下文作为条件模型的特征来捕获语义和语法信息。第二阶段是候选词短语收集和筛选,即对数据中的每个"左""右"和"配对"的全部实例进行迭代,以收集一组近义词/同义词候选短语;还给出了构成模型的要素和用于评价模型性能的评分函数;基于不同大型语料库的实验结果表明,提出的建模方法在总的统计评分查找性能和整体可扩展性方面都优于常用的其他查找方法模型。