摘要

为了解决自然语言处理领域中的一词多义问题,本文提出了一种利用多种语言学知识和词义消歧模型的半监督消歧方法.首先,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯(Bayes)词义分类器,并以歧义词汇左、右邻接词单元的词形和词性作为消歧特征,来构建最大熵(maximum entropy,ME)词义分类器;其次,采用Co-Training算法并结合大量无标注语料来优化词义消歧模型;再次,进行了优化实验,在实验中,使用SemEval-2007:Task#5的训练语料和哈尔滨工业大学的无标注语料来优化贝叶斯分类器和最大熵分类器;最后,对优化后的词义消歧模型进行测试.测试结果表明:与基于支持向量机(support vector machine,SVM)的词义消歧方法相比,本文所提出方法的消歧准确率提高了0.9%.词义消歧的性能有所提高.