摘要
为了解决自然语言中的一词多义问题,本文提出了半监督集成的词义消歧方法。以歧义词左右4个邻接词汇单元的词形、词性和语义类作为消歧特征,利用逻辑回归模型、梯度提升决策树和支持向量机来确定其含义。采用软投票策略融合3个基本分类器获得集成词义消歧模型。以少量人工语义标注语料为基础,结合大量无标注语料,使用半监督学习方法来提高集成词义消歧模型的性能。使用SemEval-2007:Task#5的测试语料来度量词义消歧的性能。实验结果表明:所提出方法的平均准确率达到了72.80%,词义消歧的性能有所提升。本文提出方法能够降低人工标注语料的规模,提高词义消歧准确率。
- 单位