摘要

随着网络的快速发展,电子文本正在人们的生活中发挥着越来越重要的作用,但是电子文本中存在着大量的字词错误以及语法错误,亟需有效的校对方法来提高电子文本的质量.本文提出一种基于词语搭配关系的文本校对方法,包括构建语法-词语搭配双层知识库以及基于互信息和聚合度双重评价条件下的词语搭配校对算法.知识库的构建主要分为语法和词语搭配两部分:(1)从训练语料中抽取并分析语句结构成分,构建语法成分知识库;(2)从训练语料中学习词语之间的搭配关系,利用共现频数和互信息进行筛选,构建词语搭配知识库.在此基础上,综合使用互信息和聚合度评价词语关联强度,进行词语搭配关系校对.实验结果显示,本文所提出的校对模型和算法的F值与其他文献相比提高了3.9%.