摘要

目前,汉语并列结构的研究对标注语料的依赖较强,无法利用未标注语料中的语义信息,且未引入半监督学习方法.该文以条件随机场为基本框架,提出了一种基于半监督学习的并列结构识别方法.从未标注语料中训练出词向量继而提取无监督特征,同时引入语言学特征进行对比实验,考察不同特征对并列结构识别效果的影响.实验表明,无监督特征的融入能提高并列结构的识别效果,使F值达到85.75%,语言学特征和无监督特征结合后的F值为85.77%.说明语言学特征对结果的影响甚微,而无监督特征的引入可以减少人工选取特征的工作量,并将语义信息以较简洁的方式融入识别模型中.