摘要
反问句作为汉语中常用的表达方式,具有丰富的感情色彩,如能对其进行正确地识别,将会改善情感分析等任务的结果。文章利用半监督学习和主动学习,提出了一个半自动的反问句语料收集方法,构建了面向新闻评论的汉语反问句语料库,语料库规模达到6 000余句。文章进一步分析了语料库的特点,利用句法路径特征、位置特征在多个模型上进行反问句识别实验。实验结果表明,利用文章构建的反问句语料库能够训练出具有较高性能的反问句识别模型,模型的精确率、召回率、F1值分别达到90.79%、93.57%和91.30%。同时实验结果验证了句法路径特征与位置特征在识别反问句上的有效性。
- 单位