摘要

针对中文问题中分类有效信息较少这一特点,提出一种融合类别线索词集(CCWs)的自动特征组合绑定算法。该方法在提取词袋、词性和命名实体的基础上,通过对问题意图刻画更为准确的中心词、主语、疑问词以及疑问词相关成分作为问题类别线索词集。通过实验表明,利用CCWs和基本特征进行特征组合以及绑定后形成的新特征,在小规模不平衡的语料数据集上能有效提高分类器的分类性能。该组合绑定的方法在一定程度上提高了SVM分类器的精度,分别在小类和大类上达到86.77%和94.08%。