摘要
用于文本分类领域的协同训练往往需要特征集的一个自然独立分割,但对大多数语料而言这种分割都很难获取或不存在。给出了特征子集间在类别下条件独立性的定量描述,并在此意义下提出了局部特征集分割的策略,以及两种分别基于样本聚类和图分块的以独立性为前提的特征集分割算法。在两个语料库上的分类实验证明:在该方法所获得的特征集分割下,协同训练方法能有效利用未标注样本提高分类器的综合效果,从而有效扩展了协同训练的可用性。
- 单位
用于文本分类领域的协同训练往往需要特征集的一个自然独立分割,但对大多数语料而言这种分割都很难获取或不存在。给出了特征子集间在类别下条件独立性的定量描述,并在此意义下提出了局部特征集分割的策略,以及两种分别基于样本聚类和图分块的以独立性为前提的特征集分割算法。在两个语料库上的分类实验证明:在该方法所获得的特征集分割下,协同训练方法能有效利用未标注样本提高分类器的综合效果,从而有效扩展了协同训练的可用性。