摘要
文本作为一种重要信息载体,对之提取的特征有着直观的含义,但其数量太多。因而,选取合适的特征子集对后续任务至关重要。作为基于文档频率的文本特征选择方法,相对判别准则只关注了特征与类别的相关性,并以此来进行特征选择。为了去除冗余特征,文章在相对判别准则的基础上提出了去冗余相对判别准则。去冗余相对判别准则引入了可计算的文本分布式表示,以此来计算冗余,并结合相对判别准则来进行特征选择。文章在Reuters21578数据集上进行了实验,与先进文本特征选择方法进行了对比。实验结果表明:去冗余相对判别准则在分类准确度指标上有一定提升,尤其在选择特征维度较大的情况下能有效地避免冗余,具有显著的去冗余能力。
- 单位