利用协变量调整控制混杂因子的鲁棒文本分类

董园园

doi:10.15888/j.cnki.csa.007161

摘要

针对目前很多文本分类方法很少控制混杂变量,且分类准确度对数据分布的鲁棒性较低的问题,提出一种基于协变量调整的文本分类方法.首先,假设文本分类中的混杂因子(变量)可在训练阶段观察到,但无法在测试阶段观察到;然后,以训练阶段的混杂因子为条件,在预测阶段计算出混杂因子的总和;最后,基于Pearl的协变量调整,通过控制混杂因子来观察文本特征和分类变量对分类器的精度影响.通过微博数据集和IMDB数据集验证所提方法的性能,实验结果表明,与其他方法相比,所提方法处理混杂关系时,可以得到更高的分类准确度,且对混杂变量具备鲁棒性.

单位
齐鲁师范学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-13 15:01

利用协变量调整控制混杂因子的鲁棒文本分类

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友