基于改进TFIDF-Logistic Regression微博暴力文本分类

作者:刘思新; 高珺; 田一龙; 魏韵郦; 李旭睿; 吴静*
来源:吉林大学学报(信息科学版), 2021, 39(06): 751-757.
DOI:10.19292/j.cnki.jdxxp.2021.06.020

摘要

为解决微博网络暴力言论的自动识别和检测问题,基于微博语料进行了数据集构建,数据清洗等工作,提出一种改进的TFIDF(Term Frequency-Inverse Document Frequency)文本向量化方法。将传统方法和此方法构建的向量用于逻辑回归模型输入,分别创建出传统方法和改进方法的逻辑回归暴力文本分类模型。对上述模型做评估并进行横向比较,实验结果表明,改进方法的AUC指标和准确率分别为0.969和0.970,较之传统方法分别提升14.4%和15.5%。