为解决微博网络暴力言论的自动识别和检测问题,基于微博语料进行了数据集构建,数据清洗等工作,提出一种改进的TFIDF(Term Frequency-Inverse Document Frequency)文本向量化方法。将传统方法和此方法构建的向量用于逻辑回归模型输入,分别创建出传统方法和改进方法的逻辑回归暴力文本分类模型。对上述模型做评估并进行横向比较,实验结果表明,改进方法的AUC指标和准确率分别为0.969和0.970,较之传统方法分别提升14.4%和15.5%。