摘要

本文设计算法对疫情相关的微博内容进行情绪识别,判断内容是积极的、消极的还是中性的。以识别准确率为评价指标,使用机器学习、深度学习等多种AI算法进行实践,并分别进行模型调优。通过实验表明:相比传统机器学习算法,深度学习算法在疫情相关文本情感分类任务中具有较为明显的优势。在机器学习算法中,TfidfVectorizer在文本特征提取上优于CountVectorizer,Lightgbm集成算法的实际效果优于朴素贝叶斯。在深度学习算法中,使用BERT预训练的Embedding实际效果优于Word2VecEmbedding。

  • 单位
    中国电信股份有限公司