摘要

针对文本数据非结构化、数据量大、高维稀疏性、蕴含语义情感,无法利用现有数据挖掘技术直接对其进行分析的问题,设计并实现了对文本这种特定类型原始数据的数据挖掘。实验以新华网习近平报道专辑中关于新冠疫情的讲话原文为例,利用R语言设计图形用户界面,对比分析出2020年中国抗击疫情经历了积极应对突发疫情、遏制蔓延势头、疫情防控常态化3个阶段,并通过隐狄利克雷分配模型(latent Dirichlet allocation,LDA)挖掘出了文本所包含的核心主题,实现了中文分词、特征提取、词云图绘制、主题建模等功能。结果表明,该实验切实可行,具有一定的学术价值。