摘要
民生一直是社会重点话题,近两年的疫情防控又为话题聚焦和演化注入了新的内容.本文基于大量区域化民生数据进行LDA模型的困惑度分析,证明多源文本话题比单源文本更全面.并进一步提出了民生话题演化技术框架,创新设计了热度演化率和关键词演化率的计算方法和实现算法.基于HTDI模型和关键词演化率,综合设计了民生话题演化指数LTEI.实验数据采集于北京大兴区的官方微博和百度贴吧.实验结果表明,TF-IDF模型比TextRank模型更合适计算关键词演化率;与HTDI指数相比,LTEI指数与实际话题演化趋势更加贴合,更适合用于区域民生话题演化分析.
- 单位