摘要
如何高效地从图像、视频等多媒体数据中挖掘网络舆情事件的关联主题给网络舆情的有效监管带来了重大挑战.研究图像和视频截图等多媒体数据中文本信息的抽取方法,并在此基础上实现舆情关联主题的检测.选择新浪微博中的3个典型舆情事件为研究对象,设计网络爬虫收集事件中的文本、图像和视频多模态数据;采用连接文本提议网络(connectionist text proposal network,CTPN)的文字检测算法实现文本信息定位,利用DenseNet网络和连接时序分类(connectionist temporal classification,CTC)相结合的方法进行文本提取;提出多粒度潜在狄利克雷分布(multi granularity-latent Dirichlet allocation,MG-LDA)和jieba分词相结合的舆情关联主题提取方法.实验结果表明,所提出的方法可准确提取多媒体数据中不同格式、不同分辨率、不同颜色、不定位置和不同角度的文本信息,为精确把握舆情演化态势提供有力的数据支撑.
- 单位