摘要
提出了一种基于海量公开新闻数据的重大事件趋势预测框架。首先,对使用网络爬虫爬取的专题新闻数据进行时间片划分和趋势等级划分等处理;然后,考虑到数据有较大噪声和稀疏性强等特点,提出了一种融合层次聚类、单词贡献度和潜在Dirichlet分布(LDA)主题模型的特征抽取方法,抽取具有表征性的单词为特征,构建特征集合;最后,采用多项式逻辑回归方法构建重大事件趋势预测模型。以朝鲜核活动预测为例,验证了该框架的性能和有效性。
-
单位自动化学院; 杭州电子科技大学