摘要

针对藏文舆情分析需求,该文以藏文新闻文本数据为研究对象,提出一种融合多特征的藏文新闻热点事件检测方法。首先研究藏文新闻热点事件产生的特点,分析热词的词频、词频增长率、网站影响力特征,提出热度度量方法,通过热度过滤获取热词集。其次分析事件词对分布特点,建立词对生成模型和词对语义引力模型,通过热度筛选获取词对集。最后采用凝聚式层次聚类方法,聚类混合表示的热词和词对,实现藏文新闻热点事件检测。测试结果表明,该方法最优F值达到0.600 0,优于对比方法,可以较有效地检测热点事件,具有一定的应用价值。