摘要
热点新闻事件的发展十分丰富,各个阶段的发展都有其独特的叙述,并且随着事件的发展呈现出层次化故事脉络演化的趋势。针对现有故事脉络生成方法存在脉络可解释性不佳以及缺乏层次性的问题,提出一种面向热点新闻事件的层次化故事脉络生成方法(HSGM)。首先,采用改进热词算法来挑选主干种子事件,以构建主干脉络;其次,挑选分支事件热词以增强分支可解释性;然后,在分支脉络中采用融合热词关联度与动态时间惩罚的脉络连贯度挑选策略来增强父子事件的连接,以构建层次化热词,进而构建多层次故事脉络;此外,考虑到热点新闻事件存在潜伏期,在脉络构建过程加入孵化池以解决因热度不够所产生的初始事件被忽略问题。在两个自建真实数据集上进行实验的结果表明,在事件追踪过程中,与分别基于singlePass和基于k-means的方法相比,HSGM的F值分别高出了4.51%、6.41%和20.71%、13.01%;而在脉络构建过程中,与Story Forest和Story Graph相比,HSGM在两个自建数据集上的准确性、可理解性、完整性方面表现良好。
- 单位