摘要
案件舆情时间线生成是将同一案件的舆情新闻按照时间顺序生成话题簇,对于用户了解案件的发展过程具有重要意义,本质可以看做一个时间约束下的无监督聚类任务。但是描述同一案件的舆情新闻可能存在许多相同的要素导致其在聚类空间中的表征出现重叠。为了生成更有区分度的文本表征,基于自编码框架,提出一种差异性案件要素增强的案件舆情时间线生成方法。首先构建涉案舆情时间线数据集并生成每条微博文本的差异性要素;然后将差异性要素、微博文本和案件时间作为BERT编码器的输入,基于自编码框架生成文本的低维特征向量;最后基于该特征向量和K-Means聚类的方法,使用软聚类生成案件舆情时间线。实验结果表明,在构造的涉案舆情时间线数据集上,提出的方法在ACC和NMI两个聚类指标上均有较大提升。
-
单位自动化学院; 昆明理工大学