摘要
随着信息技术的普及应用,城市公共服务热线平台累积了大量亟待分析的民生诉求数据.传统事件检测方法缺少对于地域模式的考虑,同时,其所依赖的GPS地理信息也不易获得.因此,难以直接运用现有的突发事件检测方法挖掘公共服务热线中潜在的民生突发事件.为此,本文提出了一种基于地域自适应的突发事件实时检测方法(RAEDetection).首先,提出一种基于增量式Kleinberg模型的突发词识别算法,克服了现有批处理式Kleinberg模型的局限性,可从流式增量数据中实时识别突发词汇;然后,提出一种基于分层语义分析的候选突发事件识别算法,以突发词为线索,先根据突发词的主题层语义信息确定突发主题事件,再根据诉求记录的事件层语义信息将每个突发主题事件进一步细分为多个候选突发事件;最后,提出一种基于事件地域树的地域模式自适应识别算法,通过构建包含市级、区级、街道级三层结构的事件地域树,并通过基于KL距离的事件地域分布检验与优化,自适应地识别不同事件发生的地域模式,过滤候选突发事件中的噪声数据,得到最终的突发事件.在城市公共服务真实数据集以及Twitter数据集上的实验结果表明,与目前最新的方法对比,本文方法具有更高的检测准确率和更快的计算性能,能够有效地检测出数据流中的突发事件,算法具备良好的数据和系统可扩展性.本文方法已经成功落地应用于江苏省公共服务热线平台,提供高效的自动化和智能化突发事件检测服务.
-
单位南京大学; 计算机软件新技术国家重点实验室