摘要
本发明公开了一种基于社区检测的增量聚类算法,其特点是采用Community社区概念和Online-Offline两阶段框架并引入IMC概念,由文档表征词向量、文档的表征关键词与文档的命名实体识别预测词共同经相似度计算方法得到目标语料的相似度图,最后对相似度图先使用Louvain算法得到初始化社区结果,并在初始化社区结果的基础上使用增量聚类算法得到最终的聚类结果。本发明与现有技术相比具有在同等硬件条件下降低计算时间开销,快速生成聚类结果,以便更好地服务于应用场景的上下游业务,做到及时响应,实现了区分热点事件与持续报道事件的功能,从而对新闻事件做了有效的聚类与事件级别的过滤。
- 单位