摘要

为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法在处理网络文本聚类时受输入顺序及精度较低的不足,本文对single-pass聚类算法进行改进,通过采用average-1ink策略及引入"代"的思想分批聚类,在借鉴single-pass聚类方法简单高效的同时,又克服了其缺点,兼顾了网络话题发现的实时性和准确性,通过实验分析改进后的single-pass算法比single-pass算法在漏检率、误检率和耗时方面都有很大改观。实验证明改进的算法在提高话题发现准确度上的有效性和实用性。

全文