摘要

话题跟踪的目的是将新的新闻数据分配到已知话题中,对把握新闻发展趋势和进行舆情分析具有重要作用。本文深入分析了几种基于向量空间模型的特征项权重算法,发现传统算法没有充分体现特征项中类别信息的作用,在此基础上引入了类别区分度因子对卡方统计量进行改进,给出了加入类别信息的卡方统计量算法,该算法能够更准确地提取出对新闻区分度较大的特征项。同时,在特征项权重的框架内对常用的softmax线性模型进行了基于余弦假设的改进。基于标准数据集TDT4的实验表明,本文给出的权重算法和分类算法均能够提高话题跟踪的查全率和查准率。