摘要
本发明公开了一种基于主题模型和概念漂移检测的短文本数据流分类方法,包括:1从知识库中获取外部语料库构建LDA主题模型;2根据滑动窗口机制将短文本数据流划分成数据块,并用LDA主题模型扩展数据块中的短文本得到扩展后的数据流;3在扩展后的短文本数据流中对每个数据块构建online#BTM主题模型,并获得每个短文本的主题表示;4选择Q个主题表示的数据块构建一个分类器,用于预测新到来数据块的类标签;5根据类标签分布将Q个主题表示的数据块划分成类别簇,计算类别簇与新到来数据块的语义距离以判断是否发生概念漂移;6根据概念漂移情况,更新分类器。本发明可用于类标签分布不断变化的短文本数据流分类问题。
- 单位