摘要

面对海量群聊天,如何快速对群体类别进行分类,以帮助公安精准地找出利用网络社交平台进行违法犯罪的群体,具有重要的研究意义。然而由于群聊的聊天内容具有非正规、不完整等特点,因此在分类应用上具有一定的挑战性。从群聊的文本特性出发,通过TF-IDF技术将词向量进行赋权转化,利用梯度降维的方法对词向量进行降维处理,利用机器学习算法对词向量进行文本分类等步骤,搭建面向群聊的分类模型,降低群聊在分类应用上的难点。通过实验对分类模型的效果进行验证,实验结果表明该方法可以有效地检测出违法犯罪的社交群体。