摘要
互联网技术的蓬勃发展使人们获取信息的方式发生了深刻的变革,同时也使得互联网上的信息出现爆炸式增长。如何快速、准确地获得有用的信息及隐藏在信息中的知识,是当下人们的迫切需求。文本是互联网信息中最重要的数据类型之一,因此,文本挖掘已经成为数据挖掘中一个极为重要和繁荣的子领域。本文研究了通过文本卷积神经网络模型实现的互联网短文本多分类,对比了卷积神经网络模型与统计学模型朴素贝叶斯的效果差异,比较了不同词向量化方式对模型效果的影响,以及不同文本预处理方式对模型效果的影响。
- 单位
互联网技术的蓬勃发展使人们获取信息的方式发生了深刻的变革,同时也使得互联网上的信息出现爆炸式增长。如何快速、准确地获得有用的信息及隐藏在信息中的知识,是当下人们的迫切需求。文本是互联网信息中最重要的数据类型之一,因此,文本挖掘已经成为数据挖掘中一个极为重要和繁荣的子领域。本文研究了通过文本卷积神经网络模型实现的互联网短文本多分类,对比了卷积神经网络模型与统计学模型朴素贝叶斯的效果差异,比较了不同词向量化方式对模型效果的影响,以及不同文本预处理方式对模型效果的影响。