不同特征粒度在微博短文本分类中作用的比较研究

刘小敏; 王昊; 李心蕾; 邓三鸿

doi:10.13833/j.issn.1007-7634.2018.12.024

摘要

【目的/意义】随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化短文本形式的信息也急速膨胀。如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域的重要课题之一。【方法/过程】本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用。【结果/结论】实验结果表明,对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现。因此,在口语化短文本分类中选择字特征或许是一个较实用的、效果较好的方法。

单位
南京大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-24 13:35

不同特征粒度在微博短文本分类中作用的比较研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友