摘要
向量空间模型是目前比较主流的文本表示模型,在多个领域内都有着很好的表现,但它却有着维度较高、不能有效提取特征词语义、文本表示稀疏等缺陷。针对以上不足,在传统的向量空间模型的基础上引入能高效获取语义的词向量,提出一种新的文本表示模型。该模型首先通过对特征词的词向量聚类,用聚类质心代表该类的其他特征词,求出聚类质心的TF-IDF权值,能够降低文本表示向量的维度、优化文本表示稀疏的问题和改进在计算TF-IDF权值中遇到的一词多义和同义词问题;再将聚类质心的权值与其词向量结合生成文本表示向量,使其能有效获取文本语义信息;最后用于文本分类。在搜狗语料库中验证该模型的有效性。
- 单位