摘要

情感分类是通过分析用户在互联网中发布评论数据进行情感倾向判断,其过程需要质量比较高的情感资源。然而这些情感资源在不同语言之间的存在相当不均衡,一些语言的资源相对匮乏限制了情感分类的发展。因此借助源语言的资源预测目标语言情感取向的跨语言情感分类吸引了很多研究者的关注。在以往进行的跨语言情感分类研究中,主要借助机器翻译引擎进行两种语言之间的映射,但是这些方法的分类效果严重依赖于翻译的质量,同时很难去获取到文本中的情感信息。本文提出了一种基于共享空间的跨语言情感分类方法,该方法是通过TF-IDF算法提取语料集中的关键词,使用LDA模型进行主题分析获取主题词序列,依据所得结果构建双语词典,去学习一种共享空间表示,同时根据情感极性词典可以获取到文本中的情感信息。当获取共享空间表示后,将训练数据(源语言)转换到该空间,利用学习到的共享表示训练分类器,测试数据(目标语言)同样转换到该空间对分类器进行测试。实验结果表明本文的方法可以减少源语言和目标语言之间存在的数据不均衡问题,有效地进行跨语言情感分类。