摘要
针对藏文文本情感计算研究,将CNN-LSTM深度学习模型引入到藏文微博情感计算,弥补了少数语言自然语言处理研究的缺乏,对藏文研究具有一定的推动作用。针对藏文语料的不公开,通过藏文同反义情感词典对标注好的藏文微博语料中情感词汇的同反义词进行替换,进一步扩充了藏文微博语料,以适合深度学习对大数据语料的要求。藏文微博分词后,利用Word2vec工具训练出藏文微博词向量模型,提高特征向量对文本深层次语义信息的表达;然后,将训练好的词向量和对应的情感倾向标签直接引到由卷积层、池化层、LSTM层、全连接层等构成的CNN-LSTM模型,在每一层的输出做归一化处理;最后经过Softmax分类器对藏文微博进行情感倾向分类,并与LSTM以及传统的情感词典做了实验对比。结果表明,该算法获得了较好的分类效果。
- 单位