摘要

在人工智能和大数据时代,通过分析数据来发现规律已经成为一种趋势。作为当前较为普遍且流行的数据信息,文本数据已经广泛地被用于各种分析。在文本数据分析领域,文本语句的褒贬含义研究是目前的一个重要研究方向。通过对一些主观性言论情感色彩的倾向性分析,这种研究有助于了解公众对某些热点事件的看法和意见。本文通过基于信息熵的文本挖掘理论,结合褒贬词的比例,提出一种文本语句整体褒贬判断的方法—比例信息熵。实验结果表明,相比于目前所流行的几种典型的信息熵方法,比例信息熵对文本整体信息的褒贬倾向性分析是有效的。