摘要

针对现有主题挖掘方法生成的主题分布稀疏、语义不连贯,并导致可应用性差等不足之处,提出了一种基于Gaussian LDA的在线评论主题挖掘方法。首先,通过word2vec训练得到在线评论的词向量,并基于Gaussian LDA模型获取在线评论的主题分布;然后,通过主题分布来计算评论的相似度矩阵并应用AP聚类算法实现在线评论聚类,通过分析聚类结果实现主题发现;最后,利用TextRank算法提取各主题的关键句子生成主题摘要,以完成对主题的描述。该方法可有效缓解消费者在线评论信息过载问题,通过淘宝、京东、豆瓣等平台7种不同类型产品的评论数据的实验计算证明了方法的有效性及现实应用价值。

全文