摘要

由于OTA(在线旅游)和UGC(游客的用户生成内容)数据的内容较为分散和碎片化,导致有效数据获取率极其低下。而在当前针对有效数据获取情况的研究中,缺乏能够从文本中抽取相关旅游要素的解决方法。为此,借由LDA主题模型构建文本相似度计算规则,构建文本分类模型对无标注的微信公众号文章进行主题分类;借由TextRank关键词提取方法,提取出各个评论中的产品名称,并通过中文情感分析在产品评论的基础上建立多维度热度分析模型做出年度热度排行;采用Apriori关联分析思想对产品进行关联度排行,旨在能够帮助分析新冠疫情时期城市周边游的发展和未来规划。

全文