摘要

【目的】针对情感分析研究中网络用户评论质量良莠不一的问题,构建过滤模型进行筛选。【方法】选取涉及产品词汇量、评论长度、情感强度、修饰词数量4个指标作为评判依据,利用多元线性回归方法和来自购物网站的数据构建模型。【结果】发现涉及产品词汇量、评论长度、情感强度、修饰词数量与评论质量存在相关性。所构建的过滤模型具有较高的召回率和准确率,为情感分析中数据源的筛选提供一种新方法。【局限】存在数据稀缺性影响,所构建的模型具有局限性。【结论】在误差允许的范围内,该模型能够对评论的质量等级进行自动判断。

  • 单位
    中山大学; 中国医学科学院医学信息研究所