摘要

针对现有大数据情感分析方法普遍存在分类不准、效率不高、结果片面等现象,提出了融合密度峰值与局部特征提取分类方法。考虑到大数据场景中情感分析的参量复杂度,设计了局部优化密度峰值聚类对原始数据进行分簇操作,通过区域分割与独立聚类实现并行计算,最终将所有区域输出合并得到全局聚类结果。对于区域分割产生的分簇交集,采取边界扩展,利用高斯核优化密度计算,同时根据密度与距离乘积实时调整门限,使聚类中心能够实现自适应调节。基于聚类结果,设计了局部优化文本特征提取,利用BiLSTM-CNN提取文本词汇与句子特征,并对其采取融合处理,再利用CNN提取的语义局部特征纠正结果,从而使提取的文本特征最接近上下文语义。基于COAE2014数据集的仿真,分别从ARI、Precision、Recall、F1-measure,以及时间指标方面,验证了融合密度峰值与局部特征提取分类方法具有与实际更吻合的聚类性能,显著提高了大数据情感分析的准确性与全面性,且有效提升了大数据应用场景下的实时性。