摘要

针对海量的互联网大数据信息,提出一种基于改进K-Means聚类算法和spark并行框架的数据信息分析建模及可视化平台。首先,基于Lambda架构进行数据信息分析建模及可视化构建;然后,将平行坐标可视化技术和K-Means聚类算法结合,同时利用spark计算框架完成K-Means聚类的并行化改造,以此更好的挖掘互联网数据中的隐藏信息。结果表明,基于平行坐标可视化技术的K-Means聚类平均准确率为96.25%,相较于传统K-Means算法的平均聚类准确率高11.38%;且随着数据规模的不断扩大,并行化改进后算法的加速比越来越大。由此得出,采用平行坐标可视化技术结合并行化的K-Means聚类能实现海量互联网大数据的挖掘与整合,并通过可视化实现模型的优化。

全文