大规模数据集Spark并行优化谱聚类

吕洪林; 尹青山

doi:10.13474/j.cnki.11-2246.2019.0394

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

大规模数据集Spark并行优化谱聚类

作者：吕洪林; 尹青山

来源：测绘通报, 2019, (12): 96-100.

DOI：10.13474/j.cnki.11-2246.2019.0394

摘要

针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题,基于当前批处理和图计算兼顾的Spark并行技术,提出了大规模数据集谱聚类的并行优化改进算法,算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算,通过并行位置变换、标量乘法替换及距离缩放优化算法的资源占用,通过近似特征向量替代进一步优化算法的计算量。试验结果验证了算法近特征向量的有效性及在大规模数据集下良好聚类性能和扩展性。

单位
吉林大学; 辽宁对外经贸学院

全文

访问全文

收藏分享被引(1) 浏览

更新时间：2024-04-11 18:36

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号