摘要
目的针对当前大数据处理在数据存储、计算速度和分析算法等方面的技术难题,提出有效的一体化解决方案。方法以Spark计算框架、Hadoop分布式存储和机器学习算法3项技术为支撑,构建大数据在线分析服务平台,并在平台上对Ⅱ型糖尿病分类任务进行训练和预测。通过对比实验证明,基于Spark框架和Spark机器学习算法进行大数据分析,大大提高了计算效率,减少了时间成本。结论基于Spark框架的大数据分析平台能够实现海量数据的快速存储和计算,降低医疗行业数据分析领域的技术门槛,有利于促进大数据产业加快发展。
-
单位复旦大学附属妇产科医院; 万达信息股份有限公司