摘要

针对大数据分析中的数据预处理困难、数据和模型重用性差等问题,构建了通用分析平台。平台集主题建立、数据源获取、数据探索、数据预处理、算法模型自定义与使用于一体,实现了数据源、算法模型的共享和复用,大大降低数据分析人员的重复工作并避免了人力和物力资源的浪费。介绍了平台的总体设计及各功能模块设计,对平台在实际数据集上的应用进行了探索和验证,证明了平台数据重用、预处理过程重用及模型重用的可行性。