摘要

针对在分布式Hadoop集群环境下对支持向量机进行最优分类模型参数选择的问题,提出一种基于MapReduce框架的最优分类模型参数选择算法。该算法能以串行或单个MapReduce作业这两种方式完成最优模型参数的选择,在Map阶段读取存储在Hadoop分布式文件系统中的参数文件,并为每组参数生成具有不同键值的中间结果,以保证在Reduce阶段,每个并行执行的任务仅对一组参数进行交叉验证。实验结果表明,在集群内存资源合理消耗的前提下,为粗粒度最优参数搜索设置适当的Reduce数量,单个MapReduce作业方式相比于串行MapReduce作业方式算法运行效率至少提升了1.7倍,显著减少最优模型参数的获取时间。

全文