摘要
结合Hadoop平台的高扩展性、高性能、与低成本的优点,设计基于Hadoop招聘数据分析的框架。对近200万条数据分词、去重、去噪、提取特征,构造特征矩阵与文本矩阵,利用奇异值分解法对文本矩阵降维,按相似度分类,对分类结果进行关联规则挖掘与数据统计分析。结果表明Hadoop平台数据分析效率明显提高,具有较高的加速比。实验结果(IT行业)呈现目前就业岗位、薪资、所需技能、工作地点的关联规则与统计结果分析,为行业的发展与就业提供一定的数据参考与支撑。
-
单位忻州师范学院; 河南广播电视大学