随着互联网、云计算、物联网、大数据、人工智能、5G网络等技术的飞速发展,数据成指数幂增长,微博数据暴增,这些数据表现的信息中蕴含的知识越来越得到人们的重视。然而这些数据往往具有多源异构性,例如关系库中的结构化数据,以XML或JSON格式存储的半结构化数据,或图片、视频类的非结构化数据,本文主要以XML半结构化数据的存储格式为例进行基于Map Reduce技术的微博数据清洗过程的研究和测试。