摘要

本发明公开了一种面向MapReduce的XML数据划分优化方法,包括以下步骤:S1:服务器接收XPath查询请求;S2:根据XPath查询请求得到区间编码结果;S3:采用MapReduce模型对区间编码结果进行取样统计,得到取样结果;S4:对XPath查询请求所包含的查询语句进行解析,得到解析结果;S5:根据解析结果得到倾斜因子;S6:根据倾斜因子确定分区长度,并根据负载均衡算法得到分区映射表;S7:建立查询计划树;S8:根据查询计划树和分区映射表得到构造结果;S9:将构造结果发送至客户端。同时,本发明还公开了一种面向MapReduce的XML数据划分优化系统,上述的方法和系统在分布式环境下,通过对XML文档的编码以及取样统计,对数据的划分进行优化,使得本方法和系统成为一种新的XML查询机制。