摘要

数据质量是大数据研究的重要领域之一。数据一致性是数据质量评估的关键度量指标,它基于数据依赖来表述数据应该遵循的质量准则。差别依赖可以描述数据间的差异性,除了相等,还可以在定义中引入大于、小于等序列关系,因而具有较强的表述能力。数据依赖验证的目的是在数据集中发现违反数据依赖的部分数据,是进一步数据质量工作的基础。利用分布式计算环境来处理差别依赖验证的问题,以应对大数据的需求。提出分布式的随机三角分布算法,可以正确而高效地完成差别依赖在数据集上的检测;基于差别依赖的性质和数据分布特征,提出排序三角分布算法,更好地优化算法。实验证明,算法相较于常见分布式计算工具SparkSQL和Hive具有显著改善。