摘要
基数估计是数据库关系系统查询优化器的基础和核心.随着人工智能技术的发展,其在数据处理,提取数据之间的关系等方面显现出优越的性能.近年来,基于机器学习的基数估计技术取得了显著的进展,受到了学术界的广泛关注.通过对基于机器学习的基数估计技术的研究,首先介绍了基于机器学习的基数估计的技术背景,报告了基于机器学习的基数估计技术的发展现状,其次给出了基数估计中与基数相关概念的定义、使用的特征编码技术以及基数估计技术中的分类体系.接着为查询驱动、数据驱动和混合模型这3类基数估计模型,分别提炼出1个统一的建模流程,进一步分析了3类模型中的典型技术,总结比较了同一类基数估计模型中的不同的技术,并对其在NoSQL中的应用技术进行了分析和总结.最后就基于机器学习的基数估计技术的发展现状,讨论了其存在的挑战和未来的研究方向.
-
单位中国科学院; 华东师范大学