HTAP数据库系统数据共享模型和优化策略

作者:胡梓锐; 翁思扬; 王清帅; 俞融; 徐金凯; 张蓉; 周烜
来源:软件学报, 2024, 35(06): 2951-2973.
DOI:10.13328/j.cnki.jos.006901

摘要

混合事务与分析处理数据库系统(HTAP)因其在一套系统上可以同时处理混合负载而逐渐获得大众认可.为了不影响在线事务处理(OLTP)业务的写入性能, HTAP数据库系统往往会通过维护数据多版本或额外副本的方式来支持在线分析处理(OLAP)任务,从而引入了TP/AP端版本的数据一致性问题.同时, HTAP数据库系统面临资源隔离下实现高效数据共享的核心挑战,且数据共享模型的设计综合权衡了业务对性能和数据新鲜度之间的要求.因此,为了系统地阐释现有HTAP数据库系统数据共享模型及优化策略,首先根据TP生成版本与AP查询版本的差异,通过一致性模型定义数据共享模型,将HTAP数据共享的一致性模型分为3类,分别为线性一致性,顺序一致性与会话一致性.然后,梳理数据共享模型的全流程,即从数据版本标识号分配,数据版本同步,数据版本追踪3个核心问题出发,给出不同一致性模型的实现方法.进一步,以典型的HTAP数据库系统为例对具体实现进行深入的阐释.最后,针对数据共享过程中涉及的版本同步、追踪、回收等模块的优化策略进行归纳和分析,并展望数据共享模型的优化方向,指出数据同步范围自适应,数据同步周期自调优和顺序一致性的新鲜度阈值约束控制是提高HTAP数据库系统性能和新鲜度的可能手段.

全文