摘要
目前分布式存储集群广泛采用纠删码来保证数据可靠性,但是数据更新密集时存储集群的磁盘I/O开销会成为性能瓶颈.在常用的纠删码数据更新方法中,磁盘I/O开销主要包括:1)更新数据块时对数据节点的读后写操作;2)更新校验块时读写日志的磁盘寻道开销.针对这些问题,提出PARD(parity logging with reserved space and data delta)数据更新方法,其主要思想是首先利用纠删码线性运算的特性来减少读后写操作;然后根据磁盘特性来降低磁盘寻道开销.PARD包含3个设计要点:1)采用即时的数据块更新和基于日志的校验块更新;2)利用纠删码线性运算的特性,构建基于数据增量的日志,极大限度地消除对数据节点的读后写操作;3)根据磁盘特性,在数据文件末尾为日志预留空间,减少读写日志的磁盘寻道开销.实验结果表明,当块大小为4 MB时,PARD的更新吞吐率相较于PLR(parity logging with reserved space),PARIX(speculative partial write),FO(full overwrite),分别至少提升了30.4%,47.0%,82.0%.
- 单位