摘要

Arrow是一种基于内存的列存储数据结构,它的设计目标是在现代硬件上提高数据分析性能。Arrow自2016年以来,在大数据领域被越来越多的主流项目使用,并成为异构系统数据传输的标准,如今已经支持C++、Go、Java、Python、R、Ruby和Rust等多种编程语言实现。自助查询引擎的兴起是大数据发展的新趋势。本文介绍了一种基于Arrow技术的分布式查询引擎的设计和实现,并结合实验验证了它的实际性能。