摘要
目的通过数据验证,比较目前应用广泛、高效的R语言中,data.table软件包和dplyr软件包在数据操作方面的运算效率,为R用户在数据处理效率方面选择合适的软件包提供建议。方法模拟产生不同样本量大小的数据,从选择行列、排序、分组计算、添加更新和合并五个方面比较data.table、dplyr和基本R函数的运算速度。结果 data.table在选择行(DT[x==.])、更新、排序、内连接方面运算速度优势明显,在选择行(DT[x<.])、分组计算、左连接、添加方面和dplyr相比没有明显差异,在选择列方面基本R函数最优,data.table表现最差。结论 data.table运算效率整体优于dplyr;如果处理数据量在GB级及以上,建议使用data.table软件包,GB级以下,data.table和dplyr两者均可。
-
单位公共卫生学院; 天津医科大学