一种基于假设检验的数据筛选算法

作者:寇燕明; 迟晓晴; 王艳慧*
来源:统计与决策, 2020, 36(08): 21-26.
DOI:10.13546/j.cnki.tjyjc.2020.08.004

摘要

数据筛选在大数据处理过程中处于至关重要的地位。如何运用合适的数据筛选算法从大量数据中筛选出有价值的数据是目前需要解决的重要问题之一。文章综合利用统计假设检验的方法设计了一种系统的实验组和对照组差异性的数据筛选算法,并利用MATLAB软件实现了该算法。最后将该算法应用于自闭症的基因表达谱数据(23520个基因),分别筛选出了实验组和对照组表达谱差异较大的244个基因作为自闭症相关的基因。通过基因注释,发现目前文献中已知的与自闭症相关的基因FIGF、MED13、NDRG4、POU3F2、USP8等在筛选的244个基因中,表明了该算法的有效性。