摘要
从大量基因中识别出致病基因是大数据下十分重要的高维统计问题。基因间网络结构的存在使得对于致病基因的识别从单个基因识别扩展到基因模块识别。从基因网络中挖掘出基因模块就是所谓的社区发现(或节点聚类)问题。绝大多数社区发现方法仅利用网络结构信息,而忽略节点本身的信息。Newman和Clauset于2016年提出了一个将二者有机结合的基于统计推断的社区发现方法(简称为NC方法)。本文以NC方法为案例,介绍统计方法在实际基因网络中的应用和取得的成果,并从统计学角度提出了改进措施。通过对NC方法的分析可以看出,对于以基因网络为代表的非结构化数据,统计思想和原理在数据分析中仍然处于核心地位,但相应的统计方法则需要针对数据的特点及关心的问题进行相应的调整和优化。
- 单位