摘要
给定一组观察数据,估计其潜在的概率密度函数是统计学中的一项基本任务,被称为密度估计问题.随着数据收集技术的发展,出现了大量的实时流式数据,其特点是数据量大,数据产生速度快,并且数据的潜在分布也可能随着时间而发生变化,对这类数据分布的估计也成为亟待解决的问题.然而,在传统的密度估计算法中,参数式算法因为有较强的模型假设导致其表达能力有限,非参数式算法虽然具有更好的表达能力,但其计算复杂度通常很高.因此,它们都无法很好地应用于这种流式数据的场景.通过分析基于竞争学习的学习过程,提出了一种在线密度估计算法来完成流式数据上的密度估计任务,并且分析了其与高斯混合模型之间的密切联系.最后,将所提算法与现有的密度估计算法进行对比实验.实验结果表明,与现有的在线密度估计算法相比,所提算法能够取得更好的估计结果,并且能够基本上达到当前最好的离线密度估计算法的估计性能.
-
单位计算机软件新技术国家重点实验室; 南京大学