摘要
自动车牌识别数据中含有不能反映通常交通状况的异常数据,会对行程时间可变性的度量产生干扰。代表通常交通状况的有效数据由多种群组成,在概率分布上具有多峰、偏斜等特点,使用固定数量分布很难准确拟合有效数据的分布。这也导致具有右向长尾分布特点的异常数据识别困难。基于对数正态分布的K分支混合模型,通过动态确定分支数K实现两类数据的区分并对有效数据分布进行最佳拟合。算法对出租车和私家车样本数据取得了良好的异常数据识别效果,并对两种出行方式的行程时间可变性进行准确度量。实验结果表明,异常数据的存在对行程时间可变性度量的统计结果有明显的干扰,若不滤除会在出行决策上产生误判。