摘要
由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺损问题,但是它们并不适用于车辆号牌这种离散型分类数据。提出一种基于改进TruthFinder算法的缺损值填充框架。基于真值发现算法,考虑到离散数据相似度的计算方式,改进原算法对数据值支持度的计算模型。通过在真实加油站车辆数据集上的实验,相较于原算法及更加通用的Voting算法,正确率分别提升了7%和23%。该方法能部分解决类似加油站车辆加油数据这种多源离散型数据的缺损值填充问题,大大提高了此数据的可用性。
- 单位