基于属性偏差控制的大数据挖掘方法研究

作者:王茜; 孟翔鹏; 李文举; 张云鹏
来源:科技创新与应用, 2023, 13(12): 63-66.
DOI:10.19981/j.CN23-1581/G3.2023.12.014

摘要

信息化时代为人类提供十分丰富的数据信息,以供人们在生产和生活中加以选择和使用。但是海量数据导致挖掘过程困难,耗费更多的时间、导致工作效率下降。为此,该文在传统决策树模型数据挖掘方法的基础上,将信息熵判断属性差异改进为利用信息熵增减偏差来判断属性差异。这种处理只保留和目标属性同向变化的属性,减少无效属性的参与。以客运飞机数据集合为对象展开挖掘实验,同时使用飞行记录情况、引擎情况和载客容量类别等属性。实验结果表明,与传统决策树模型数据挖掘算法相比,用该文提出的方法来构建的决策树更加精简,挖掘效率更高,执行速度更快。

全文