摘要

数据挖掘 (DM)是非常具有挑战性的工作 ,数据挖掘过程是多个因素耦合的决策问题。讨论了当前流行的DM过程CRISP DM和SEMMA的不同之处及优缺点。从机器学习、统计和数据质量角度对挖掘有效性作了讨论 ,认为一个真正高效的过程应该面向算法 ,强调探索 ,以挖掘出高可靠性的具有商业价值的知识目标 ,并紧跟技术的发展。给出数据挖掘过程的多维视图 ,将算法分解为组件维、模型维和过程维等维度 ,以此提出新的DM过程的框架