通过这个案例,我们要掌握数据挖掘在异常分析方面应用的基本思路,大家都知道,企业里面经常会有类似这样的需求,而这也是数据挖掘的一个重点的应用方向。今天,我们主要围绕这个主题进行讲解,结合这个主题,我们主要探讨以下几个知识点:
第一,如何结合业务理解,通过业务规则来进行异常分析,当然这是一个典型的以业务为驱动的数据挖掘项目;
第二,围绕如何通过数据挖掘的手段派生一个参考变量指标,来评估与实际值的偏差是否有异常,来进行异常分析。在这个案例里面,主要讲解两种派生参考变量的方法,一个是通过变量的相关性进行参考变量的派生,另一个是通过分类预测,尤其是分类目标变量为数值型的分类预测来派生参考变量。
第三,我们来重点讲解一下,如何通过可视化的方式,来探索一个数值型字段和一个字符型字段的相关性。这是大家需要掌握的,很有效,很好用,也很简单的一个方法。
第四,我们通过这个案例,讲一下,通过聚类分析算法来进行异常诊断的方法。该案例介绍的是聚类算法的另外一种灵活运用。采用的是聚类的思想对异常对象进行判断,主要思想是这样的:首先,我们使用聚类算法将对象(每条记录为一个对象)分成两类,其次,计算每一个对象到类中心的距离,距离类中小较远的点即为异常点。
第五个,通过这个案例,再学习一下分类预测的另外一种应用场景。
工作流如下: