页面树结构
转至元数据结尾
转至元数据起始

业务理解:该案例所用的数据是一份关于农业补贴的数据,如下:

表1:数据视图
其中,农业补贴数据包括住户姓名、所在区域、拥有田地的大小、降雨量、田地质量水平、田地收入、主要农作物、申请补贴的类型和申请补贴的金额。
业务目标:分析哪些住户领用补贴存在异常,并输出可疑的名单。
数据挖掘目标:建立异常检测模型,输出可疑名单。
注:该案例是一个典型的以业务驱动为核心的数据挖掘项目。此案例从业务入手,探索分析思路,比如,从领用次数来看,正常情况下每户都会一次领用全部补贴,因此如果领用次数在2次以上的住户即可认为存在可疑。其次,每家的田地收入主要有两方面来源,一个是农作物收入,一个是农业补贴收入。因此,如果田地收入明显超出预计田地收入,则很可能是过多的领用农业补贴。另外,判断领用是否可疑的更直接的办法是直接判断申请的补贴金额是否过多。最后,我们采用聚类算法判断异常。根据以上四个思路展开以下分析。

  • 无标签