页面树结构
转至元数据结尾
转至元数据起始


分析田地收入是否存在异常的核心就是估计每个住户的预计田地收入,计算实际田地收入与预计田地收入的差异。
如何计算预计田地收入呢?如果有明确的规则可以直接计算出每个住户的田地收入,则可以直接与实际值对比,但是由于田地收入所受影响因素较多,比如降雨量、土地质量、种植的农作物等,所以很难计算出准确的预计值。不过,我们可以估计一个值,这里是通过强相关的原理,计算一个与预计田地收入强相关的变量,以此变量作为预计田地收入。而这里强相关的变量可疑使用使用田地收入的主要影响因素相乘(降雨量、田地质量、田地大小)得到。
操作如下:
第一步,使用自定义选择节点去除已经排除的两个住户。节点配置如下:

第二步,使用派生节点生成预期收入字段。节点配置如下:

第三步,使用散点图节点验证预计收入和实际田地收入的相关性。如下图中所示,两个变量之间呈强正相关性,这验证了我们计算预计收入方法的合理性:

图1:预计收入和实际田地收入相关性分析
第四步,使用派生节点生成偏移字段,计算实际田地收入和预计收入的差异。节点配置如下:

第五步,使用直方图看偏移的分布趋势,直方图配置如下:

从执行结果可以看出,偏移字段有少数分布在尾部,这些即是偏移较大的对象,也就是可疑对象,如下图所示:

第六步,输出可疑名单。
首先,使用选择节点筛选出偏移大于20的记录。配置如下:

其次,使用交互表格节点查看可疑名单。如下:

第七步,分析偏移的分布,以及与申请类型的相关性。
在这里,我们使用直方图节点可视化发现,节点配置如下所示:

由执行后的结果可见,申请类型为B的偏移都在20以内(如下图所示),这说明这类申请类型应该不存在欺诈,由此可以再从业务中印证是否这种申请类型的规定没有漏洞,本身就无漏洞可钻,如果确实是,我们就没有必要再分析这种申请类型。

图2:偏移直方图分布

  • 无标签