分析申请金额是否存在异常的核心就是估计每个住户的预计申请金额,计算实际申请金额与预计申请金额的差异。
如何计算预计申请金额呢?这里我们不能重复使用上一节使用的方法,因为这里我们没有合适的与申请金额强相关的变量。因此,我们采用了另外一个办法,就是使用预测模型,根据输入变量预测每个住户的申请金额,以模型预测值作为申请金额的估计值。
另外,在上一节中分析得出了以下结论:如图2所示,申请类型B不易进行欺诈。因此,我们接下来可以放弃对申请类型B的分析。
操作如下:
第一步,使用名义值过滤节点过滤申请类型为B的住户。节点配置如下:

第二步,使用过滤节点过滤不适合参与建模的字段。节点配置如下:

第三步,使用类型节点定义目标变量和线性回归算法建立以申请金额为目标的预测模型。节点配置如下:


第四步,使用数值评估节点评估训练模型的准确性。评估结果如下:

第五步,使用过滤节点对预测结果字段重命名并派生字段节点派生申请金额差异字段。节点配置如下:


第六步,可视化分析。
首先,使用直方图节点可视化发现,节点配置如下所示:

结果展示如下:

第七步,生成可疑名单。
首先,使用选择节点筛选出申请金额差异大于20的住户。节点配置如下:


其次,使用交互表格节点查询可疑名单,如下所示:

表4:可疑名单3