Page tree
Skip to end of metadata
Go to start of metadata

背景描述

现在银行产品同众化现象普遍存在,客户选择产品和服务的途径越来越多,客户对产品的忠诚度越来越低,所以客户流失已经成为银行业最关注的问题之一。而获得新客的成本远高于维护老客户成本。

根据总行领导指示,需要坚持以客户为中心,重点做好营销和转化指导方针,加强客户群体建设和提高客户与我行粘度,加强对客户的跟踪和营销管理,减少不必要的客户流失。

据调研表明,商业银行客户流失较为严重。国内商业银行,客户流失率可达20%甚至更高。而获得新客户的成本,可达维护现有客户的5倍。

因此,从海量客户交易记录中挖掘出对流失有影响的信息,建立高效的客户流失预警体系尤为重要。

现状分析

业务现状 

选取近一年的零售客户某业务的高价值客群进行分析,月均新增为1. 00%,月流失率为8. 00%,高价值客户流失严重,建立流失预警机制刻不容缓。

数据现状

本次挖掘的客群为零售客户某业务线条的高价值客群,这部分客群的数据主要存放在CRM系统当中,存放了客户的个人信息、账户信息、存款类信息、消费和交易类信息、理财和基金类信息。

 

需求分析

通过对某业务线条的高价值客群进行分析,发现流失率非常严重,需要建立高价值客群的流失预警模型,寻找客户流失的原因,指导业务加强客户维护,提供客户对我行产品的粘度。

工作目标

通过对零售客户某业务线条的高价值客群进行流失分析,建立流失预警模型,挖掘出流失的主要因子,指导业务人员维系客户关系。

分析思路

通过收集高价值客群的个人信息、账户类信息、交易类信息等维度数据,以及结合第三方数据,利用随机森林算法构建客户流失预警模型,并输出影响客户流失的主要因素。

实施过程

数据来源于CRM系统中客户基本信息表、账单表等;第三方数据,数据时间窗为近一年的数据,客群为高价值客群,本次案例已获取到部分数据总共100000条数据。

数据维度信息包含:

  • 银行自有字段:账户类信息、个人类信息、存款类信息、消费、交易类信息、理财、基金类信息、柜台服务、网银类信息;
  • 外部三方数据:外呼客服数据、资产类数据、其他消费类数据;

本次案例流失定义为:3个月内没有与银行业务任何往来的客户。

本案例只提取到部分特征字段仅供参考,字段说明如下:

字段名称

类型

字段说明

客户id

字符串

 

年龄

整型

 

卡龄

整型

 

是否代发客户

整型

 

月均代发金额

整型

 

最多代发金额

整型

 

性别

整型

取值为{0,1},0表示男,1表示女

月均AUM

整型

 

月初AUM

整型

 

卡等级

整型

取值[0,19],共有20个等级。

是否个贷

整型

 

1年内购买理财

整型

 

下载手机银行

整型

 

是否领取APP权益

整型

 

是否登录APP

整型

 

是否持有信用卡

整型

 

是否关联还款

整型

 

是否流失

整型

取值为{1,0},1表示流失,0表示未流失。

数据接入

在实验中添加 数据源 节点,将数据接入,部分数据输出结果如图:

数据探索

本案例数据探索是针对客户流失数据探索分析各特征分布情况以及相关性情况。我们接入一个 全表统计 节点对流失数据进行统计分布情况,如图:

通过全表统计分析发现年龄的最小值为10,按照常规而言未成年人无法办理银行信贷业务应该进行过滤处理。

我们通过 聚合 节点探索流失的整体数据分布情况,输出结果如图:

流失的男女比例输出结果如图:

分析发现客户流失数据和男女比例存在一个平衡的状态,分布比较合理。

我们再通过 过滤与映射 节点将流失的数据进行过滤,如图:

通过 聚合 节点查看男女的流失比例,输出结果如图:

数据预处理

通过数据探索分析中我们需要过滤出年龄>18的流失数据,如图:

我们根据特征选择出连续性特征字段进行 特征离散,方便模型的准确程度,如图所示:

变换后的结果默认添加后缀Buckerizer,如图所示:

整个数据预处理流程图:

相关性分析

我们通过相关性节点将各特征指标数据进行 相关性分析,方便特征选择进入模型训练,如图:

通过分析发现:是否代发客户、卡等级、月均代发金额、最多代发金额、月均AUM、月初AUM与是否流失都具有相关性,其他特征与是否流失相关性为0。

因此我们通过特征选择出具有相关的特征,如图所示,标签列为是否流失。

模型训练

本案例采样 随机森林 算法进行模型训练,通过 拆分 节点将数据按照比例7:3拆分成训练集和验证集。整个模型训练流程如图所示:

参数配置如图:

模型评估

我们通过 评估 节点对数据进行评估,如模型训练流程图所示,评估结果如图:

我们发现评估结果中F1得分为0.95,说明模型预测的效果比较好的。

业务分析

我们通过 随机森林特征选择 节点输出重要性较高的5个特征,结果如图:

通过对某业务线条高价值客群进行流失预警分析,发现影响客户流失的主要因素为:月均AUM、月初AUM、卡等级等。主要原因可能为产品缺乏竞争力、活动较少等。

因此,我们可以采取相关的措施建议,如:加强客户关系维系、产品跟进、维护访问、追踪制度、扩大销售、机制维护等。

总结

本案例结合银行客户流失数据预测案例,重点介绍了随机森林在实际案例中的应用。本案例通过客户的交易信息数据挖掘出对流失影响的信息,从而加强对客户的跟踪和营销,减少不必要的客户流失。