信用卡评分分析

背景描述及需求

银行在市场经济中起着至关重要的作用。他们决定谁能获得资金，以什么条件获得资金，并决定投资决策的成败。为了让市场和社会发挥作用，个人和企业需要获得信贷。信用评分算法是银行用来决定贷款是否应该发放的一种方法，它对违约概率进行猜测。为了推进信用卡业务良性发展，减少坏账风险，各大银行都进行了信用卡客户风险识别相关工作，建立了相应的客户风险评分模型。

本案例分析的是通过预测某人在未来两年内遭遇财务困境的可能性，来提高自己在信用评分方面的水平。主要应用于相关融资类业务中新用户的主体评级，适用于个人和机构融资主体。本案例定义逾期90天以上就算作坏客户。

信用卡客户评分数据挖掘主要包括以下步骤：

1) 从银行获取信用卡相关信息；

2) 数据探索：探索整体数据分布和探索不同变量之间的关系；

3) 数据预处理工作：包括数据清洗、数据离散化、处理样本不平衡问题等操作；

4) 构建信用评分卡模型，计算各指标的分值及综合评分；

5) 根据评分结果，分析该银行的客户的信用风险情况。

实施过程

本案例数据集来源于kaggle赛题数据，共计15万条客户数据，包括信用客户和逾期客户，并对数据进行人工标注，标注分为两类，分别为：0（信用客户）和1（逾期客户）。字段说明见表2-1。

表2-1 字段说明

字段名称	类型	字段说明
SeriousDlqin2yrs	整型	好坏客户。取值为{0,1}
RevolvingUtilizationOfUnsecuredLines	浮点型	可用额度比值
age	整型	年龄
NumberOfTime30-59DaysPastDueNotWorse	整型	逾期30-59天笔数
DebtRatio	浮点型	负债率
MonthlyIncome	整型	月收入
NumberOfOpenCreditLinesAndLoans	整型	信贷数量
NumberOfTimes90DaysLate	整型	逾期90天笔数
NumberRealEstateLoansOrLines	整型	固定资产贷款量
NumberOfTime60-89DaysPastDueNotWorse	整型	逾期60-89天笔数
NumberOfDependents	整型	家属数量

数据接入

在实验中添加数据源节点，将评分卡客户数据读取进来，部分数据如图所示：

为了方便理解本数据集每个特征的含义，使用元数据编辑节点，添加中文字段别名，更改后的输出如图所示：

流程图如图：

数据探索

本案例的探索分析是对数据进行缺失值、重复值与异常值分析，分析出数据的规律以及异常值。

为了查看整体数据集数值型数据的情况，我们接入一个全表统计节点，选中所有数值型字段如图：

输出结果如图，可以看到部分数据（月收入、家属数量）存在缺失值。可以看到“月收入”缺失达到近20%，“家属数量”缺失较少仅有2.6%的缺失。

为了统计所有数据中好坏客户的分布情况，选择聚合节点，选择分组计数，如图：

输出结果好坏客户分布情况图如下，发现0类样本占有较大的比例，则需要考虑到样本不平衡问题。

通过全表统计节点查看所有数据的分布情况，查看各指标的直方图、箱线图分布情况，如图所示。发现“年龄”的最小值居然是0，但是根据我们的常识，小于18岁是不能在银行办理信用卡或是贷款业务的。以及看到三个逾期天数指标（逾期30-59天、逾期60-80天，逾期90天）是存在比较严重的离群值的。

图2-8 直方图、箱线图

数据预处理

通过数据探索发现，月收入、家属数量这两个字段数据有部分空值、三个逾期天数指标存在异常值和部分数据可能有重复值。以及好坏客户的数据比例存在明显的不平衡现象，如果将这些数据直接进入模型，必然会对分析造成很大的影响，得到的结果的质量也必然是存在问题的。那么，在利用到数据之前就必须先进行数据预处理，把无价值的指标及数据去除。

1、去重复值

通过去除重复值节点将重复行的数据进行给去除，去除后结果如图：