数极客首页

信用卡通不过?用数据分析技术,带你深度解析信用卡评分体系

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

作者  余子娟

随着互联网金融时期
的到来,信誉
评分体系显得越发重要,本文就解读信誉
卡评分体系是怎样
树立
的。

客户信息触及
到很多要素
,因而

许多要素
无法在机器学习模型中中止

讨论
,这里搜集
了大部分

互联网金融公司在信誉
卡申请时能获取到的信息。

目的

1.   运用
机器学习构建信誉
卡评分模型,取得

自变量分箱结果;

2.   并由评分模型得出最优的cutoff值,并对模型中止

评价;

3.   再由新的样本集对评分卡中止

测试,输出预测结果。

数据

我运用
了Kaggle的两个数据集。

Kaggle数据集链接:

https://www.kaggle.com/yuzijuan/credit-card-scoring/data

环境和工具:

Rstudio,plyr,rJava,smBIing,preyR

我第一
对两个数据集中止

探求

性剖析

,剔除掉无法归入
模型的变量,例如ID,取值为空的变量,取值仅为一类的变量等;再探求

配偶收入变量问题时,由于值绝大部分

为0,将该蜕变

为二分类变量,取值为有收入与无收入;针对异常值过大的变量,采用盖帽法,用99分位点值替代
极大异常值,有1分位点值替代
极小异常值等等办法

,数据清洗完后,再用smBIing包中止

cart分箱,带入评分卡模型,取得

评分卡,最终
将其运用到测试集上。

开端

第一
,导入必要的库和数据集,中止

探求

数据剖析

,并剔除掉无法归入
模型的变量。

导入库

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

导入数据

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

剔除无法归入
模型的变量

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

由于评分卡模型普通
分数越高,表示信誉
越好,故需求
将信誉
好的类别得分记为1,信誉
不好的类别得分记为0。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

为更有效分箱,获取了因子型变量集factorval和数值型变量集numericval,分别中止

分箱处置

数值型变量分箱

为更有效中止

数据处置
,对异常值能够

中止

盖帽法处置
,代码如下:

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

以年龄数值型变量举例阐明

,第一
查看数据散布

状况

,由于是因变量为二分类,自变量为数值型,用t检验来检验两散布

能否
有显著性差别

,有显著性差别

才干
中止

分箱,否则分箱结果无意义。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

散布

状况

如上图所示,能够

对其中止

盖帽法后再t检验和分箱处置
。t检验的原假定
为两分类组的均值相等,结果标明
原假定
被拒绝

,以为
两散布

具有显著性差别

,能够

中止

分箱。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

用的是smBIing包,这个包中采用的是CART回归树中止

属性划分,数值型用函数smBIing(),由树的结果可知,划分点为19,22,32,37,46、59六个值,划分为7个属性区间。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

AGE的IV值为0.2004,对AGE的WOE值画图,得到散布

呈现单调趋向
,标明
分箱结果良好,能够

归入
模型。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

用AGE中止

分箱的代码如下:

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

类推其他连续变量。经过
调用numericalval可知共有7个数值型变量,由于两个数值型变量取值过于集中,后续将作为分类变量处置
,故得到5个变量的IV值。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

因子型变量分箱

以性别分类变量举例阐明

,第一
对性别变量中的异常值中止

处置
,这种类

别变量普通
将异常值归为多数这类。查看散布

状况

可知女性的守信状况

似乎比男性好一些。性别变量的WOE值辨别

得也很显然

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

在中止

分箱之前同数值型变量一样,要检验两散布

能否
有显著性差别

,由于因变量和自变量均为分类变量,故用卡方检验。原假定
为两散布

之间无显著性差别

,卡方检验结果标明
拒绝

原假定
,以为
两样本有显著性差别

,能够

中止

分箱。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

分类变量分箱也采用的是smBIing包,不过smBIing包中就是用原分类值中止

属性划分,未对划分属性处置
,分类变量用的函数是smBIing.factor(),最终
得到SEX的IV值为0.0274。细致

执行代码如下:

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

再以配偶收入举例阐明

,这个变量原本

是数值型变量,由于取值过于集中到0,故将该变量转化为分类型变量再处置
,处置
方式是将取值为0的作为无收入,将取值大于0的作为有收入。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

得到混杂
矩阵能够

看出,有收入的似乎比无收入的守信状况

好一些,WOE图的区别也较为显然

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

经过
卡方检验也能够

看出,能否
有收入对信誉
好否有显著性影响,能够

中止

分箱操作。最终
分箱得到IV值为0.0206。细致

代码如下:

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

类推到其他因子型变量,计算出得到一切
变量的IV值,存入creditivs中。

树立
评分卡

得到一切
可分箱变量的IV值,普通
以为
IV值大于等于0.02的对构建评分卡具有一定的辅佐

,故以0.02为分界点得到满足条件的变量。最终
归入
评分卡模型的变量分别是年龄、工作时长(月)、个人收入、性别、婚姻状态、能否
有自用手机、配偶能否
有收入。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

最终
7个自变量的IV值的散布

状况

如下,能够

看到年龄、婚姻状态、工作时长、能否
有自用手机这几个变量的IV值较大,标明
这几个变量对预测结果影响较大。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

数值型分箱变量用函数smBIing.gen(),因子型变量用函数smBIing.factor.gen(),能够

生成分箱后的结果,分箱后生成的新列并因变量得到data2数据集,经过
逻辑回归,树立
评分卡模型。经过
逻辑回归结果能够

看出分箱后的变量都较为显著,表示分箱结果优秀

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

生成评分卡是用函数smBIing.scaling(),经过
调理
pdo,score,odds三个参数,使得评分卡最大值与最小值位于一个较好的范围。这里评分卡的区间为(389,888)。

最终
保管
为新的csv文件,评分卡就做好了。细致

代码如下:

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

评分卡展示

如下,points表示为评分卡的分值。如年龄在45岁的客户,得分为166分。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

最终
,你总得通知
指导
或者同事,到底大于等于多少时,我们以为
是好客户,这时还有最终
一步,就是求cutoff值,将锻炼
数据经过
函数smBIing.scoring.gen()能够

得到客户的得分,由于锻炼
数据自身

有能否
违约这个变量,那么cutoff值有两种选择方式,第一种基于业务展开

现状,即公司是需求
盈利增收,还是公司需求
控制风险,然后商议讨论选择一个cutoff值。下图为客户得分与客户违约的箱体图,1表示好客户,0表示坏客户,能够

看出好客户的得分值会高于坏客户的得分值。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

对客户得分与客户违约做t检验,检验结果标明
,两散布

具备显著性差别

,能够

以为
好客户和坏客户的得分会有显著性差别

。坏客户的得分集中在578分左近
,好客户得分集中于620分左近

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

第二种取得

cutoff值的方式就是电脑自动计算最优cutoff值,用的函数smBIing.metrics(),从输出的报告能够

看出,最优cutoff值为615,这样划分的话,ROC曲线的AUC值为0.657,不算特别优秀
,精确

率(precision)抵达

87.8%。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

细致

执行代码如下:

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

预测

针对新样本,我选择用Excel工具取得

信誉
评分,运用
VLOOKUP函数能够

很便当
地得到想要的数据,评分展示

如下,选择cutoff值为615,这里以为
(600,620)的客户为关注客户,信誉
状况

中等,620分以上的客户信誉
状况

良好,600分以下的客户信誉
状况

堪忧。

信誉卡通不过?用数据剖析技术,带你深度解析信誉卡评分体系

分别用!、√、×来表示中等、优秀
、较差的信誉
状况

结语

本案例缺乏
之处在于:

1. 未对职业代码、商店等级代码等信息中止

提炼,可能会疏忽

掉一些有可能对模型有影响的变量。

2. SmBIing包在数值型变量分箱这一块很强大,但是对分类变量分箱结果不太尽如人意,能够

思索
其他分箱办法

3. 能够

整合更多模型,从而进步
预测精确

率。

发表评论

评论已关闭。

相关文章