风控建模场景下的单变量分析,主要涉及到变量的有效性和稳定性。实际应用中还会考虑到特征变量之间的相关性和可解释性等因素。
WOE:weight of evidence
IV: information value
WOE值的计算是针对类型特征(categorical),或者连续特征变量经过分箱构造出来的类型特征(如年龄->年龄段:10-20,20-30,etc. )中的每个取值的效用,在有标签的情况下进行计算。
WOE的计算本身可以看做是一次简单的建模,并且在特征有明确含义的情况下具有很好的可解释性,有助于发现数据的规律。
WOE的计算公式:
简言之,WOE i表示落在第i个分箱中的正样本比例(相对于总的正样本)与负样本比例的比值(并通过log将大于还是小于1转为正负数)。通过变形成右边形式,WOE也可以解释为:**在该箱内的正负样本比例与整体的正负样本比例的比值。**按照该解释,显然,当该组内的正样本比重高时,说明该特征取值与样本positive有正相关性,此时比值大于一,WOE为正数,且值越大,相关性越强。反之同理。
IV值的计算是变量层面,WOE为变量取值层面。IV值即所有取值的WOE的加权和:
通过前面的权重系数,保证每项IV i都是正数,从而IV也是正数。最终IV值只需要比较大小,即可挑选出合适的变量用于建模。
WOE和IV一般拥有LR建模,因为LR需要对所有入模变量进行计算。对于树相关的模型,特征筛选的重要性相对降低,因为树分裂节点是会对特征的有效性进行评估。
PSI指数是度量分布的稳定性的指标。在数据处理过程中,尤其是在有时间性的数据中,特征是否随时间稳定,模型预测的分值是否稳定,都是需要考量的指标。这些情况下就需要用PSI进行度量。
PSI的计算方法如下,它计算的实际上是两个分布的差异性:
其中,i为分箱/分段中的第ith箱,p为待测试的分布,q为基准分布。考虑到信息论中的KL-Divergence的定义:
KL散度的物理含义即用一个分布p去编码另一个分布q时,相比于分布q自己编码的必要码长(信息量),所多余出来的那部分码长。
实际上,经过简单变形即可看出,PSI就是对称版的KL散度,即用p编码q和q编码p的KL散度之和。因此,可以用于度量分布的差异。
一般经验来说,PSI需要控制在0.1以内,才能保证特征可用,或者预测结果可靠(个别场景下会更严格)。否则,需要对不稳定特征进行筛选或重新建模。