金融数据分析-评分卡的分箱操作,分箱的终止条件

各位好:
想问下在评分卡模型中,对数据进行分箱操作的终止条件在下面几种方式时:
1. 最小箱占比低于设定的阈值,如0.05。
2. 该箱y类别不能全为0;
3.bad rate 不单调;

我的问题是:这里的阈值,0.05, 是指坏样本占总坏样本的数量,还是组内的占比?
阈值的指定有没有什么规律,或建议?
坏样本数太小时怎么办?
分箱后IV值过低是否意味着变量没有用?

谢谢!
已邀请:

田野

赞同来自: 王顿Wolfric

Q:这里的阈值,0.05, 是指坏样本占总坏样本的数量,还是组内的占比?
A:这个阈值是某一箱的样本量占全体样本量的比例

Q:阈值的指定有没有什么规律,或建议?
A:数据质量好、维度多的情况下,阈值可以高点,反之要放松要求

Q:坏样本数太小时怎么办?
A:只要保证每一箱中存在坏样本就行,对具体的个数没有要求

Q:分箱后IV值过低是否意味着变量没有用?
A:是的,我们通常是先分箱,再看IV。过小的IV说明变量不太好。

要回复问题请先登录注册