关于金融数据分析线性相关问题

1、在做金融申请评分卡模型线性相关问题的时候我按照老师说的大于0.7的排除,可是我发现有几个变量像是近7天内历史查询机构数和14天内历史查询机构数都在选择的特征里面,这两个一眼看上去肯定是线性关系的,14天大于等于7天,这种情况怎么办,我是不是要设置大于0.5的?
我又设置小于0.5的发现还有近7天内历史查询机构数和近30天内历史查询机构数在里面,这就说明这两个特征相关性小于0.5
 
2、用户之前的贷款分为线上现金贷次数,线下现金贷次数,小额现金贷次数等,如果线上现金贷和多方共贷平均数都在模型特征里面然后相关性不大,这种情况怎么办?

田野

赞同来自: 小象老师 唐momo地盘

您好!   首先,我们用的0.7,是一个相对宽松的标准。低于0.7并非没有相关性,而高于0.7几乎肯定会有相关性。   问题1解答:对同一种计算逻辑、但是基于不同时间窗口的变量,2种变量各有利弊。窗口长的变量,例如近30天的查询机构数,IV应该高于7天的。但是其有效人群肯定低于7天的。我建议只要7天的变量的IV不低,就用7天的。   问题2解答:从原理上讲,线性现金贷个数和多方共贷平均数都可以放进去,从业务上讲不矛盾吧?

要回复问题请先登录注册