xgboost或者lightGBM这些实现boosting tree的工具如何考虑样本抽样权重

我在看田野老师的金融风控的课,有一个关于机器学习和传统风控建模的问题。 因为做评分卡的时候,构造样本会计算抽样权重(weight/factor), 意义就是全量样本有一个好坏比,而建模样本是在全量样本上经过抽样得到的,满足好坏1:1,与全量样本的好坏比有偏差,所有,这个好坏比的缩放用抽样权重会在最后计算评分卡,最后的累计坏账率计算,评分卡监控等都要考虑这个weight。 当然机器学习模型可能没有这个概念,但是我觉得会面临同样一个问题,就是建模样本和全量样本的好坏比有偏,这个偏差在决策树分裂的时候会影响分裂点的选取,就像之前公开课里介绍adaboost,将weight带入gini计算我觉得是一个很好的思路,那么xgboost和lightGBM这两个主流的boosting tree的软件包能考虑weight到训练过程中吗

田野

赞同来自:

可以。例如xgboost,当需要给样本设置权重时,可以用如下方式
w = np.random.rand(5,1)
dtrain = xgb.DMatrix( data, label=label, missing = -999.0, weight=w)

樰麻

赞同来自:

如果是营销模型的话,是否要考虑模型中设置抽样权重呢

要回复问题请先登录注册