正负样本不均,要求precision高,recall可以低

请教您两个问题,
(1)训练集样本不均0-1二分类,1的数量很少。
用gridsearchcv 随机森林调参,目标score设置为fbeta_score,beta=0.5,得到class_weight={0: 1, 1: 15}等超参数,袋外分数0.9。
但是在新的测试集上precision和recall都是百分之十几,太低了,怎么办。
我的目标是正样本(数量很少)的precision要高,即使召回率低也没关系.
 
 
(2)欠采样,用哪个函数实现多次训练,避免丢失多的样本的数据信息,让模型每次训练都能保留以前的训练信息。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: haitaohaoyun

从描述看,不建议死磕模型。个人认为应该是使用了过强的模型(如深度很高的树、树的数目过大等)造成了过拟合,一来降低这些指标,二来,更多的原因应该是特征与标记的相关度不够造成的,个人觉得应该考虑对特征做进一步挖掘。

要回复问题请先登录注册