关于ROBIN老师的金融欺诈案例

ROBIN老师, 关于您这个案例,您在最后不是留了点问题嘛, 我首先做了一下归一化处理:
# 归一化函数
def normlize(x):
    minx = float(min(x))
    maxx = float(max(x))
    diff = maxx - minx
    x = x.astype('float64')
    for i in range(len(x)):
        x[i] = (x[i] - minx)  / diff
    return x
然后,对数据集中的这些变量做了归一化:
 
'amount','oldbalanceOrg','newbalanceOrig','oldbalanceDest','newbalanceDest' 结果,最后的AUC反而从0.97下降到了0.86。 想请教是不是我的归一化函数写得有问题导致的呢? 谢谢

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: 土湾老袍哥

1. 注意归一化操作要在训练集和测试集上都进行操作,并且测试集中归一化的参数使用的是从训练集中得到的。 具体可以参考这里: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html http://scikit-learn.org/stable/modules/preprocessing.html   2. 还有一点就是,不是说归一化后性能一定提高,这个是要在具体数据上做实验的。类似的,对于数据降维,也不是降维后的效果一定就好。实际工程中,很多都是不确定的,需要具体案例具体分析和实验。

要回复问题请先登录注册