你给的作业参考home_ownership,代码样例中没有怎么处理home_ownership

你给的作业参考home_ownership,代码样例中没有怎么处理home_ownership, 比如转换成三个特征向量值, 001 010 100.这些数值是读源数据再处理,还是把源数据增加三列后,保存excel后再读取呢.  处理home_ownership的代码在哪呢?

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: fish

请仔细阅读代码,在ml_tools.py这个文件中。

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: 大海深处

1. 因为loan_status是要预测的标签,不是特征。所以处理方式不一样 2. 关于特征归一化可以参考http://scikit-learn.org/stable/modules/preprocessing.html 对项目中的特征进行处理。后期的代码中会出现。 3.C值是用来平衡损失函数和 正则项用的,C值越小,表明正则化强度越大,是逻辑回归中的超参数。

大海深处

赞同来自:

谢谢!  以下三行代码处理:  category_val = data[category_cols].values[:, 0]  # 如果有多列,每次处理一列     # 处理类别数据     # label encoder     label_enc = preprocessing.LabelEncoder()     label_val = label_enc.fit_transform(category_val)   我还想问问: 1 为什么loan_status要这样处理raw_data['loan_status'].isin(['Fully Paid', 'Charged Off', 'Default']),而不按照category去处理category_cols = ['loan_status']? 2.整个代码没见特征归一化处理,  3. LogisticRegression(C=1.0) C这个超参代表什么意思?

要回复问题请先登录注册