pd.get_dummies如何热值化新的数据

用pd.get_dummies()对测试数据集做了热值化,得到了预测模型。现在有一批新的数据,需要用模型来预测分类。但是新的数据集中,部分特征的取值并不完全。比如特征a,一共有5类取值,但是新的数据集中,所有样本的a特征的取值只有3类。那么,在对该新数据做预处理以使用模型的时候,如何热值化a这个特征呢?

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自:

有两种处理方法:对原始数据中的测试集中从未出现的两类直接删掉,重新做模型;或者对于新的测试数据正常做长度为5的one-hot编码就是了。——个人推荐后者。

要回复问题请先登录注册