@邹博 在使用 one hot对特征进行编码 时,若该特征类别数太多,容易造成维数灾难,有没好的方法解决这个问题

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: fish

这是《机器学习升级版IV期》中“数据清洗和特征选择”章节的问题。 是的,如果类型非常多,容易维度极速上升。这时,更建议对该特征本身建模,或者对类型归类(聚类)后再使用。如:“民族”特征,如果完全one-hot编码,容易得到几十甚至上百个特征,这时,可以考虑与省份等做归类,得到“汉壮蒙回满苗维滇川湘吉”这样的类别(该例子仅为举例)。

要回复问题请先登录注册