请问邹老师,怎样处理省份、城市这种类别数据,将其数值化

目前有份数据,包含省份、城市维度,现在要做回归分析,怎样处理这类类别数据呢,而且省份和城市是带有级别的类别数据,是否可以采用one-hot方法,但是城市还很多很多,这个要怎么办。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: 埃里森

我的个人意见相反:对于不同的城市仍然应该使用one-hot编码,只不过省份是一组one-hot,城市是另外一组one-hot,至于城市过多担心特征膨胀的问题,可以考虑数学公式的简化或者特征提取后再进入算法。 ——纯个人意见。

王大卫

赞同来自:

既然省份和城市都带有级别,那就可以直接按照级别赋予不同的整数值,比如级别越高,赋值就越大。这个时候利用one-hot反而没必要。

要回复问题请先登录注册