kmeans 聚类, 离散变量 怎么处理?

在做kmeans聚类时,上课讲到的都是连续变量。如果是离散变量呢?
one-hot 编码行吗?
离散变量:1.有顺序-小学,初中,高中,大学。 2.没有顺序,红,黄,蓝。分别怎么处理

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: yuanyao009

如果是有顺序的,我个人觉得直接使用0/1/2/3即可(当然,有可能用其他相对大小,如1/10/100/1000这种)。如果是没有顺序的,建议直接One-Hot成多个特征,然后再聚类。

要回复问题请先登录注册