离散变量,One hot 编码,维度升高,处理?

一个离散变量,one hot编码后,变成一个高维向量。我们怎么处理这种过于稀疏性? 降维可以吗?(例如svd)

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: fish liuzhixin137

高维是one-hot方法的缺点,PCA不适用于这种特征的降维,常用的方法是做预处理。简单来说就是根据先验只是对数据做预处理:将类别进行再归类。 比如原来的类别是A, B, C, ..., Z这样生成的one-hot编码有26维; 如果我们知道他们是可以按照某种方法进行再归类的,比如可归为A-H, I-W, X-Z三类,那么这样one-hot编码后特征只有3维。  

要回复问题请先登录注册