聚类过程中如何筛选合适的特征?

如何从数据中筛选合适的特征用于聚类?除了专家经验外,有没有算法可以实现筛选? 
比如Relief算法(不清楚这个例子举得恰不恰当),适用于针对目标属性为连续值的回归问题且是监督的,
那么有没有类似的算法,可以在没有标签的数据上,找出能够将数据区分的比较好的特征集?(不用PCA的话)
 

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: fish Alfred

Relief算法我觉得是蛮好的方法:简单、直观、高效。 并且,以我粗浅的了解,Relief算法对于离散型变量也可以适用啊(不知道为啥网上说它只适合连续型变量)。 同时,PCA也被你堵上了;嘿嘿,好不地道。   此外,特征和相似度(距离)也要配合适用的。比如,如果两个特征之间的值相差过大(如收入和年龄),则建议预处理时使用归一化降低影响;或者使用夹角余弦代替欧氏/马氏距离。另外,谱聚类不就可以看成“先对拉普拉斯矩阵运行PCA降维,然后再K-means”么?

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: Alfred

没关系。谱聚类会在后面详述,给出算法原理、代码、以及特定数据下如何调参得到需要的结果。@Alfred

要回复问题请先登录注册