关于聚类的一些问题

1.在样本没有标签的情况下,我怎样判断PCA能否应用于我的样本数据去做降维操作?如果能够用PCA降维,那我又应该降到多少维最优呢?
2.如何判定聚类的效果呢(依然是在样本没有标签的情况下)?另外我看老师的课件中通过画样本的散点图来看聚类的效果,但是我们实际中样本数据都不是二维的,特征维度多大成百上千,又该如何通过画图来看聚类效果呢?
谢谢大家!

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: fish

我先来回答一下第一个问题,首先对于一般数据来说PCA都是可以使用的,区别是有些数据降维后,聚类/识别效果有提高,有些则相反,需要具体到数据上看,毕竟降维后有些信息是损失的。 其次,要降到多少维,对于这个问题有很多发表的论文都有论述,但目前还没有统一的方法。一般来说,可以通过保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: Robin_TY

对于第2个问题,如果是高维数据,是无法非常方便的可视化的;可以使用ARI得分(adjusted Rand index)、互信息、轮廓系数(Silhouette Coefficient)等作为聚类效果的度量。

要回复问题请先登录注册