在样本数据维度较高的情况下,有什么办法可以初步判断下能否做聚类吗

目前手上有一堆不能直接解析出来的网络数据流,想以数据流的PAYLOAD里的十六进制数据作为X,然后看能不能通过聚类,大致猜测哪些数据流是由同一个应用程序发起的。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: fish Eric_Jiang

是可以的。 最简单的莫过于直接计算X1和X2的“距离”(根据你的样本情况,比如使用海明距离,或者根据不同的位做个加权),使用K-Means做距离。认为发起者有几个程序,K就选几。看看效果是否达到预期。然后再做进一步探索,如谱聚类等。 只是没有看到数据的瞎猜,抛砖引玉而已。~

kapoyegou

赞同来自:

有个问题是不知道那些是由几个程序发出来的……不过…应该可以借助协议层的其它信息,恩。我先去尝试一下,有什么新情况还要继续麻烦老师,嘿嘿。谢谢~

要回复问题请先登录注册