老师我有一百万用户的高维特征矩阵,请问怎么算相似度?

就是算出每个用户和其他所有用户的相似度,那应该是一百万的平方的复杂度吧,这个该怎么算呢?
直接调SparkMLLib的columnSamilarites方法会跑崩,ALS也用过了,还是崩。。。不知道该如何是好,也可能是我打开方式不对?
是实际工作中遇到的问题,谢谢

fish - Hadooper

赞同来自:

先得降维吧?

要回复问题请先登录注册