rdd和dataframe进行repartition是否会减少后续shuffle过程?

对1此运算结果的rdd或者dataframe进行repartition(1)和cache()操作后,后续基于它的transformation操作的rdd或dataframe的partition数量是多少?时候会减少后续的groupby等操作的shuffle过程,是否会提高效率?

Dong - Hulu

赞同来自: fish liuzhixin137

基于它的transformation操作的rdd或dataframe的partition数量与repartition个数相同,cache操作不会改变partition数目。   适当减少partition数目不一定提高效率,比如你只有一个partition,计算量很大时,可以通过repartition增大paritition个数提高并发。   partition多少比较合适,每个应用都有一个较好的值,需要根据不同应用专门调优。

要回复问题请先登录注册