关于sparksql中数据倾斜问题

老师,在sparksql中,如果Dataframe存在数据倾斜,各个partition的数据大小相差很大,导致运算和写入数据性能大大降低,repartion操作可以解决问题吗?有什么方法可以实现数据平衡?请老师介绍一些经验,谢谢!
 

fish - Hadooper

赞同来自:

repartition时,如果重分布的函数可以让数据均衡,就可以解决分布不均的问题。

要回复问题请先登录注册