你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
问题
笔记
话题
登录
注册
Spark
SparkSQL
关于sparksql中数据倾斜问题
老师,在sparksql中,如果Dataframe存在数据倾斜,各个partition的数据大小相差很大,导致运算和写入数据性能大大降低,repartion操作可以解决问题吗?有什么方法可以实现数据平衡?请老师介绍一些经验,谢谢!
与内容相关的链接
提交
1 个回复
fish
-
Hadooper
赞同来自:
repartition时,如果重分布的函数可以让数据均衡,就可以解决分布不均的问题。
要回复问题请先
登录
或
注册
发起人
谢国亮
相关问题
第二课《2 分布式数据收集:Flume 原理与应用》
大学生去阿里巴巴总部参观应该关注哪些问题?各位上班人士,多多建议!非常感谢!
大数据的走向会无休止吗?spark之后有flink,在之后呢?
DCon2015 中国大数据技术嘉年华——资料导航帖
关于AdaBoost中权值更新的问题
分型树绘制问题
Hadoop资源分配问题
hbase 大数据存储 内存溢出。
启动Hadoop集群: Step1 : 在各个JournalNode节点上,输入以下命令启动journalnode服务: sbin/hadoop-daemon.sh start journalnode Step2: 在[nn1]上,对其进行格式化,并启动: bin/hdfs namenode -format sbin/hadoop-daemon.sh start namenode Step3: 在[nn2]上,同步nn1的元数据信息: bin/hdfs namenode -bootstrapStand
邹博老师在决策树一节回答的问题,在有偏的情况下要“重采样”。为什么在不同类别数据不平均时,要重采样或降采样呢?直接用不行吗?直接用在影响决策树的哪个地方?谢谢!
数据减噪是什么意思?
问题状态
最新活动:
2017-09-10 23:03
浏览:
314
关注:
2
人
1 个回复
fish - Hadooper
赞同来自: