Hive中千亿行数据的group by操作无法作业的问题

Sql:
create table if exists graph_user_sim as
select uid,uid2, count(*) as intersect_num
from table1
group by uid, uid2


数据背景:2.7千亿行 三列 uid:Bigint, uid2:Bigint,dealid:String

问题: 1.7T内存 hang在stage1 20%进度条 会导致磁盘告警 且由于严重挤占其他任务资源 只能kill掉
求大神指点 除了加内存(实在没有资源了)还有没有优化办法

李虎翼 - Hive/Hadoop

赞同来自: fish 小邪 VictorGun

这个设置了 hive.map.aggr = true hive.groupby.skewindata = true 是不应该跑不出来的,可以尝试一下设置参数,并理解一下这两个优化的原理。

franciszero

赞同来自: 李虎翼

不应该出问题,除了会跑很久

aixuebo

赞同来自:

有异常贴出来吗?理论上这不应该出问题。

要回复问题请先登录注册