Hive中千亿行数据的group by操作无法作业的问题
Sql:
create table if exists graph_user_sim as
select uid,uid2, count(*) as intersect_num
from table1
group by uid, uid2
数据背景:2.7千亿行 三列 uid:Bigint, uid2:Bigint,dealid:String
问题: 1.7T内存 hang在stage1 20%进度条 会导致磁盘告警 且由于严重挤占其他任务资源 只能kill掉
求大神指点 除了加内存(实在没有资源了)还有没有优化办法
create table if exists graph_user_sim as
select uid,uid2, count(*) as intersect_num
from table1
group by uid, uid2
数据背景:2.7千亿行 三列 uid:Bigint, uid2:Bigint,dealid:String
问题: 1.7T内存 hang在stage1 20%进度条 会导致磁盘告警 且由于严重挤占其他任务资源 只能kill掉
求大神指点 除了加内存(实在没有资源了)还有没有优化办法
3 个回复
李虎翼 - Hive/Hadoop
赞同来自: fish 、小邪 、VictorGun
franciszero
赞同来自: 李虎翼
aixuebo
赞同来自: