李扬

李扬

Apache Kylin committer & PMC member, Sr. Architect of eBay CCOE

绑定认证

威望 : 38 积分 : 2285 赞同 : 59 感谢 : 7

擅长话题

更多 »回复

0

[size=14]看起来 PID,APP_VERSION,KEY 这三个维度的组合数非常高,至少在千万级别以上。然后count distinct记录本身也很大,最多可能每条记录就 20 MB。所以只返回数据量,这条查询就到达 TB 级别了,timeout 也就...

1

应该是越界了。能推测出越界的max值大概在哪儿吗?如果这个max值不合理,比如不够大,可以开个JIRA请社区修复。 [url]https://issues.apache.org/jira/issues/?jql=project%20%3D%20KYLIN%20...

1

See this JIRA:[url]https://issues.apache.org/jira/browse/KYLIN-1987 [/url]    

1

有,Kylin未来有直接从GP和其他RDBMS直接提取数据的计划。但暂时还没有具体的时间表。

1

要先定位那一步OOM,不同的位置,处理方法不一样。对于基数上亿的情况,不推荐使用字典(dict)编码,考虑为维度指定整数(integer)或者其他编码。

更多 »发问

没有内容

发问

回复

文章

最新动态

详细资料

绑定认证:
微博
个人成就:

威望: 38 积分: 2285 赞同: 59 感谢: 7

最后活跃:
2018-08-15 15:52
擅长话题:
Kylin 36   5
DCon 18   1
Hadoop 9   2
HBase 6   1
impala 2   1
Spark 2   1
更多 » 关注 12

admin Dong bmchs wangwensheng mopishv0

更多 » 47 人关注

小鸡仔 jetliu 7603 davidvon Horizon_Zy

关注 0 话题
主页访问量 : 3415 次访问