Dong

Dong

Hulu

北京市

威望 : 35 积分 : 2250 赞同 : 70 感谢 : 6

擅长话题

更多 »回复

0

一般原始文件不是parquet,而是行式存储格式。   后面转化后成为parquet,可通过hive生成,或者spark sql中的spark.write.parquet(...)生成

0

很正常,两种情况下垃圾回收速度和量是不同的。  建议你调大executor内存   或者设置一下GC策略      

1

"[size=14]确保每个executor上都有相应的API可以调用才能正确写入[/size]"?什么意思?   你的代码会被自动分发到各个节点上的,所以不得API都可以被调用   建议你写个程序试试。

0

首先,查清楚数据合法不,只差入了390条,剩下的610条可能非法,被flume丢弃了   如果数据全部合法,没有理由收集速度这么慢,查查odps是不是瓶颈。

1

不建议你这么做,这样做性能太低,时间复杂度是O(n^2),如果有一亿条数据,则共计算亿亿次,你觉得你计算资源够吗?   这是一个非常有名的问题,被称为“[size=17]“[/size]parallel all pairs similarity [size=1...

更多 »发问

没有内容

发问

回复

文章

最新动态

详细资料

个人成就:

威望: 35 积分: 2250 赞同: 70 感谢: 6

最后活跃:
2017-07-01 23:42
擅长话题:
Spark 47   3
Hadoop 10   1
算法 2   0
cpp 1   0
HBase 4   0
DCon 4   0
Storm 1   0
Hive 1   1
Yarn 5   0
机器学习 1   0
更多 » 关注 5

admin ChinaHadoop 木舟 fish 傲风寒

更多 » 76730 人关注

Aimee711 靓2td 泽一 Mr.Wild 国庆qtb

关注 5 话题
主页访问量 : 2796 次访问