Dong

Dong

Hulu

北京市

威望 : 35 积分 : 2250 赞同 : 70 感谢 : 6

擅长话题

更多 »回复

0

一般原始文件不是parquet,而是行式存储格式。   后面转化后成为parquet,可通过hive生成,或者spark sql中的spark.write.parquet(...)生成

0

很正常,两种情况下垃圾回收速度和量是不同的。  建议你调大executor内存   或者设置一下GC策略      

1

"确保每个executor上都有相应的API可以调用才能正确写入"?什么意思?   你的代码会被自动分发到各个节点上的,所以不得API都可以被调用   建议你写个程序试试。

0

首先,查清楚数据合法不,只差入了390条,剩下的610条可能非法,被flume丢弃了   如果数据全部合法,没有理由收集速度这么慢,查查odps是不是瓶颈。

1

不建议你这么做,这样做性能太低,时间复杂度是O(n^2),如果有一亿条数据,则共计算亿亿次,你觉得你计算资源够吗?   这是一个非常有名的问题,被称为““parallel all pairs similarity ”查找该问题的所有答案。在mahout和spa...

1

比较复杂,不容易解释清楚,请直接看ALS论文: https://endymecy.gitbooks.io/spark-ml-source-analysis/content/%E6%8E%A8%E8%8D%90/papers/Large-scale%20Para...

1

(1)在hive中建表,比如 create table Behaivor {   person String,   time String,   address String }   (2) 用load语句将数据加载到表中 (3) 用hive或presto编写...

0

不是正常现象,你的程序应该存在内存泄露,需要找到原因解决

1

spark streaming无法处理乱序数据

1

用withColumn:http://stackoverflow.com/questions/33681487/how-do-i-add-a-new-column-to-a-spark-dataframe-using-pyspark http://stacko...

0

http://ampcamp.berkeley.edu/big-data-mini-course/  

0

删除yarn-site.xml中的以下配置,重启yarn:         yarn.client.failover-proxy-provider         org.apache.hadoop.yarn.client.RMFailoverProxyPr...

1

这个问题跟spark无关,跟你用的编程语言相关, 如果你用java编写spark程序,你应该找java中的加密库 如果你用scala,找scala或java加密库   这方面有很多,网上搜素一下

0

http://www.w2bc.com/article/131462

0

metastore server可以有多个,但是他们后端的数据库要只有一个,比如同一个mysql,这是业界统一的做法。

0

df = a. join b   df 2 = df join c     SQL

0

GPU可以加快计算,这是这种硬件的特点,如果一个spark作业是计算密集型的,原则上是可以用GPU加速的,但现在apache spark不能直接运行在GPU上

更多 »发问

没有内容

更多 »动态

发问

回复

文章

最新动态

我的交易

类型 时间 数额 支付方式 状态 描述

提现记录

时间 金额 卡号 银行 持卡人 手续费 状态 描述

审核记录

时间 类型 状态 描述
更多 » 关注 5

傲风寒 ChinaHadoop fish 木舟 admin

更多 » 114222 人关注

fanta61666af44f235 魏6166425ef213e 山百合@SIMPO 山百合@SIMPO XiuBoob

关注 5 话题
主页访问量 : 46496 次访问