cenyuhai

cenyuhai

大数据工程师@滴滴快车

威望 : 21 赞同 : 28 感谢 : 1

擅长话题

更多 »回复

0

1、配置文件最好都同步,避免不必要的问题 2、这是hbase的毛问题了,一次启动没成功,后面再次启动的时候留有上一次的痕迹,导致启动不成功,这个问题从老版本的hbase就一直就有了,官方也一直没解决,只能靠自己了

0

分区字段确实不能和已有字段名字相重合,你这种情况都是只能分两步走,首先导入到一张只是按年分区的表里面,然后再用动态分区的动能写入到分区是城市+年的表当中

0

不停的ls某个文件,发现了就处理,处理完删除,写个死循环吧

1

var rdd = sc.textFile("/root/software/b.TXT").flatMap(_.split('\n')).filter{ line=>  var splits = line.split('\t') if(splits(0) ==...

0

zookeeper是用来做分布式协调的,千万别把它用来存比较大的数据,会造成同步的延迟!

2

你在--executor-memory那一行少写了一个\   /bin/spark-submit \ --class abc.package.manclass \ --master spark:10.30.40.50:7077 \ --executor-...

2

http://archive.ics.uci.edu/ml/machine-learning-databases/bag-of-words/

1

因为在读的时候,文件被修改了,详细可参考这个帖子http://www.bubuko.com/infodetail-508764.html

0

./spark-submit --class org.apache.spark.examples.SparkPi \     --master yarn-client \     --driver-memory 200m \     --executor...

0

这个脚本的内容是什么?

0

你在sy-4的conf的slaves里面加slave节点都加全了。。。然后执行start-slaves.sh就可以了

0

scala不支持那么长的Tuple,你这是要干啥啊?

0

最关键的信息,你都没给出来,你的机器内存多大,你是启动什么组件出问题了,这个组件内存设置多大?

2

在Run --> Edit Configurations --> VM options里面设置-Xmx

0

请问你为什么要找HADOOP_CONF_DIR呢,这个在spark的包的conf目录的spark-env.sh里面进行设置

2

(string,(int,int))先转成(string,(int1 +int2, int1+int2)再用reduceByKey

2

下面这个是官网的例子,你不能直接那样传参数,(int,int,int)它会认为是一个含有3个元素的tuple,Vectors.dense的接受的参数应该是T*类型的,允许输入多个参数 val a = (1,2,3) Vectors.dense(a._1, a....

0

你的spark是什么版本,api在官网上有查询入口,具体的地址在这的?http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package

1

你的spark版本是多少? java.lang.AssertionError: assertion failed的原因很有可能是因为某些参数没设置,把你的版本先告诉我吧,另外数据量是多大?

更多 »发问

没有内容

更多 »动态

发问

回复

文章

最新动态

我的交易

类型 时间 数额 支付方式 状态 描述

提现记录

时间 金额 卡号 银行 持卡人 手续费 状态 描述

审核记录

时间 类型 状态 描述
更多 » 关注 1

admin

更多 » 16066 人关注

Patrick_SZ 一个菜鸟 爱Fay _小小_程序员 jz20171231

关注 6 话题
主页访问量 : 5180 次访问