zhangjun

zhangjun

威望 : 0 积分 : 1020 赞同 : 0 感谢 : 0

更多 »回复

0

数据库中的数据例如电商网站的用户信息,当天新增的数据可以通过日期属性判断增量读入HDFS,但是当天更新的数据是采用增量方式还是更新方式读入HDFS? 如果是增量方式读入HDFS,必然会出现重复的用户数据,需要去重,效率很低,如果是更新方式读入HDFS,好像没这...

0

日志数据读入HDFS,建议的做法是Flume+kafka+Flume吗,貌似gobblin还不是很稳定?数据库数据读入HDFS,建议的做法是什么,sparksql通过jdbc读取存入hdfs吗?

0

sparksql这么优秀,针对已有项目,是不是也可以把hiveql改用sparksql实现,只是还用hive的metastore存元数据?另外对于新项目,是不是都不需要用hive了,如果不需要hive,元数据通常存放到哪里?

0

对于用spark streaming的场景,hulu是用spark standalone模式,还是spark on yarn模式,因为spark on yarn上有很多批处理应用在执行,是不是会影响spark streaming应用的执行效率

更多 »发问

没有内容

发问

回复

文章

最新动态

详细资料

个人成就:

威望: 0 积分: 1020 赞同: 0 感谢: 0

最后活跃:
2016-11-17 18:17
更多 » 关注 12

傲风寒 wangwensheng cenyuhai Dong mopishv0

更多 » 0 人关注
关注 0 话题
主页访问量 : 1011 次访问