macg

macg

80后IT男

威望 : 11 积分 : 1245 赞同 : 6 感谢 : 3

擅长话题

更多 »回复

0

会编程就不难. shell脚本或python脚本,perl脚本都可以. 用sed,awk也勉强可以.

0

中文乱码其实解决起来很复杂,因为牵扯的环节太多. 操作系统的编码,应用平台编码(hive,hadoop),java程序的编码,读取的数据文件的编码,数据库的编码,jdbc的编码,都要一致. 而且都应该安装时候都要事先设好的. 你在运行中,才开始设这设那的,其实...

0

一般导数据都分为全量更新和增量更新.可以用sqoop做,也可以自己写程序. 如果数据更新都是insert的话,用按日增量更新就可以.如果有很多update的话,那就只能全量更新了,就是删了重新导入全部数据.

0

跨机房,简单点的,直接就部署多个集群吧,集群间实现数据互联互通.  简单点说,跨机房做到只增长存储空间就可以了,不要求增长计算能力.具体的job还是在这本地机房内跑,当然这种做法有点取巧.

0

实际工作中,备份数影响最大的,还是成本吧, 毕竟容量按X3去存的,存储消耗的很快. 吞吐量其实影响不是很大,除非你组网还是百兆网. 现在主流交换机都是10G的了. 相对于吞吐量,磁盘I/O倒真是个瓶颈.

更多 »发问

3

131 次浏览  • 2 个关注   • 2018-01-23

2

128 次浏览  • 2 个关注   • 2018-01-23

2

186 次浏览  • 3 个关注   • 2017-12-15

2

1646 次浏览  • 2 个关注   • 2017-06-13

1

256 次浏览  • 2 个关注   • 2016-12-12

发问

回复

文章

最新动态

详细资料

个人成就:

威望: 11 积分: 1245 赞同: 6 感谢: 3

最后活跃:
2018-03-23 18:44
擅长话题:
Hadoop 3   3
Java 2   0
Linux 1   1
更多 » 关注 12

admin Dong bmchs wangwensheng mopishv0

更多 » 0 人关注
关注 0 话题
主页访问量 : 684 次访问