Hadoop跨机房架设

如果把Hadoop跨机房架设,本地机房和远程云里的机房,如果有个MR的任务结果有100G文件,一般需要相互之间有多大的带宽可以满足需求

史晓江

赞同来自:

如果是说一个hadoop集群,多个机房,这样你的hdfs数据,yarn container会在两个机房来回飘,数据读写,shuffle会带来非常大的带宽流量。我们搞跨机房改了非常多的源码,才能比较好的管理数据、container分布,以及带宽管控。如果是两个机房各有一个集群,估算下数据量和可接受的延迟,就能得到带宽需求,唯一需要注意的是getsplit阶段是文件级别串行的,如果跨机房延迟比较高,提作业时会消耗比较多的时间

macg - 80后IT男

赞同来自:

跨机房,简单点的,直接就部署多个集群吧,集群间实现数据互联互通.  简单点说,跨机房做到只增长存储空间就可以了,不要求增长计算能力.具体的job还是在这本地机房内跑,当然这种做法有点取巧.

要回复问题请先登录注册