hadoop集群删除数据节点一直处于Decommission in progress状态问题

请教下各位, 我的hadoop集群是由一个namenode,两个datanode节点组成, 我尝试实践删除一个datanode节点,过了10多个小时了,被删除节点一直处于Decommission in progress, 这是什么原因呢,我的操作步骤如下:
1. 修改NameNode节点的hdfs-site.xml增加
<property>
    <name>dfs.hosts.exclude</name>
    <value>/home/wclluck/hadoop-2.6.2/etc/hadoop/hdfs-exclude</value>
    <final>true</final>
</property>

2. 新建hdfs-exclude文件,文件里写要删除节点的hostname,内容如下:
  yun3
   
3. 把hdfs-exclude, hdfs-site.xml复制到其他两个节点

4. 在namenode中执行刷新节点
bin/hadoop dfsadmin –refreshNodes

现在过了10多个小时了, 用bin/hadoop dfsadmin -report查看内容如下图

123.png


 

wangxiaolei

赞同来自:

发私信告知下那台机器ip和密码

fish - Hadooper

赞同来自:

这是正常的。Datanode在没有完全退出之前,需要将其上的数据拷贝到存活的datanode上,这个过程就是Decommission in progress。

wclluck

赞同来自:

如果时间短应该是正常的,但现在已经快20个小时了还是这样,所以我估计是有问题

fish - Hadooper

赞同来自:

hadoop fsck / -blocks -locations -files 输出中确定一下是否还有block在decommision的机器上。

wclluck

赞同来自:

输出结果如下,但我看不懂是否有block在这台机器上 ........ /user/wclluck/terasort/1T-input/part-m-00097 1100 bytes, 1 block(s):  Under replicated BP-548847412-10.174.244.54-1460037007133:blk_1073741941_1117. Target Replicas is 2 but found 1 replica(s). 0. BP-548847412-10.174.244.54-1460037007133:blk_1073741941_1117 len=1100 repl=1 [10.174.243.142:50010, 10.174.224.8:50010] /user/wclluck/terasort/1T-input/part-m-00098 1100 bytes, 1 block(s):  Under replicated BP-548847412-10.174.244.54-1460037007133:blk_1073741942_1118. Target Replicas is 2 but found 1 replica(s). 0. BP-548847412-10.174.244.54-1460037007133:blk_1073741942_1118 len=1100 repl=1 [10.174.243.142:50010, 10.174.224.8:50010] /user/wclluck/terasort/1T-input/part-m-00099 1000 bytes, 1 block(s):  Under replicated BP-548847412-10.174.244.54-1460037007133:blk_1073741943_1119. Target Replicas is 2 but found 1 replica(s). 0. BP-548847412-10.174.244.54-1460037007133:blk_1073741943_1119 len=1000 repl=1 [10.174.243.142:50010, 10.174.224.8:50010] Status: HEALTHY  Total size:    304944062 B (Total open files size: 332 B)  Total dirs:    58  Total files:   154  Total symlinks:                0 (Files currently being written: 5)  Total blocks (validated):      148 (avg. block size 2060432 B) (Total open file blocks (not validated): 4)  Minimally replicated blocks:   148 (100.0 %)  Over-replicated blocks:        0 (0.0 %)  Under-replicated blocks:       148 (100.0 %)  Mis-replicated blocks:         0 (0.0 %)  Default replication factor:    2  Average block replication:     1.0  Corrupt blocks:                0  Missing replicas:              156 (51.31579 %)  Number of data-nodes:          2  Number of racks:               1 FSCK ended at Tue Apr 26 14:09:08 CST 2016 in 87 milliseconds  

fish - Hadooper

赞同来自:

在小集群中,如果摘掉datanode,存活的datanode数据量小于文件的备份数设置(默认是3)是,有可能会出现这样的情况:https://issues.apache.org/jira/browse/HDFS-1590   由于在生产情况下不太会出现这样的场景,所以这个issue没有fix。   尝试将文件备份数设置为1或者2,然后尝试从三台datanode中exclude掉一台,看看是否能成功?

wangxiaolei

赞同来自:

配置文件中配置的是
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
目前有2个datanode直接去掉仅剩1个datanode 所以你尝试先增加1个datanode,然后再去掉1个。

wclluck

赞同来自:

谢谢两位老师, 把备份数改成1后删除的节点很快就Decommission了

要回复问题请先登录注册