如何动态增减yarn集群中的机器?

yarn集群启动之后,如何动态的启动新的yarn节点或者下线已有的节点?在下线节点的时候如何操作可以是原本跑在该节点上的程序迁移至其他的nodemanager?

fish - Hadooper

赞同来自: 我叫_不_开心

如果yarn上执行的是MapReduce,由MRAppMaster负责进行错误恢复。 下线机器上的nodemanager服务停掉之后,其上的map或者reduce task失败,MRAppMaster获取到任务失败消息之后,重新申请资源将失败任务在其它存活的nodemanager上再启动起来。 就是说,错误恢复的逻辑,放在了AppMaster上。   至于想用类似datanode decommission的方式让nodemanager退出,目前应该还没有方案,参考:https://issues.apache.org/jira/browse/YARN-914

wangxiaolei

赞同来自:

直接stop现有的nodemanager,原本跑在该节点上的程序会自动迁移至其他的nodemanager上。

要回复问题请先登录注册