yarn-client观察端口(续)

系统不让我继续邀请fish老师回答刚才的问题了,所以我只好另起一个问题。
fish老师,是不是官网上这两处说法?
要先启动./start-master.sh?
我启动不了,好像权限不够,前天您解释过我权限不够的问题。请看第三个图。
spark-shell --master http://IP:8080可以启动。
怎么看yarn的端口号呢?

我试了一下在我本地机器的浏览器上输入http://IP:8080,出了ambari,我试了admin的用户名和密码能登录进入,然而好像并看不到什么。请看第四个图。

我想观察到在yarn-client模式下的运行情况。谢谢!
QQ截图20160510215301.png QQ截图20160510215323.png QQ截图20160510220117.png QQ截图20160510220238.png

fish - Hadooper

赞同来自: dangyue

看来你这个叫nimbus的机器是个跳板机,有个外网IP,可以供你远程连接上去。 而,nimbus-head这些其它的192.168.xxx,都是内网IP。你如果在公司内部,在你的机器上尝试ping 192.168.1.2看看是不是通的?   如果在家里,直接访问这个192.168.1.2肯定是不行的,内网中的机器,你没法直接访问到。

fish - Hadooper

赞同来自:

直接回复原贴我能看到消息。 说明你8080端口就是ambari监听的,不是要找的resourcemanager所在(你的集群看起来也不是用这个ambari搭建的,ambari界面中没有任何集群信息,这集群是你搭的么?)。   你的spark对应的hadoop配置中,其中的yarn-site.xml文件,配置项yarn.resourcemanager.hostname中配的是什么?

dangyue

赞同来自:

fish老师好~这集群不是我配的。。。我是刚开始用,我现在只会用spark-shell的本地单机模式。现在想弄到集群上并行跑,是不是能快一点? yarn-site.xml我截图下来了,然后怎么操作呢~ 谢谢~

dangyue

赞同来自:

怎么我这里没有hostname呢?是不是在哪里设定好了,这里就可以默认了?还能从哪里找呢~

fish - Hadooper

赞同来自:

从配置上看,你得访问的resourcemanager的web地址是http://nimbus-head:8088

dangyue

赞同来自:

这个我试过了,什么都找不到啊。 服务器上没有图形化的浏览器,我只能在我的本地机器上看。

fish - Hadooper

赞同来自:

不是www.nimbus-head.com,得是 http://nimbus-head:8088。 关键是这个nimbus-head你在本机上也得能够将其翻译成正确的ip地址(就是配好hosts文件)。如果不想配,请使用http://<ip地址>:8088访问。这里的<ip地址>,指的是你的nimbus-head这台机器的ip地址。当然,前提是你的本地机器得能连上nimbus-head这台机器(不管通过名字还是ip)。   你可能得先搞清楚机器名字跟IP地址的关系,否则往后的使用还会有不少障碍。

dangyue

赞同来自:

在服务器上 用 lynx http://nimbus-head:8088可以打开,但是不支持javascript,这没法继续用了啊

dangyue

赞同来自:

老师,我的机器通过IP可以连的上服务器的。我输入的肯定是http://nimbus-head:8088,是显示成那样的。。。。

fish - Hadooper

赞同来自:

你换个支持javascript的浏览器啊,什么浏览器不支持javascript?。。。

dangyue

赞同来自:

我知道我的机器把nimbus-head解析不成IP地址,所以我试过http://IP地址:8080keyi" rel="nofollow" target="_blank">http://IP地址:8088,也不行啊,但是http://IP地址:8080 倒是能打开,就变成了ambari的界面,这不是说明应该是能连接到这个IP地址的吧?

fish - Hadooper

赞同来自:

你的ambari就是在nimbus-head同一台机器上的么?我怎么看你之前的命令输出,这俩玩意儿好像不是在一台机器上?

dangyue

赞同来自:

服务器上只有lynx,没有其它的。 我在群上问过这个问题,有个人回答说服务器上没有图形化的浏览器很正常,太占用资源了。 公司里用hadoop也是通过本地浏览器监视的。  

fish - Hadooper

赞同来自:

你如果本地浏览器跟服务器之间的网络是通的,不需要通过服务器的浏览器打开。但,关键是,你得搞清楚你这些服务,到底,跑在什么机器上。   你现在是否能清晰的告诉下,你执行ambari的服务器IP是什么?执行resoucemanager的服务器IP是什么?

dangyue

赞同来自:

老师,您看:到ambari的地址用的是http://**.5.40:8080 查看resourcemaganer的地址是http://192.168.1.2:8088 我也在怀疑,这个192.168.1.2怎么能连到服务器去,我在我家里的局域网里也是192.168开头的地址啊,问题是不是出在这里了?我用SSH远程连接的服务器  

dangyue

赞同来自:

我想:我通过SSH都连上了,是不是就是和服务器一个局域网了呢? 这个怎么判断呢? 谢谢老师~

dangyue

赞同来自:

现在fish老师已经变身网络课的老师了。。。

dangyue

赞同来自:

哦~原来如此,我在家里,怎样才能登录到内网中的机器呢~这个问题属于fish老师的回答范围吗~不属于就不用回答啦~太辛苦啦,陪我找了一上午问题~谢谢!

fish - Hadooper

赞同来自:

内网中的机器,只能通过跳板机访问,所以,你若跳板机(就那台nimbus)上有图形界面,通过它打开web浏览器可以访问内网中的服务页面。   要不,你就在nimbus上,试试搭建一个ssh tunnel(上网搜搜吧~)。

dangyue

赞同来自:

啊:-)多谢!那我如果想用YARN ON CLUSTER的模式是不是一样的:-) standalone 的模式开不了spark-master.sh 说什么不允许我mkdir存放logs 要是 这种模式能用的话就用**.5.40那个IP看8080端口吧?

fish - Hadooper

赞同来自:

yarn cluster表示任务提交到yarn集群上,并且spark的driver也是跑到集群机器中的。 网络问题没搞定,你就不能从家里登web。   standalone模式下,打开你的spark master所在的机器,看看master在监听什么端口,就可以知道怎么查看web了。 你再到spark官网补补这些基本的spark部署的问题吧。

dangyue

赞同来自:

用集群跑完了是不是应该在网页上看一下具体的资源分配等情况啊?不然后面怎么学习调优呢。慢了都不知道该怎么调。

fish - Hadooper

赞同来自:

调优这个事,留个系统管理员吧~,或者跟他一起合作,了解任务瓶颈及调优方法。 或者,你关注一下apache Dr. Elephant这个新项目。

dangyue

赞同来自:

Fish老师的意思是,如果我只跑算法的话,不用关注这些?可是我想让代码变快一点,从哪里入手呢?

dangyue

赞同来自:

我用spark-shell可以跑通我的代码,现在想通过提交到集群上不是能快一点么,莫非我直接打包提交就好了?不用配置什么东西?也不用改动原来的代码?

fish - Hadooper

赞同来自:

打包提交可以。 甚至,spark-shell --master yarn-client 也是将任务提交到yarn上在集群环境跑的。

dangyue

赞同来自:

可是我想让代码尽可能的快一些,应该从哪方面考虑呢?比如我以前好像看过一个groupbyKey 和 reduce 两个动作的比较。两个结果一样但耗时就不一样。谢谢!

要回复问题请先登录注册