spark yarn-cluster集群模式提交任务,计算结果保存到哪了?

spark: spark-1.6.1
hadoop: hadoop-2.6.4

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 4 \
./lib/spark-examples-1.6.1-hadoop2.6.0.jar \
200

fish - Hadooper

赞同来自: wangjc

在跑driver的任务log中,通过yarn logs,把日志导出来,可以看到。 因为是yarn-cluster模式,所以,driver不一定在哪台nodemanager所在的机器上执行起来。

yanglei

赞同来自:

就这类问题,做个完整的介绍吧:         对Yarn而言,executor和application master运行在Container中。在一个应用完成之后,Yarn有两种模式来处理Container log。如果log application是打开的(使用yarn.log-aggregation-enable配置),Container log会被copy到HDFS中,然后在本地删除。这些log可以使用“yarn logs”命令在集群中的任何一台机器上查看。如下所示:
yarn logs -applicationId <appID>
  该命令会输出指定程序的所有container的所有log内容。   另外,也可以在HDFS上使用HDFS shell或API查看container log文件。这些log所在的目录在Yarn的配置中可以指定:
yarn.nodemanager.remote-app-log-dir 
yarn.nodemanager.remote-app-log-dir-suffix
  除此之外,如果想在Spark webUI中的executor选项卡下面查看Container log,则可以做如下配置:   (1)运行spark history server或者MapReduce history server。   (2)在yarn-site.xml中配置yarn.log.server指向该server。   完成配置后,Spark history serverUI上的log链接点击后将重定向至所配置的history server页面,会列出已聚集的log。   当log aggregation没有打开时,logs将会被保存在 YARN_APP_LOGS_DIR指定的每台机器本地。保存路径默认是/tmp/logs或 $HADOOP_HOME/logs/userlogs, 具体取决于Hadoop的版本及安装。在这种情况下,可以登录包含log的主机相关目录下查看Container log。子目录将log文件通过application ID和container ID来组织。在Spark Web UI中的executors选项卡下也可以查看这些log,此时不需要运行MapReduce history server。  

wql132279

赞同来自:

大概三种方式: 1.通过yarnClient API http://hadoop.apache.org/docs/ ... .html 2.通过yarn 提供的restapi http://host-11111:8088/ws/v1/cluster/apps/application_1537853118974_0132​   3.登录rm ui  点击am 查看 am 所在主机  然后使用 find . -iname "stdou*" | xargs zgrep "driverUrl"     或者  ps -ef|grep spark.yarn.app.container.log.dir container编号为000001的即是AM所在的container,可以在日志中找到如下信息:  

wql132279

赞同来自:

1.通过RM 日志找到 作业id 2.通过RM 日志找到作业id,会找到am 启动的host 和 对应的container  3.在am 所在主机 ps -ef|grep container_e03_1537853118974_0134_01_000001  

Patrick_SZ - 猎头顾问

赞同来自:

招聘  大数据总监,坐标深圳,薪资Open     岗位职责: 1、负责大数据开发团队的日常管理工作; 2、跟进行业前沿技术发展趋势,制定部门技术方向,应用大数据人工智能等前沿技术; 3、负责大数据产品设计,架构搭建; 4、负责编写和评审整体架构,概要设计,详细设计,技术评估,技术实现等相关文档; 5、负责大数据研发任务,解决工作过程中的关键性问题。   任职资格: 1、统招本科及以上学历,计算机等相关相近专业,7年以上工作经验,5年以上大数据开发经验,2年以上团队管理经验; 2、熟悉Linux系统,精通Java或C/C++等编程技术,独立开发过项目或产品,有物联网平台及应用开发经验; 3、熟悉掌握ETL,数据计算(Hadoop、Storm、Spark),大数据存储Hbase框架和技术,关系数据库系统,分布式队列MQ(kafka, rabbitMQ); 4、参与过大数据项目实际工作经验; 5、良好的技术管理、团队管理经验。   简历接收邮箱:Patrick_sz@126.com,

要回复问题请先登录注册