spark yarn-cluster集群模式提交任务,计算结果保存到哪了?
spark: spark-1.6.1
hadoop: hadoop-2.6.4
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 4 \
./lib/spark-examples-1.6.1-hadoop2.6.0.jar \
200
hadoop: hadoop-2.6.4
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 4 \
./lib/spark-examples-1.6.1-hadoop2.6.0.jar \
200
没有找到相关结果
已邀请:
5 个回复
fish - Hadooper
赞同来自: wangjc
因为是yarn-cluster模式,所以,driver不一定在哪台nodemanager所在的机器上执行起来。
yanglei
对Yarn而言,executor和application master运行在Container中。在一个应用完成之后,Yarn有两种模式来处理Container log。如果log application是打开的(使用yarn.log-aggregation-enable配置),Container log会被copy到HDFS中,然后在本地删除。这些log可以使用“yarn logs”命令在集群中的任何一台机器上查看。如下所示:
{{{yarn logs -applicationId
}}}
该命令会输出指定程序的所有container的所有log内容。
另外,也可以在HDFS上使用HDFS shell或API查看container log文件。这些log所在的目录在Yarn的配置中可以指定:
{{{yarn.nodemanager.remote-app-log-dir
yarn.nodemanager.remote-app-log-dir-suffix
}}}
除此之外,如果想在Spark webUI中的executor选项卡下面查看Container log,则可以做如下配置:
(1)运行spark history server或者MapReduce history server。
(2)在yarn-site.xml中配置yarn.log.server指向该server。
完成配置后,Spark history serverUI上的log链接点击后将重定向至所配置的history server页面,会列出已聚集的log。
当log aggregation没有打开时,logs将会被保存在 YARN_APP_LOGS_DIR指定的每台机器本地。保存路径默认是/tmp/logs或 $HADOOP_HOME/logs/userlogs, 具体取决于Hadoop的版本及安装。在这种情况下,可以登录包含log的主机相关目录下查看Container log。子目录将log文件通过application ID和container ID来组织。在Spark Web UI中的executors选项卡下也可以查看这些log,此时不需要运行MapReduce history server。
wql132279
1.通过yarnClient API
http://hadoop.apache.org/docs/r2.6.0/api/org/apache/hadoop/yarn/api/records/ApplicationReport.html
2.通过yarn 提供的restapi
http://host-11111:8088/ws/v1/cluster/apps/application_1537853118974_0132
3.登录rm ui 点击am 查看 am 所在主机
然后使用 find . -iname "stdou*" | xargs zgrep "driverUrl"
或者
ps -ef|grep spark.yarn.app.container.log.dir
container编号为000001的即是AM所在的container,可以在日志中找到如下信息:
wql132279
2.通过RM 日志找到作业id,会找到am 启动的host 和 对应的container
3.在am 所在主机 ps -ef|grep container_e03_1537853118974_0134_01_000001
Patrick_SZ - 猎头顾问
岗位职责:
1、负责大数据开发团队的日常管理工作;
2、跟进行业前沿技术发展趋势,制定部门技术方向,应用大数据人工智能等前沿技术;
3、负责大数据产品设计,架构搭建;
4、负责编写和评审整体架构,概要设计,详细设计,技术评估,技术实现等相关文档;
5、负责大数据研发任务,解决工作过程中的关键性问题。
任职资格:
1、统招本科及以上学历,计算机等相关相近专业,7年以上工作经验,5年以上大数据开发经验,2年以上团队管理经验;
2、熟悉Linux系统,精通Java或C/C++等编程技术,独立开发过项目或产品,有物联网平台及应用开发经验;
3、熟悉掌握ETL,数据计算(Hadoop、Storm、Spark),大数据存储Hbase框架和技术,关系数据库系统,分布式队列MQ(kafka, rabbitMQ);
4、参与过大数据项目实际工作经验;
5、良好的技术管理、团队管理经验。
简历接收邮箱:Patrick_sz@126.com,