如何在程序中获取Spark Job的stage 数量?

可不可以在Spark 程序中获取 Job 对应的Stages 总数量、失败数量以及已完成数量?

竹之信

赞同来自:

对于一个大Job,外部如何能够很好的知道Job当前到什么阶段,已完成百分比是多少呢?

笨娃娃

赞同来自:

可以的 内核里面有封装 你调里面的api

fish - Hadooper

赞同来自:

可以在WebUI中获取到Stage信息。 但过去的版本中,获取这些信息的逻辑都在Spark Package private的环境中,没有对外提供的API,不确定最新版本中是否提供了可查的扩展功能。

justRe

赞同来自:

我也被这个问题所困扰. Spark的监听器可以提供一些参数.WEBUI的参数就是监听器的作用.不过spark目前好像没有在程序刚开始运行的时候就得到stage的数量,spark源码里面也可以看到,是一个job 一个job的解析,而不是一次性将所有的job解析完毕,再执行..所以在程序开始的时候,没法使用spark的api知道有多少个stage,只能知道当前job有多少个stage,然后正在进行的stage是哪一个.

要回复问题请先登录注册