spark为什么快的疑问?

其中提到了四个原因。对于其中的“有向无环图”这个原因我不理解,为什么DAG就会使他快了,那么hadoop的MR用的是有环图?

fish - Hadooper

赞同来自: colincheng 编程小梦 fly_me zixu4728

得先理解DAG分析的作用,在任务提交之前,将任务做个完整的分析,所谓“看得越远,优化得越多”。 一个任务可能由多个stage组成,进行DAG分析之后,原来可能在mapreduce方式下没头脑的一个job接着一个job的做法,会在这个分析过程中被串接起来,去除中间数据落盘等耗费性能的操作。   hadoop原生的任务执行方法完全是没有做任何事先分析的,直接提交的mapreduce任务,过去为了完成一个计算任务(比如一个hive查询)所需要的多个mapreduce串接,如果先做个DAG分析,可以做更多的优化。Hadoop中的Tez项目瞄准着这个方向进行,其中的DAG跟spark中所说的DAG是一个原理,可以去了解一下。

要回复问题请先登录注册