hive语句执行时哪些在map执行,哪些在reduce执行呢

RT

李虎翼 - Hive/Hadoop

赞同来自: fish

你好,开始的逻辑执行计划和逻辑优化是不区分Map和Reduce的。 Map/Reduce是在物理执行计划的地方生成的。 很简单,ReduceSinkOpertor之前的在Map执行,ReduceSinkOperator之后的在Reduce执行,ReduceSinkOperator的作用是把数据从Map发到Reduce. 具体点:FROM(TableScanOperator),WHERE(FilterOperator),MapJoinOperator,ReduceSinkOperator在Map端执行。 GROUP BY(GroupByOperator),JOIN(JoinOperator),Distribute By,Sort By, Distinct,Having(FilterOperator)在Reduce端执行。 在Reduce端执行的重要特点就是有分发的key,比如group by key, join on a.key=b.key, count(distinct key), distrbute by key, cluster by key...   后续我们课程会讲到。

要回复问题请先登录注册