第五课《5 分布式计算:批处理引擎 MapReduce(第一部分)》

第五课《5 分布式计算:批处理引擎 MapReduce(第一部分)》的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
第五课满意度调查问卷
https://wj.qq.com/s/991951/2ba7
或扫描二维码
533333333.jpg

 
请问一下,map数量根据split确定后,shuffer的数量和reduce的数量是怎么确定的?能详细介绍下shuffer吗?partitioner和shuffer的关系是?

auferack08

赞同来自: JackyYang

使用压缩情况下,对整个任务的性能会产生哪些影响?例如任务执行时间

BehandTheTime

赞同来自:

董老师,mapreduce的DistributedCache类是将数据缓存到内存中吗?它是缓存到哪个DataNode上呢?还是随机的?它缓存的数据的大小是不是要受到所有DataNode物理内存大小的限制?

小象爱学习

赞同来自:

董老师我想问下,mr在读取文件的时候除了可以设置mapper,reducer的数量之外,可以设置比如每个节点运行任务的最大并发吗?可以设置每个job的mapper和reducer的最大并发吗?如果不行的话比如有10个mapper,那这10个mapper如果保证资源足够是第一时间并行执行的吗?

小象爱学习

赞同来自:

董老师,mapper在spill数据的时候,是spill一次生成一个文件吗?生成的文件是什么时候开始进行合并 成大文件的呢? Reducer端的shuffle 拉取过来的数据,默认首先存在内存中还是直接写到磁盘呢?如果超出一定大小存在磁盘中那么什么时候进行合并和排序的?整个排序过程是在内存中进行的吗? 谢谢老师~

迷路剑客

赞同来自:

请问 跨机架那个问题 为什么不能把任务3分配到H4?

记得小五

赞同来自:

跨机架那个b3只有两份数据

kafei

赞同来自:

1.计算是不是在数据本地执行,怎么知道,生产中计算不在数据本地执行的比例占多少我们需要优化,优化方法是什么 2.推测执行是默认启动的吗

小象爱学习

赞同来自:

老师,如果一个文件的大小大于block的大小,那么这个文件倘若需要存储为两个block,那这两个block课能存储在不同节点,那么这两个block分别在两个节点,数据物理形式上是如何存储的呢?

迷路剑客

赞同来自:

感觉partioner和shuffer没太听明白

TBThierry

赞同来自:

请问老师  1. 单个block 会被多个map 读取吗?还是每个block 只会被唯一 一个map 读取 ? 2. 什么时候只需要map 不需要 reduce ?

kafei

赞同来自:

1. mapreduce中job和application是不是1个概念 2. 1个job的reduce个数设置为多少个合适,有什么规则吗? 3. 如果1行被分到了2个block,读第1个block的split会读取第2个block中前半段,我想问下读第2个block的split怎么知道这前半段不是自己应该读取的,原理是什么?

JackyYang

赞同来自:

刚才在eclipse中本地运行WordCount时,在run Config中输的参数是啥?

Happywan

赞同来自:

开发时怎样比较准确的估计Map和Reduce的内存用量?如果设置的过小会出现什么情况?mapreduce.map.memory.mb参数设置的是每一个MapTask需要的内存吗?

朱月军

赞同来自:

老师,您后面讲的倒排索引不清楚它有什么样的优势和特性,您能讲一下它的特性和应用场景吗?

徐凯

赞同来自:

map与reduce 个数越多越好吗 ?

123aaaaa

赞同来自:

每个节点的资源不一样可以吗?比如节点A的硬盘500G,节点B硬盘1T,这样部署会不会有潜在的风险?

mayibo_123 - 90houIT

赞同来自:

      如果说相同的key 会由一个reduce task来处理,那么在wordcount的这个应用中,是不是每一个reduce task只对同一个word进行reduce计算呢,这样应该是不合理的吧。

要回复问题请先登录注册