第一课Spark概述

第一课Spark概述的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。
学习使用开源框架,阅读源码是重要的学习方法,如何有效的阅读源码,可以分享一下心得不?
Spark在任何情况下均比MapReduce高效吗? 请举例。
当前存在很多DAG引擎,包括Spark,Tez,Flink,为何大家都在讨论Spark?
Spark号称“内存计算框架”,它将所有数据写到内存吗?
yarn集群 和 standalone集群有什么区别?优势在哪里?为什么要用yarn?
咱们课程是用java做编程吗?会使用scala和python吗?
Hulu在生产环境中,哪些业务使用到了Spark,以及使用的哪个版本?

xiao5

赞同来自: 镜中夜 car2008 patrickj taoshi006 Loeng

主要业务是用DataFrame从postgres里取出记录,然后对所有的记录做flatMap,每条记录做业务处理,然后返回结果,最后把结果存到postgres里。用spark1.6和spark2.0.1都实现过,在standalone和yarn上都跑过,无论参数是否调整,二十多万条记录的时间都是五分多。集群环境是5台server,每台4个core,16G内存。在取数据库的时候,分区是16或100,差别也不是很大。spark-submit \ --master spark://datascienceresearch-01:7077 \ --executor-memory 15G \ --executor-cores 4 \ --driver-memory 4G \ --conf spark.default.parallelism=1000 \ --conf spark.storage.memoryFraction=0.2 \ --conf spark.shuffle.memoryFraction=0.2 \ --conf spark.executor.memory=3G \ --class com.GroupMain \ /usr/local/sparkProject/spark4content-0.0.1.jar 我们也调整fifo为fair模式,时间一样。不明白。 那么请问,一般参数需要怎么调整?一般有什么经验值和参数?请大神回答一下,谢谢。
总是能看到“spark比hadoop快100倍”,“spark将要取代hadoop”之类的话,老师能分析一下spark的发展趋势吗?
怎么在一个Spark context中并发的执行多个任务,比如多个SQL语句并发运行? 仅仅指定context.setLocalProperty("spark.scheduler.pool", "pool1")参数嘛

andyzhang

赞同来自: Tomguluson 小沙文 Loeng

可以分享在hulu使用Spark遇到过哪些问题,以及使如何解决的吗?另外Spark的调优是如何做的呢?

莫鸣之名

赞同来自: 小沙文 Loeng mark_meng

独立Hadoop,不使用HDFS、YARN等,Spark的数据来源直接使用分布式数据库,如Mongodb,这样的框架可以搭建起来吗?不安装Hadoop,直接安装Spark,数据源链接Mongodb这种方式?

freshcandy

赞同来自: wolong_2016 snowy

部署在云平台的hadoop和spark,相较于物理机,有什么优点和缺点?spark适合部署在云平台吗?

镜中夜 - just do it

赞同来自: caitongfan 汪汪汪

ERROR TaskSchedulerImpl: Lost executor 5 on XIDC7GBBIGDATAN32: Executor heartbeat timed out after 172783 ms 或者 ERROR TaskSchedulerImpl: Lost executor 5 on XIDC7GBBIGDATAN32: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages. 多次修改参数—conf spark.yarn.executor.memoryOverhead 4g 依然报同样的错误,感谢解答了 yarn-cluster模式下运行。  /usr/local/spark/bin/spark-submit --master spark://XIDC7GBBIGDATAN39:7077  --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M" --conf "spark.akka.frameSize=100" --conf "spark.yarn.executor.memoryOverhead=2g" --class data.spark.batch.dbdata.TfmcSortToEs  --executor-memory 20g --total-executor-cores 20  --driver-memory 20g  --num-executors 15 /root/data.spark.batch-0.0.1-SNAPSHOT.jar hdfs://XIDC7GBBIGDATAN39:8020/datas_sett/2016/part-m-00024 

@CrazyChao - 人生不止眼前的苟且,还有诗和远方的田野!^.^

赞同来自: Kevin9180 Loeng

日志统计与分析系统的可视化如何开发?用到哪些技术?之前董老师讲课的时候讲到过中搜的日志统计与分析系统,它的可视化是怎么实现的呢?

danxiaowei

赞同来自: 周榆杰

除了CDH本身的一些监控,还有别的监控job数量和job运行状态的工具没,谢谢

dotcoming

赞同来自: qinguanri

董老师有什么学习资料推荐的么?谢谢

CueroQu

赞同来自: lwcxks

同一个partition可能储存在不同的节点上吗?

lovestudy

赞同来自: hongqianli

@wangxiaolei @Dong 董老师,视频里面的课件比网站提供的多了几页PPT,能不能上传一个新版本的课件?

星火燎原_YUM

赞同来自:

Spark on Yarn的Client模式和Cluster模式中,AM对象是如何在集群中进行分配的,AM中的对象ExecutorLauncher都存在吗?1.5 、1.6 和2.0这两种提交模式ExecutorLauncher有什么变化?

星火燎原_YUM

赞同来自:

Spark Submit提交时 参数中指定的内存和CPU资源,是如何分配和设置的,我觉得和这次课内容出入有些大,但也请老师简要的回复下,到后面讲到优化时再细致的解答也行,谢谢!

星火燎原_YUM

赞同来自:

Spark算子中哪些算子会引起Stage的划分,一个Stage中的Task数量会发生变化吗?哪些算子会引起Tasks数量的变化?具体举例说明下,谢谢!

adonfang

赞同来自:

安装Ambari能够对已经运行一段时间的Hadoop、Spark集群做监控?@Dong

wodatoucai

赞同来自:

spark streaming跑一段时间就挂掉 现在定位不到问题 @Dong 麻烦能分析一下出现问题的可能性以及定位问题的方式么?

valgrind_girl

赞同来自:

有一个程序在standalone模式下能正常运行,而提交到yarn上的时候运行到一半报序列化错误:   com.esotericsoftware.kryo.KryoException: Unable to find class xxx  而xxx在这个包中是存在的,这个可能是什么原因?

andyzhang

赞同来自:

可以分享一下,为什么Spark(其他很多框架)会使用DAG这种数据结构来表示任务的依赖关系呢?可以使用其他的数据结构吗?

amnesia

赞同来自:

有个疑问, 现在spark官网提供的spark安装包是类似这种spark-2.0.1-bin-hadoop2.7.tgz, 解压缩后设置几个环境变量就可以直接使用单机模式. 我的疑问是, 那我还需要额外安装hadoop吗? spark的版本和hadoop的版本有什么关系? 感谢回答!

pingxin

赞同来自:

kafka中partition和副本存放策略是怎么样的?

Dong - Hulu

赞同来自:

本节课调查问卷,本节课结束后,请微信扫描二维码,给予你的反馈!

张兴华

赞同来自:

Spark sql可以代替hive等其他的SQL on hadoop框架么?

alexanda2000

赞同来自:

我们在用Spark插入分区表的时候会特别慢,这是个普遍现象吗?

andyzhang

赞同来自:

为什么图计算和机器学习是迭代计算的呢?而数据挖掘是交互式处理呢?能分别举例说明吗

kaiball9999 - Focus on bigdata

赞同来自:

CDH 上 hive 依赖于 spark 的话,那么实际底层是用spark sql 吗?

binaryfan

赞同来自:

初学者搭建Spark运行环境用Cloudera还是Ambari比较好?

xiaohe001

赞同来自:

老师能给我们搭建基于CDH的Hadoop环境吗

yx2013

赞同来自:

做大数据运维怎么样,有前途吗

shareshow

赞同来自:

mapreduce相比于spark的优势有哪些呢?

Tomguluson

赞同来自:

只会用python,对java是写hello world的水平。如果我要搞好spark应用层的问题,是不是可以主要学scala而非java?

dyingbleed

赞同来自:

老师可以简单讲讲 Spark 和 Alluxio 怎么结合使用么?

tsingfu

赞同来自:

spark 通常和 hadoop 与 yarn 一同使用,在学些 spark过程中,需要补充哪些 hadoop 与 yarn 相关的知识点,可以整理列一下

水果

赞同来自:

能讲下什么叫有向无环图吗,hadoop跟spark都是生成有向无环图,为什么spark生成的job比hadoop快,这是有什么决定的。hadoop为什么不能用spark的思想生成一样的有向无环图,这样不就有spark的优点了吗

陈保贺 - 计算机硕士在读 @Beihang

赞同来自:

transformation积累多了怎么办?如果没有action

小沙文

赞同来自:

现在互联网里面的大数据开发的岗位,是直接用开源的Spark开发各种分析工具,还是基于Spark的源码二次开发比较多?

kaiball9999 - Focus on bigdata

赞同来自:

 yarn-cluster模式 如果driver 挂了,重启的话任务会完全重新启动么

qinguanri

赞同来自:

刚才所有的PPT可以在哪下载

yuzhouwan - 慈、俭、和、静

赞同来自:

如何解决Spark的数据倾斜?

jerry138133

赞同来自:

在yarn-client模式下,client提交的job,driver在client端,那App master上运行的是什么?

lwcxks

赞同来自:

一个partition只会在一个节点上吧?老师没有讲container的概念么?老师能把partition、container、executor、task再详细讲一下么?

dark

赞同来自:

董老师,你好: 我刚刚参加一个项目。是用spark分析日志统计用户访问量。在本地调式没有问题可以在es中能获取到数据。然而在正式环境上发现经常在es中没有数据。查询原因比较繁琐和困难。有的同事怀疑是spark分析日志出现问题。有的同事怀疑是日志格式数据问题导致的。请问有什么方式才能快速的定位问题。

ioridong

赞同来自:

学些scala编程,是否有较好的书籍推荐?

周榆杰

赞同来自:

Federation后,fsck只能delete操作,其他move、blocks等操作是失败的?

fkw762472454

赞同来自:

每次重启虚拟机后,执行启动dataNode命令都会报这个错: java.io.IOException: Incompatible clusterIDs in /home/hadoop/dfs/data: namenode clusterID = CID-db1b5823-8587-4e69-89ac-06c3b9481461; datanode clusterID = CID-23ba90bf-85bd-4d9d-8874-7bbc191e2861     at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:391)

斯盖丸

赞同来自:

老师请问如何用Kerberos来给Spark做权限控制呢,我指的是用java或者scala编写代码操作Spark集群时,对访问者要进行身份验证以及设定访问权限,还请老师答疑解惑呢。。最好有详细步骤,因为我真的是Kerberos零基础啊,知道老师是大神才果断报老师的班的~~

xiaohe001

赞同来自:

Spark真的是万能的吗?Spark真的能搞定所有吗?

要回复问题请先登录注册