第一课_Spark概述

第一课_Spark概述的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。
第一课课后调查问卷:
https://wj.qq.com/s/1245490/79f0
或者扫二维码进行填写
spark11.jpg

 
董老师,您好!我想问2个问题   1、如何控制spark代码运行时的权限。例如,可以读写那些hive或hbase的表。或者那些hdfs目录 2、目前我能想到的访问和操作hadoop eco cluster 的方式有三种1、rest, 2、CLI,3、代码。请有其他方式吗?   我们目前采用的是HDP2.5,通过ambari2.4部署的。希望控制住三条路线上的权限,分别是:restful、CLI、代码 的读写hdfs、Hive、Hbase等几个组件的权限。 目前看到的一套安全解决方案是通过knox + ranger + kerberos来实现的。整套框架如图所示。我的需求是构建一个安全的大数据据平台。希望做到安全的数据管理,其实就是做到各种方式的数据操作都受控就行了。   附件里面的那套方案能否实现我们的目标,无论通过那种方式访问集群的任何服务,必须要有认证授权才可以。否则连hdfs 50070 和 yarn 8088这样的界面都打不开  
Spark1.6和Spark2.1的主要区别有哪些?

R.kelly

赞同来自: 雨果等夏天 aurorahh 琳琳 elon33

1.请问老师,是如何关注国外IT技术的发展,主要关注国外哪些网站或者论坛,或者博客,能列举一些么,

zhjch13122

赞同来自: czphappy shawnley A向往

老师,之后的spark RDD会被DataFrame和dataset替代吗?ML会替代MLlib吗

big_hive

赞同来自: Larson aurorahh 自在作人

我有个问题, 现在使用spark 2.1 在dataset上做sql操作,数据已经cache到内存中,有用一些复杂数据结构,arrary,和map。时间消耗都大部分都是反序列化的开销。dataset 的存储不再是对象,变成了byte array。 我有办法修改spark 去除掉反序列化开销么
请问,在spark-submit提交任务的时候yarn-client运行成功,但是yarn-cluster无法运行,提示某些包找不到。但是这些jar包已经配置在环境变量里面了,yarn-client模式也运行成功了,yarn-cluster却运行失败,这是为什么?

heming621

赞同来自: shawnley A向往

RDD-partition 和 HDFS-block 的关系是?两者的大小是一样的吗?比如Block 128M,对应的Partition也是128M吗?

呼噜噜

赞同来自: zqiu9958 刚被兽

1.对于数据依赖的两个spark任务,市面上有没有比较好的任务调度框架? 2.业界的spark任务提交方式?不会是打成jar再通过命令提交吧?

tl_oni

赞同来自: baoshan

1、Spark除了读取hdfs外,能不能读取mongodb数据源,进行数据分析处理?? 2、Spark相关应用,可不可以脱离hadoop环境? 单独在生产中工作呢? 3、Spark开发环境,介绍一下myeclipse开发环境搭建过!!!

大老李ax9

赞同来自: baoshan

spark 2.0和2.1有什么改变,为什么2.0没过多久就发布了2.1?
董老师您好,我问一个传统业务往大数据平台的迁移问题。对于传统业务(目前的数据都是关系型的,保存在ms sqlserver中,每天新增1千万条记录,每条记录的数据量都很少,只用了一台DB Server,现在出现了查询访问延迟较大的问题),要做性能优化,同时考虑到以后的业务扩展,倾向于采用大数据平台,但是不知道怎么下手。请问如果用大数据平台的话,是用那几个组件呢?还是说大数据平台不适合处理这种传统的海量关系型数据,而应该用传统的分库/分表的方法来优化? 请董老师给我们从宏观上普及一下大数据平台里面的数据存储管理再到后面的分析方面的目前通用做法,对于传统企业,在做业务和数据的迁移的过程中,应该注意哪些问题?非常谢谢!

frmark

赞同来自: michaelhadoop

还想问一下,各个partition的计算结果会回到driver节点吗,如果会,什么情况下会,如果不会,是什么情况下不会?谢谢

zqiu9958

赞同来自: zstorm

董老师您好, 1.我要部署一个新集群,预计12台, CPU32核,内存32G*12=384G,硬盘4T插满,需要配置尽量高,利用率最大化。 这个配置需要调整吗,短板在哪,怎么调整更好? 2.我写自定义tez程序,处理了hdfs数据,当我想用tez处理hbase数据时,无从下手,请问是否有tez处理hbase的资料?或者说我还是放弃tez,改用spark来做?

run_psw

赞同来自:

回答第一个提问者的问题,希望一起讨论学习。   1、Spark除了读取hdfs外,能不能读取mongodb数据源,进行数据分析处理??  spark 可以读取hadoop 支持读写的所有文件,当然包括mongodb,spark sql 可以读取Hive, Avro, Parquet, ORC, JSON, and JDBC 等等等等   2、Spark相关应用,可不可以脱离hadoop环境? 单独在生产中工作呢?  不知道你想在那种场景下使用spark。不过跟你的问题来回答。spark的应用必须在spark环境下工作,可以脱离hadoop环境。spark 支持standalone,on yarn 和 on mesos 三种部署模式。现在 hadoop 主要提供两种服务,一种是hdfs 用于存储,一种是yarn用于资源调度和MR计算执行   3、Spark开发环境,介绍一下myeclipse开发环境搭建过!!!   spark的开发环境搭建,可以使用maven,在maven中添加好相关的依赖就行了。如果只是使用scala开发的spark程序的也可以直接把assembly这个jar包添加到项目的依赖中就行了。

马明睿

赞同来自:

我知道spark是基于hadoop的,那么spark有自带调度器吗?如果我自己改了hadoop的调度器,那么使用spark的时候是用的我改过的调度器还是spark自带的调度器?

854434716

赞同来自:

1.问题1 如何 用spark streaming  做热点分布的运算? 假如可以一直收集到大量车的运行GPS数据

allen_cdh

赞同来自:

董老师您好,我想问一下,咱们Spark2.1的课程 会包括DataFrame和DataSet吗?

boyfuxin

赞同来自:

董老师对出现的与spark在使用场景上是高度重合的flink框架有什么看法?

侠侠猪

赞同来自:

请问董老师是怎么把hive的查询分解成mr任务的

hero_naicha

赞同来自:

问下董老师,如何自定义并在RDD的操作里打印日志,或者获取异常?

czphappy

赞同来自:

spark sql支持类似 hive udf 的自定义函数吗

Larson

赞同来自:

老师 好! 像我这种只懂数据库的,关于spark的相关环境都没有配置好!老师能简单说一下如果要搭建环境,需要做哪些工作么。这样我也有点方向去自己在网上查一下! 谢谢!

justdoeat

赞同来自:

spark 在shuffle的时候会吧的中间数据落地磁盘吗? 默认都是写磁盘吗, 

frmark

赞同来自:

问一下董老师,当运行在yarn-cluster模式下的时候,怎么终止spark job?除了在web UI点击kill按钮,还有别的方式kill掉job吗?

呼噜噜

赞同来自:

请问:在RDD在经过transformation知道action才执行,是不是意味着action之前各个stage的状态都不记录?如果挂了是否是完全从头开始计算?

哈哈雪月

赞同来自:

董老师,我们公司用的是spark2.0.2,没有用hadoop,资源管理是准备用mesos,这样会不会有什么缺陷么????

michaelhadoop

赞同来自:

请问董老师spark.local.dir这个目录主要是存放什么文件,如果放到yarn client和yarn cluster应该如何定期清理?谢谢!

西向

赞同来自:

老师我在安装ssh的时候,当ssh localhost 的时候为什么还需要输入密码

scaler

赞同来自:

老师,您说spark的 transformation不是分布式计算,需要一个action触发才是分布式计算,这里的一个rdd转换为一个新的rdd而且可能分布在不同的节点上,不也是分布式么,您意思是没有涉及到计算么,关键字是计算是这意思么?

nj_alan

赞同来自:

比如说我的文件是1M的大小,要加载到spark内存中是需要1M的内存还是需要更多的内存呢

shawnley

赞同来自:

请推荐学习实验环境?是阿里云,还是买服务器?  

dragonwjc

赞同来自:

老师,你好。我想问下,如果我用python来写spark程序,那么也需要maven进行程序大包吗?

ghllfl1

赞同来自:

麻烦问:基于Hadoop的Mapreduce进行预测模型训练,训练好的模型怎么实现测试数据的预测分析?我是用reduce函数实现的模型训练过程,但不知道怎么进行测试?

hadoob - 80后

赞同来自:

1.spark把数据写入到关系型数据库中时,在处理驱动加载时,为什么用--jars把驱动加后,spark在yarn-cluster时怎么也识别不出来,提示找不到驱动. 2.在写数据到关系型数据时,有时由于联接关系型数据库时间过长提示connect reset错误,如果在spark这处理这个问题呢?

wenx999

赞同来自:

l老师  我想问一下 您刚才说是只有一个mapreduce的程序 spark会快 可是 只要有 reduce 就有shallf 就会写磁盘 我觉得应该是只有 map的程序 spark和mapreduce 性能一样 麻烦老师给讲解下

贰怪兽lyn

赞同来自:

如何通过Spark UI定位性能问题?

michaelhadoop

赞同来自:

请问老师 spark-env.sh,spark-defaults.conf 是driver调用的还是executor调用的环境变量

邓谦DQ

赞同来自:

Hulu的spark和Hadoop集群部署和运维有什么最佳实践和运维工具没? 比如,有没有自动部署的工具,如ansible类似的工具 一般集群的规划是怎么样子的?

陆仲达

赞同来自:

Spark的standalone可以看到stage和task, Yarn看不到这些详细信息,怎样在Yarn看到信息和Spark ui看到的类似信息呢? 

wenx999

赞同来自:

l老师  我想问一下 您刚才说是只有一个mapreduce的程序 spark会快 可是 只要有 reduce 就有shallf 就会写磁盘 我觉得应该是只有 map的程序 spark和mapreduce 性能一样 麻烦老师给讲解下

张君健

赞同来自:

董老师,您好,有两个问题向您请教一下: 1.spark on standalone 这种运行模式可以对hdfs进行计算吗? 这种模式是通过什么对集群资源进行管理和调度? 2.hive on spark 和spark sql之间的有哪些异同?

陈斌

赞同来自:

董老师,你好 请问用Python写的程序提交到Spark集群上,可以分布式执行吗?

竹之信

赞同来自:

董老师,你好 我想问下几个问题: 1.Spark REPL 内部使用的sparkSession 在 REPL 外部可以使用吗? 2.如果(可以的话)把sparkSession 通过参数传递到REPL里面去,然后在REPL内部对sparkSession 注册UDF,那么外部的sparkSession可以使用内部定义的UDF吗?

zstorm - 80后IT男

赞同来自:

董老师,我是单台机器32核,384G,部署HDP,用于内存密集型计算,对单个container要求很低 这样采买机器是否合理呢

那小子真帅

赞同来自:

董老师您好。这样一个错误,一般是什么造成? ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM

要回复问题请先登录注册