第七课_Spark+Streaming应用及案例分析

第七课_Spark+Streaming应用及案例分析的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。

R.kelly

赞同来自: 贰怪兽lyn

老师,您好,能介绍下treeReduce,treeAggregate的底层原理、详细用法及使用场景么?  

jhg22

赞同来自: tl_oni

sparkStreaming 消费kafka数据时,使用kafka createDirectAPI,必须要去维护kafka的 offset吗?这样做的目的是什么?----》记住kafka的offset,下次从这个offset开始消费,避免重复消费,这样理解对吗?

谢国亮

赞同来自:

老师好,用python版的spark程序是否支持yarn-cluster运行模式?我尝试pyspark --master yarn client 命令能够成功申请资源运行程序,但pyspark --master yarn cluster 命令则失败,请问该如何设置?谢谢

Jenwing

赞同来自:

老师好!用hive jdbc查询的时候,有没有碰到这种sql执行错误,开始是正常的,执行一段时间,就报sql执行错误。 日志异常是附件上面, 接着所有的简单查询语句都不能正常查询出数据出来,都报sql语句执行异常 hive sql语句:   select sum(wordcount) as wordcount,filepath,minute(analysis_time) as mtime from db_eagle.t_srclog_wordcount_report  where analysis_time > '2017-04-26 23:25:00' AND analysis_time < '2017-04-26 23:26:00'  AND item_name like 'all_error%' group by filepath, minute(analysis_time) order by minute(analysis_time) desc;

谢国亮

赞同来自:

老师好,在用spark-submit提交pyspark作业时,用spark-submit --master yarn --deploy-mode  client test.py命令时运行结果正常,在运行 spark-submit --master yarn --deploy-mode  cluster test.py命令后报错,请问老师如何设置,解决: Exception in thread "main" org.apache.spark.SparkException: Application application_1493262580916_0012 finished with failed status  at org.apache.spark.deploy.yarn.Client.run(Client.scala:1167)  at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1213)  at org.apache.spark.deploy.yarn.Client.main(Client.scala)  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)  at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  at java.lang.reflect.Method.invoke(Method.java:497)  at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)  at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)  at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)  at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)  at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)    

choicc

赞同来自:

老师您好, 我有两列ID, 想算他们的内联join, 但是报错, 请问这是什么原因呢?怎么感觉他不让我做这个操作
org.apache.spark.sql.AnalysisException: Detected cartesian product for INNER join between logical plans

谢国亮

赞同来自:

kafka和flume有相似功能吗?如果学习kafka,是否还需要学习flume呢?

jhg22

赞同来自:

sparkstreaming+flume,sparkStreaming +kafka 都可以处理实时数据,俩者有什么区别?或者用哪个更好?

罗凇

赞同来自:

您好,spark  streaming产生的rdd,rdd的生命周期管理用的是什么?

张文山4tw

赞同来自:

Nginx日志 + flume + kafka + SparkStreaming架构中:   1. 日志文件会随时间或大小滚动,flume丢数据是如何处理的?需要自定义开发吗? 2. 满足至少处理一次,推荐用那种方案?Hulu用的那种?(是否能满足SparkStreaming应用程序的升级) 3. mapWithState的使用,数据量有没有限制?比如存几百万的用户状态数据。

allen_cdh

赞同来自:

spark streaming中每30秒运行一次,每次把结果写到hdfs里,按天的文件夹分割(每天一个目录) output.replace("date",new SimleDateFormat("yyyy-MM-dd").format(new Date())) 但只会有一个目录,第二天不会生成新目录。  

930523

赞同来自:

val hashtags = tweets.flatMap(status => getTags(status))这里的status是传的什么,key,value数据么?

记得小五

赞同来自:

董老师,impala和kylin能简单比较下优缺点吗

会飞的象

赞同来自:

老师,您好,kafka可以接收http请求么?比如:如何高并发采取各系统上报的日志?

逍遥feng

赞同来自:

请问下  streaming读取kafka数据低阶api需要 手动维护offset?  是不是用高阶的api读取 就不用手动维护offset,streaming自动维护,是用到哪几个高阶api呢?

黄龙

赞同来自:

请问下,sparksteaming也有按行处理数据的api,这种情况下的延时和吞吐率跟strorm比如何?

yehefeng

赞同来自:

大数据平台一般用cdh版本还是apache版本,如果用apache版本,用什么工具监控

tl_oni

赞同来自:

sparksteaming 能解析http协议的内容吗?怎么解析?

逍遥feng

赞同来自:

sparkshuffle的1.3版本的有consolidate机制  目前的2.x版本  是不是就没有这个机制的设置了?

呼噜噜

赞同来自:

老师好,问一个提交参数的问题,如果通过脚本提交的参数 --num-executors=4 并且我在程序里写的config.set()的方式设置的num-executors=5,最终会是4还是5?是否所有的提交参数都能在程序里设置?

要回复问题请先登录注册