第九课Spark综合案例:简易电影推荐系统

第九课Spark综合案例:简易电影推荐系统的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。

icichacici - 80后

赞同来自: 狂龙 BingClouds

老师,我通过此语句执行application,然后[hdfs@bigdata01p ~]$ spark-submit --jars /var/lib/hadoop-hdfs/mysql-connector-java-5.1.32-bin.jar --class com.xhl.scala.CountOrders --driver-memory 2g --executor-memory 3g --executor-cores 6 --num-executors 6 /var/lib/hadoop-hdfs/original-spark_xhl-1.0-SNAPSHOT.jar 2016-10-31   gc很长时间,如下图所示:
1.png
  所以我增加--conf spark.executor.extraJavaOptions="-XX:+UseConcMarkSweepGC -XX:PermSize=64m --XX:MaxPermSize=256m"    命令如下: [hdfs@bigdata01p ~]$ spark-submit  --driver-class-path /var/lib/hadoop-hdfs/mysql-connector-java-5.1.32-bin.jar --jars /var/lib/hadoop-hdfs/mysql-connector-java-5.1.32-bin.jar --class com.xhl.scala.CountOrders --conf spark.executor.extraJavaOptions="-XX:+UseConcMarkSweepGC -XX:PermSize=64m --XX:MaxPermSize=256m" --driver-memory 2g --executor-memory 3g --executor-cores 6 --num-executors 6 /var/lib/hadoop-hdfs/original-spark_xhl-1.0-SNAPSHOT.jar 2016-10-31 结果出现如下错误:  
2.png
 

@CrazyChao - 人生不止眼前的苟且,还有诗和远方的田野!^.^

赞同来自: crazyant

老师刚才讲的这个简易的推荐系统,怎样和视频网站整合起来?步骤是什么?大概讲讲吧

Dong - Hulu

赞同来自: 浮生

设置参数:
spark.streaming.kafka.maxRatePerPartition
not setMaximum rate (number of records per second) at which data will be read from each Kafka partition when using the new Kafka direct stream API. See the Kafka Integration guide for more details.

crazyant - 90后IT女

赞同来自: @CrazyChao

如何搭建一个机器学习流程?机器学习可视化一般怎么做比较好?有例子吗?

heming621

赞同来自:

spark有用到哪些并行化模型?其并行化除了体现在多线程外,还有其它地方吗?

zhangjun

赞同来自:

对于用spark streaming的场景,hulu是用spark standalone模式,还是spark on yarn模式,因为spark on yarn上有很多批处理应用在执行,是不是会影响spark streaming应用的执行效率

zhangjun

赞同来自:

sparksql这么优秀,针对已有项目,是不是也可以把hiveql改用sparksql实现,只是还用hive的metastore存元数据?另外对于新项目,是不是都不需要用hive了,如果不需要hive,元数据通常存放到哪里?

zhangjun

赞同来自:

日志数据读入HDFS,建议的做法是Flume+kafka+Flume吗,貌似gobblin还不是很稳定?数据库数据读入HDFS,建议的做法是什么,sparksql通过jdbc读取存入hdfs吗?

zhangjun

赞同来自:

数据库中的数据例如电商网站的用户信息,当天新增的数据可以通过日期属性判断增量读入HDFS,但是当天更新的数据是采用增量方式还是更新方式读入HDFS? 如果是增量方式读入HDFS,必然会出现重复的用户数据,需要去重,效率很低,如果是更新方式读入HDFS,好像没这么做的。

fanniao - 青山不改,绿水长流

赞同来自:

董老师,我用cdh5.5.1搭的环境,添加spark on yarn 组件后。直接执行: spark-shell ,启动日志里有这个警告,想问下,是少配置什么东西了吗(详细日志见附件)? 谢谢   16:14:33 WARN metrics.MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.  

星辰之心

赞同来自:

现在使用kettle的公司多吗? 一般kettle都用在那些ETL环节下,是整个ETL过程中都用还是,仅仅使用其中一部分? 看到kettle有很多大数据处理的组件,这些组件是否稳定? 如果整个ETL过程使用Kettle进行调度是否合适?  

LinJK

赞同来自:

dataset api中, select这个函数不会用,老师可以举例下吗?   看了api也不会用~ 唉!

Laputa

赞同来自:

批处理层的日志收集可以用kafka吗? 用flume或者kafka两者之间技术上有什么区别吗

微笑一辉

赞同来自:

Cassandra, HBase应用场景的区别是什么,分别擅长什么呢,比如两者读写速度对比,范围查询,单条查询的区别,修改的便捷程度等..

alexanda2000

赞同来自:

请问老师,在大数据的生产环境下,一般都使用什么作业调度工具,特别是作业数量较多,作业之间存在较为复杂的依赖关系的时候?

浮生

赞同来自:

老师,我最近用spark streaming去读取kafka中数据的时候遇到了一个问题。streaming是按照时间来生成batch的,但是如果我程序正常读取数据到昨晚10点,然后程序挂了,当早上10点的时候,我发现程序挂了,启动起来,这个时候streaming就会直接把从昨晚十点到现在新入进kakfa的数据全都加载进来,导致oom。这种怎么解决呢?

crazyant - 90后IT女

赞同来自:

MLlib适合用来做深度学习吗?

浮生

赞同来自:

老师,最近在测试Alluxio这个组件,是为了减少load数据到内存的时间消耗,但是现在发现,即便是把数据保存在这个内存文件系统中,在使用spark去使用数据的时候,还是会存在load数据的过程,并不是跟我想的似的,直接就用了这些数据。这是为什么呢?  还是说alluxio的作用只是把原来的从磁盘中加载到内存中过程,改到了从内存到内存,以此达到提速的目的?

浮生

赞同来自:

老师,还有个spark streaming的问题,spark streaming是对小的数据batch的数据,但是现在我的streaming的batch处理的时候,每一条数据的处理都需要有一个http请求外部的资源(一个gpu处理结果,无法集成到spark中),每条约300毫秒,这个streaming运行的时候总是会全都积压在队列里面。这种的处理模式是不是不适合用streaming来处理。因为现在我用storm来一条条处理,是完全可行的。但是换到streaming的时候就积压了。我的理解是比如5s一个batch,streaming是5s后处理这5s的数据,是同时处理的,这个处理不完,其他的batch就积压,所以最后就积压了。而storm是来一条处理一条,就不会积压。  但是storm能处理,streaming应该也能处理的。有什么解决方案呢?

feihu

赞同来自:

yarn-client/cluster 模式如何实现开发机直接提交到远程的hadoop和yarn上?好像课上没演示,麻烦董老师简单讲一下并最好给点配置指南。(standlone和spark-cluster的方式我会)

heming621

赞同来自:

Alluxio是固定时间从Spark内存中复制一份数据出来保存的吗?

heming621

赞同来自:

Alluxio使用的内存是自己独立开辟的,还是占用Spark运行的内存?

feihu

赞同来自:

请问配置中executor core设置为k,那每个executor中就是k线程的并发吗?  

孩子爸

赞同来自:

zeppline 如何设置任务提交到yarn上,如何给nodebook设置用户权限.谢谢

要回复问题请先登录注册