第二课《2 分布式数据收集:Flume 原理与应用》

第二课《2 分布式数据收集:Flume 原理与应用》 的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。

第二课满意度调查问卷
https://wj.qq.com/s/968429/007e
或扫描二维码
[attach]4910[/attach]

 
已邀请:

盛明

赞同来自: 徐凯 51iwowo 踏雪

请问,es和hadoop做日志收集。有什么区别呢。各自优缺点?

迷路剑客

赞同来自: 徐凯 龙星 joan2016

请问logstash怎么样?

hatakawas

赞同来自: 仅此而已 gszh386 51iwowo

我现在Flume系统,用的是Spooling Directory Source,  File Channel,  Hdfs sink.  遇到一个问题是,spool中的文件很快被消费完全了,这个时候,数据应该是在Channel中缓存着的。
问题 1 是数据从Channel通过Sink进入hdfs的速率很缓慢,这个需要怎么去优化呢,能否提供一下思路?
在hdfs 中使用 hdfs dfs  -cat /path/to/files/* |wc -l 的时候,能够看到数量在持续增多。
问题 2 是虽然通过以上命令查看到hdfs中已经有 5w 条数据了,但是用Spark SQL查询出来的数据却会小于 5w,难道并不是 5w 条数据此时都已进入hdfs系统么?
 
以上。

jhg22

赞同来自: 踏雪

flume 部署時,怎麽做高可用?(flume沒有用zookeeper管理起來)
大数据系统中,如何处理星型模型中的缓慢变化维度。有几种方案?
如果集群中有10个节点,那么集群中节点该如何分配?例如集群在HA的模式下,数据节点、日志节点数量该有几个?节点个数的比例该是多少?
flume收集日志到hdfs,如何判断某小时的日志已经收集完成。

clhugh1027 - 90后IT男

董老师,能单独讲解下关于Hadoop源码环境搭建、导入源码操作以及源码的阅读技巧吗?
sqoop做传输,有什么踩过的坑吗?

fly_me - 我家电脑坏了,美女,你帮我修修

flume可以增量读取文件到oracle里面吗?对于增量读取文件到oracle里面有什么比较好的办法?
HDFS只支持两个namenode吗?一个active,一个standby?
如果只有两个,那么zookeeper只能从这两个里做HA了?
可以这么理解么flume=logstash+kafka?
可以简单讲下那两个增量的导入数据吗
sink有hive sink吗,如果有,怎么向带多个分区的hive表中存储数据?
flume向hdfs写数据,小文件太多怎么办?
2 分布式数据收集:Flume 原理与应用 讲义有下载链接吗,需要消化下
多节点部署的时候,比如说几百个节点,如何保证不容易出错,也不太可能人工一个个去配置,有没有啥工具可以使用
1.flume在采集数据时,channel一般是使用flle还是memory方式?实际项目中选用哪个呢?
2.如何使用 flume实现分布式数据同步,避免单点问题导致的数据同步失败?
3.flume对windows等平台支持不好的问题如何解决的?
1、ignite怎么样?
2、一个source 中的event 发到两个channel中 是不同的event还是相同的event?

kaiball9999 - Focus on bigdata

flume 当节点比较多,日志服务器每一组一个业务,怎么管理,有企业级的方案吗?
flume 貌似不支持LB +FailOver同时使用吧
当日志量大,为了保证不丢失,应该使用FileChannel,但是这样io很重,有这方面的经验吗?
 
flume到hdfs稳定吗?还是需要先到kafka再进入hdfs?各有啥优势?
sqoop能否支持CLOB类型
1 sqoop与sqoop2有什么区别?
2 sqoop从hive导入到oracle时,是不是也是全量的,两次往同一张表里写数据,第一次写的会不会覆盖?
3 cdc 能不能实现从hive到oracle的增量数据导入
4 在实际应用中flume使用两级agent是基于什么场景
app上的动作日志要怎么完成收集呢(比如要收集陀螺仪的数据
这么多的agent ,如果挂了一部分agent 如何监控到,以及如何管理 flume ?
hdfs和hive里的日志小文件(夜晚的时候单位时间内生成的文件比较小)要如何整理?
董老师有句话说的好,多看看文档,有理
hadoop安装可以再虚拟机里的linux系统上安装吗?如果在服务器上安装是不是可以达到跑数据比较快?这个有必要吗?
1、三个节点做分布式存储,每台机器上的用户名必须要求一样吗?,namenode用户名叫client,其余的2个datanode节点,一个叫client1,一个叫client2,这样可以吗?
2、datanode存储数据,那namenode存储数据吗?
3、hdfs对与小文件(独立文件,不可合并)存储,有什么好的解决方案吗?
4、namenode的主从可以都在主节点吗?
hive存储在hdfs的小文件如何合并啊?
能否在client、source、sink端进行自定义的编码,实现业务逻辑?
我们公司因为flume要部署在业务产生日志的机器,因为加减机器等,运维困难,请问怎么解决呢?
sqoop做增量抽取跟阿里的比,哪个更好?
ELK 与 flume + hadoop 在做日志分析上有什么不同?
Canal能读取mysql slave的binlog 么 ?
flume采集数据做离线和实时分析:
是把数据一条拉到 -->hdfs (hdfssink),
一条拉到kafka (kafkasink) 吗?不用kafka可以吗?
sparkStreaming直接消费flume中的数据,这样设计有问题吗?
请对比下logstash和flume,并说下各自使用场景 谢谢
我现在参与一个项目中,有一个需求日志筛选,做初级数据过滤,用Flume定制开发可以用来清洗这些采集到的安全设备日志吗?
老师,oracle做增量导入hdfs有什么好方案,mysql可以增量同步hdfs的吗
a1.source=sr1;然后就有a1.source.sr1. ... = ...这种配置
能讲下为什么能这么配吗 上一步设置的source的值怎么就在下一步变成了source的一个属性了
flume与服务直接部署在同一台机器,可能会导致cpu load过高,应该如何调优
flume是否只支持向hdfs收集数据,支持其他的文件系统吗
请问在做 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 5 1000 实验时报“ Job job_1481826187953_0002 running in uber mode : false”时什么问题?
董老师好,如果用flume做日志收集(统计每一条sql的执行时间),此时需要对日志做处理,按照规则提取出时间和对应的sql
1.上述的处理在哪一个阶段完成
2.对于后续的分析,处理后的日志直接入hive这样的存储,还是入mysql类似的关系型数据库?
谢谢                                     
hadoop + zookeeper 实现 高可用 集群搭建,启动后  两个namenode 都是 standby,请问这个问题是hadoop 配置的问题吗,增加外部zookeeper与不加 配置都有哪些区别 
董老师好,请问sqoop只能真对表来操作,不能针对一个库来操作吗?

mayibo_123 - 90houIT

 请问一下课程中python的版本是多少 ?我的是2.6.6,运行python脚本时报错,提示没有module faker。
flume 通过 hdfs sink 远程连接 三个节点的 hdfs系统  报错如下,提示权限拒绝,像这种远程的还需要单独配置权限吗?能给出该问题的分析方法吗?
org.apache.hadoop.security.AccessControlException: Permission denied: user=chinahadoop0, access=WRITE, inode="/flume/record/2016-12-19/1410/transaction_log.1482128149140.tmp":sm01:supergroup:drwxr-xr-x
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:319)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1728)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1712)
 
 
 
老师,文档中搭建Hadoop集群为什么没用到zookeeper集群。。。。

要回复问题请先登录注册