第二课《2 分布式数据收集:Flume 原理与应用》

第二课《2 分布式数据收集:Flume 原理与应用》 的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。

第二课满意度调查问卷
https://wj.qq.com/s/968429/007e
或扫描二维码
2222.jpg


 

盛明

赞同来自: 徐凯 51iwowo 踏雪

请问,es和hadoop做日志收集。有什么区别呢。各自优缺点?

迷路剑客

赞同来自: 徐凯 龙星 joan2016

请问logstash怎么样?

hatakawas

赞同来自: 仅此而已 gszh386 51iwowo

我现在Flume系统,用的是Spooling Directory Source,  File Channel,  Hdfs sink.  遇到一个问题是,spool中的文件很快被消费完全了,这个时候,数据应该是在Channel中缓存着的。 问题 1 是数据从Channel通过Sink进入hdfs的速率很缓慢,这个需要怎么去优化呢,能否提供一下思路? 在hdfs 中使用 hdfs dfs  -cat /path/to/files/* |wc -l 的时候,能够看到数量在持续增多。 问题 2 是虽然通过以上命令查看到hdfs中已经有 5w 条数据了,但是用Spark SQL查询出来的数据却会小于 5w,难道并不是 5w 条数据此时都已进入hdfs系统么?   以上。

jhg22

赞同来自: 踏雪

flume 部署時,怎麽做高可用?(flume沒有用zookeeper管理起來)

星辰之心

赞同来自:

大数据系统中,如何处理星型模型中的缓慢变化维度。有几种方案?

Benjamin

赞同来自:

如果集群中有10个节点,那么集群中节点该如何分配?例如集群在HA的模式下,数据节点、日志节点数量该有几个?节点个数的比例该是多少?

kthhai

赞同来自:

flume收集日志到hdfs,如何判断某小时的日志已经收集完成。

clhugh1027 - 90后IT男

赞同来自:

董老师,能单独讲解下关于Hadoop源码环境搭建、导入源码操作以及源码的阅读技巧吗?

51iwowo

赞同来自:

sqoop做传输,有什么踩过的坑吗?

fly_me - 我家电脑坏了,美女,你帮我修修

赞同来自:

flume可以增量读取文件到oracle里面吗?对于增量读取文件到oracle里面有什么比较好的办法?

踏雪

赞同来自:

HDFS只支持两个namenode吗?一个active,一个standby? 如果只有两个,那么zookeeper只能从这两个里做HA了?

auferack08

赞同来自:

可以这么理解么flume=logstash+kafka?

我是金角大王

赞同来自:

可以简单讲下那两个增量的导入数据吗

auferack08

赞同来自:

sink有hive sink吗,如果有,怎么向带多个分区的hive表中存储数据?

auferack08

赞同来自:

flume向hdfs写数据,小文件太多怎么办?

阿士

赞同来自:

2 分布式数据收集:Flume 原理与应用 讲义有下载链接吗,需要消化下

Fly_Molgee

赞同来自:

多节点部署的时候,比如说几百个节点,如何保证不容易出错,也不太可能人工一个个去配置,有没有啥工具可以使用

qian_xin

赞同来自:

1.flume在采集数据时,channel一般是使用flle还是memory方式?实际项目中选用哪个呢? 2.如何使用 flume实现分布式数据同步,避免单点问题导致的数据同步失败? 3.flume对windows等平台支持不好的问题如何解决的?

低阶小码农

赞同来自:

1、ignite怎么样? 2、一个source 中的event 发到两个channel中 是不同的event还是相同的event?

kaiball9999 - Focus on bigdata

赞同来自:

flume 当节点比较多,日志服务器每一组一个业务,怎么管理,有企业级的方案吗? flume 貌似不支持LB +FailOver同时使用吧 当日志量大,为了保证不丢失,应该使用FileChannel,但是这样io很重,有这方面的经验吗?  

zxiaozzzz

赞同来自:

flume到hdfs稳定吗?还是需要先到kafka再进入hdfs?各有啥优势?

踏雪

赞同来自:

sqoop能否支持CLOB类型

环游世界5211

赞同来自:

1 sqoop与sqoop2有什么区别? 2 sqoop从hive导入到oracle时,是不是也是全量的,两次往同一张表里写数据,第一次写的会不会覆盖? 3 cdc 能不能实现从hive到oracle的增量数据导入 4 在实际应用中flume使用两级agent是基于什么场景

刘同学

赞同来自:

app上的动作日志要怎么完成收集呢(比如要收集陀螺仪的数据

徐凯

赞同来自:

这么多的agent ,如果挂了一部分agent 如何监控到,以及如何管理 flume ?

zxiaozzzz

赞同来自:

hdfs和hive里的日志小文件(夜晚的时候单位时间内生成的文件比较小)要如何整理?

lucifer001

赞同来自:

董老师有句话说的好,多看看文档,有理

B_Fighting

赞同来自:

hadoop安装可以再虚拟机里的linux系统上安装吗?如果在服务器上安装是不是可以达到跑数据比较快?这个有必要吗?

一敏阳光

赞同来自:

1、三个节点做分布式存储,每台机器上的用户名必须要求一样吗?,namenode用户名叫client,其余的2个datanode节点,一个叫client1,一个叫client2,这样可以吗? 2、datanode存储数据,那namenode存储数据吗? 3、hdfs对与小文件(独立文件,不可合并)存储,有什么好的解决方案吗? 4、namenode的主从可以都在主节点吗?

auferack08

赞同来自:

hive存储在hdfs的小文件如何合并啊?

V5555555

赞同来自:

能否在client、source、sink端进行自定义的编码,实现业务逻辑?

迷路剑客

赞同来自:

我们公司因为flume要部署在业务产生日志的机器,因为加减机器等,运维困难,请问怎么解决呢?

AllenZhang

赞同来自:

sqoop做增量抽取跟阿里的比,哪个更好?

徐凯

赞同来自:

ELK 与 flume + hadoop 在做日志分析上有什么不同?

georgesuperman

赞同来自:

Canal能读取mysql slave的binlog 么 ?

jhg22

赞同来自:

flume采集数据做离线和实时分析: 是把数据一条拉到 -->hdfs (hdfssink), 一条拉到kafka (kafkasink) 吗?不用kafka可以吗? sparkStreaming直接消费flume中的数据,这样设计有问题吗?

迷路剑客

赞同来自:

请对比下logstash和flume,并说下各自使用场景 谢谢

吴心宽

赞同来自:

我现在参与一个项目中,有一个需求日志筛选,做初级数据过滤,用Flume定制开发可以用来清洗这些采集到的安全设备日志吗?

ganymede

赞同来自:

老师,oracle做增量导入hdfs有什么好方案,mysql可以增量同步hdfs的吗

张凡

赞同来自:

a1.source=sr1;然后就有a1.source.sr1. ... = ...这种配置 能讲下为什么能这么配吗 上一步设置的source的值怎么就在下一步变成了source的一个属性了

kthhai

赞同来自:

flume与服务直接部署在同一台机器,可能会导致cpu load过高,应该如何调优

好小子

赞同来自:

flume是否只支持向hdfs收集数据,支持其他的文件系统吗

hussar

赞同来自:

请问在做 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 5 1000 实验时报“ Job job_1481826187953_0002 running in uber mode : false”时什么问题?

51iwowo

赞同来自:

董老师好,如果用flume做日志收集(统计每一条sql的执行时间),此时需要对日志做处理,按照规则提取出时间和对应的sql 1.上述的处理在哪一个阶段完成 2.对于后续的分析,处理后的日志直接入hive这样的存储,还是入mysql类似的关系型数据库? 谢谢                                     

liushutong

赞同来自:

hadoop + zookeeper 实现 高可用 集群搭建,启动后  两个namenode 都是 standby,请问这个问题是hadoop 配置的问题吗,增加外部zookeeper与不加 配置都有哪些区别 

wqk151

赞同来自:

董老师好,请问sqoop只能真对表来操作,不能针对一个库来操作吗?

mayibo_123 - 90houIT

赞同来自:

 请问一下课程中python的版本是多少 ?我的是2.6.6,运行python脚本时报错,提示没有module faker。

liushutong

赞同来自:

flume 通过 hdfs sink 远程连接 三个节点的 hdfs系统  报错如下,提示权限拒绝,像这种远程的还需要单独配置权限吗?能给出该问题的分析方法吗? org.apache.hadoop.security.AccessControlException: Permission denied: user=chinahadoop0, access=WRITE, inode="/flume/record/2016-12-19/1410/transaction_log.1482128149140.tmp":sm01:supergroup:drwxr-xr-x     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:319)     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292)     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)     at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1728)     at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1712)      

wqk151

赞同来自:

老师,文档中搭建Hadoop集群为什么没用到zookeeper集群。。。。

要回复问题请先登录注册