第一课《Hadoop生态系统概述以及版本演化》

第一课《Hadoop生态系统概述以及版本演化》 的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。
问题列表:   1)Hive 的多表连接查询有性能问题吗? 2)Hive 2.0 有啥新的特性? 3)Presto 支持雪花或 星型 数据模型吗?Presto 支持多表连接吗? 性能如何? 4)Apache Hadoop 如何获取补丁?打补丁的过程?例如,一个集群有多个节点。每一节点停机升级?如何确定该节点没有JOB运行。    谢谢!!   Lian

jiashr

赞同来自: yell Dong qingpu scxtrjs

在实际开发过程中,一般怎样进行数据的去重?谢谢

AllenFeng

赞同来自: yell ES1481528848 jojesse

小白提问:做大数据用什么电脑系统好呢?Windows/Mac/其他

ES1481528848

赞同来自: AllenFeng V5555555 tanhy21

现在Python这么火,没有Java基础,可以直接从Python切入开始搞大数据吗?

mzzcy

赞同来自: qingpu yuetz

课件里为什么说Hive是数据仓库? hive不是计算引擎吗? 它和HBase有什么关系和区别呢
找一个大数据方向的工作,需要到什么水平。目前准备转大数据方向,需要具备哪些技能,到什么程度。(已经查过招聘网站,但不清晰 )各位前辈可以给一些建议吗?

taoshi006

赞同来自: 踏雪

请问HBASE 能支持像关系库那样从一张表中查询出100条记录么?而事先不知道rowkey

dl0218

赞同来自: V5555555

能否介绍一下HDFS,HiveFlume的安全框架,例如:授权,认证。。。   FYI: http://dongxicheng.org/mapreduce/hadoop-security/

sjf0115

赞同来自: 徐凯

Yarn 与 Messo 区别 应该选择哪个?

jhg22

赞同来自: xiazhengwei

flume与spark相结合做离线、实时分析的疑惑?   版本:flume 1.7.0 spark1.6.1 在设计 flume与spark相结合做离线、实时分析时,采用flume1.7.0的TAILDIR source实时监控目录文件的变化。离线:以一个小时吐一个hdfs文件出来,实时:sparkStreaming 本来就支持 可以直接消费flume 没有打算用kafka,flume直接把数据拉到hdfs上,若要用kafka,还需要拉一份数据到kafka上,这样元数据相当于要维护两份,感觉到时元数据信息有可能出现不一致的情况,就摒弃了kafka(反正sparkStreaming可以直接消费hdfs上的数据或者接收Flume以avro形式发送的数据).这样设计好吗? 麻烦老师,能在flume与spark相结合做离线、实时分析时 能给点建议吗?谢谢!  flume的设计如下: a1.sinks = k1 k2 # define the source a1.sources.r1.type = TAILDIR a1.sources.r1.channels = c1 a1.sources.r1.positionFile = /app/gslb.json a1.sources.r1.filegroups = f1 a1.sources.r1.filegroups.f1 = /app/openresty/nginx/logs/tracker.otvcloud.com_access.log a1.sources.r1.headers.f1.headerKey1 = gslb a1.sources.r1.fileHeader = true #define the file channel a1.channels.c1.type = file a1.channels.c1.checkpointDir = /app/flume/checkpoint/gslb/ a1.channels.c1.dataDirs = /app/flume/data/gslb/ a1.channels.c1.capacity = 200000000 a1.channels.c1.transactionCapacity = 6000 a1.channels.c1.checkpointInterval = 60000 # define the hdfs sink a1.sinks.k1.type = hdfs a1.sinks.k1.hdfs.path = hdfs://hdfscluster/apps/flume/gslb/%Y-%m-%d/%k/ a1.sinks.k1.hdfs.useLocalTimeStamp = true a1.sinks.k1.hdfs.fileType = DataStream a1.sinks.k1.hdfs.writeFormat = Text a1.sinks.k1.hdfs.encoding = UTF-8 a1.sinks.k1.hdfs.minBlockReplicas = 1 a1.sinks.k1.hdfs.filePrefix=a1_%Y%m%d_%H a1.sinks.k1.hdfs.inUsePrefix = . a1.sinks.k1.hdfs.inUseSuffix = .temp a1.sinks.k1.hdfs.fileSuffix = .log a1.sinks.k1.hdfs.rollInterval = 3600 a1.sinks.k1.hdfs.rollSize = 0 a1.sinks.k1.hdfs.rollCount = 0 a1.sinks.k1.hdfs.callTimeout = 60000 a1.sinks.k1.hdfs.idleTimeout = 600 # define the avro sink a1.sinks.k2.type = avro a1.sinks.k2.hostname = master a1.sinks.k2.port = 33333

徐凯

赞同来自: V5555555

hive 2.0 新增的内存计算可以替代presto吗? 

jojesse

赞同来自:

没有实际项目如何更深入的学习?

qingpu

赞同来自:

       如果有100T的交易日志数据,想提取出交易时间大约2秒的慢交易(可用“order_start"和"order_end”关键字过滤)。如何使用Spark快速读取日志数据并过滤出慢交易。 如使用sc.textFile("XXX")读取200T的数据然后用filter(_.contains("order_start"))过滤效率不高。另外数据进行分析时经常OOM。如何避免OOM

徐凯

赞同来自:

Ambari 源码编译一直不通过是为什么?

auferack08

赞同来自:

如果做离线分析,数据量很大,耗费时间很长,如何做合理的优化?

mzzcy

赞同来自:

 Zookeeper 位于6层技术框架哪层呢? 它和YARN的区别和关系是什么?  

V5555555

赞同来自:

presto可以用来作为报表系统的查询引擎吗?presto在部署过程中,coordinator和work节点的cpu和内存配置多少合适?一般多少的数据量要配置多少节点?

朱月军

赞同来自:

董老师,请问对于一个智能交通系统,该用怎样的一套技术架构呢?数据是存放在Oreacle中,数据量不是特别大,目前才0.5TB,希望有实时的,也有历史的数据分析查询。

auferack08

赞同来自:

hive存储的数据太大太多,有办法减小hive的压力吗

auferack08

赞同来自:

非结构化的数据如何合理的导入到hdfs上呢

huangzheng_wh

赞同来自:

应用服务器怎么将日志发到日志采集系统中?需要在应用服务器上部署Flume客户端吗?

xiaohe001

赞同来自:

Mapreduce 还有必要深入学习吗? 企业级的大数据开发人员必须要对java非常熟悉吗? 还是会使用就可以了?

kaiball9999 - Focus on bigdata

赞同来自:

1.flume 日志服务器端宕机或者进程挂了容易丢失数据(使用memory )使用filechannel io 比较重,大公司是什么解决方案? 2.flume 的监控比较粗,不管是ganglia还是metrics ,当日志服务器比较多,每个关注的业务比较多,会比较难以管理,有没什么方案可以监控的力度比较细化的 ,然后有没有一些管理方案来借鉴?  

xiaoweiwei

赞同来自:

董老师,logstash也是很流行的数据收集查询组件。请问如何与flume做比较和选型?

AndyHouston

赞同来自:

impala 和presto 性能哪个好些? 

迷路剑客

赞同来自:

请问老师 学习用 在阿里云上租一个服务器 什么配置够呢?

Robin514895968

赞同来自:

是否可以推荐一些hadoop各模块插件资料?方便提前预习看下

aaron_yuan

赞同来自:

Hive和MongoDB分别什么使用场景?

一敏阳光

赞同来自:

Hadoop对于存储小文件有什么好的解决方案吗?

环游世界5211

赞同来自:

presto与phoenix的使用场景一样吗?可以互相替换吗?

jhg22

赞同来自:

flume可以用来做实时分析吗?不用kafka

auferack08

赞同来自:

zeppelin做交互式查询有哪些优缺点啊

zxiaozzzz

赞同来自:

社区版能平滑过度到cdh版吗?如何切换?

V5555555

赞同来自:

生产环境下,presto是单台节点内存越大好,还是把节点扩展得越多好?

com.張

赞同来自:

小白提问:老师您好,请问hbase查询使用hbase原生dpi 与 用 phoenix 区别在哪里,除了可以用sql查询比较符合大众外,效率有没有提升?

fine_weather

赞同来自:

请问日志系统的日志flume如何采集??有在应用做埋点吗?

要回复问题请先登录注册