第九课《9 数据处理引擎 Presto》

第九课《9 数据处理引擎 Presto》 的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
第九课满意度调查问卷
https://wj.qq.com/s/1024431/6abb
或扫描二维码
8744444.jpg

 

51iwowo

赞同来自:

presto 连接hive,是仅仅取的明细数据,然后用自己的计算框架做计算吗? 如果是,对于mysql这样的数据库也是吗,不会将计算下推到MySQL?

taoshi006

赞同来自:

1.presto 是否支持分页查询(类似于mysql 的 limit()),写法是怎样的? 2.presto 和 impala 比较怎么样?

51iwowo

赞同来自:

coordinate会存在单点问题吧,有解决方案吗?

V5555555

赞同来自:

通过presto来进行固定报表数据查询使用场景中, 任务执行频率、表的数据量 、 presto节点 三者大概如何配比更高效? 有经验值数据吗?高频使用的报表场景是否适合?

jhg22

赞同来自:

hive中的表保存数据为orc格式,做查询时必须借助于presto吗? 若不是,hive中怎么查询 orc格式的表?老师能详细的说一下吗? (以前做过实验,查出来是 一个 “@”)

V5555555

赞同来自:

presto如何做数据分片的?HDFS数据怎么存储,presto怎么分片,查询性能更好?

jhg22

赞同来自:

flume 收集 日志到hdfs ,用hive来管理数据,用presto来查询 (PB级 数据)。 这里为什么不用hive来做查询。慢? 在实际工作中,经常将hive的数抽到mysql中(让数据落到mysq中),在mysql上数据查询。 用presto来做查询(数据没有落地,还是在hive中),是不是就少了抽数这个过程了,还可以做下钻的查询动作?是这样理解的吗?  

jhg22

赞同来自:

用presto来查询 (PB级 数据)快,这里也可以换成在hbase中做查询(数据保存在hbase中)吗?

覃健洲

赞同来自:

presto的完全内存计算与spark的内存计算有什么不同?我发解spark在作shuffle时是需要存HDFS的。  

wqk151

赞同来自:

mapreduce做ETL数据清洗,hive做数据管理,这个请老师在大致说下,不太理解,没串起来,,,, 谢谢

Fly_Molgee

赞同来自:

搭建这么一个整套的日志分析系统,生产环境最少需要多少台机器,怎么分配?

徐凯

赞同来自:

presto 作为给前端提供数据的计算引擎,那么如果数据量非常大的时候,例如统计两年的数据做聚合运算,查询时间在10min以上,那么前端一直在等待数据,现在如果要达到亚秒级查询,怎么办?增加presto集群的节点吗?

要回复问题请先登录注册