对历史大数据,进行实时交互式查询(秒级)?
如果我的HDFS有10T的数据(原数据),并准备把它们做成实时的交互式查询(秒级)?请问有什么比较好的方案?
1> spark sql 与 impala 哪个更合适?
2> 我的10T原数据,是否需要做结构初始化?是否需要存储到类似Hbase这样的数据库?(我用spark操作hbase还是花费了不少启动spark的时间)
3> 像这种针对比较大的历史数据做实时操作,是直接操作HDFS文件数据好,还是操作类似Hbase这样的key-velue好?
4> 因为是原数据,是否需要类似机器学习这样的训练,把数据处理一下?
5> 补充:我现在用spark on yarn的模式批处理这些数据(某区域部分)做查询,时间很慢,spark任务启动就耗费不少时间,无法达到10秒内出查询结果。
拜谢!
1> spark sql 与 impala 哪个更合适?
2> 我的10T原数据,是否需要做结构初始化?是否需要存储到类似Hbase这样的数据库?(我用spark操作hbase还是花费了不少启动spark的时间)
3> 像这种针对比较大的历史数据做实时操作,是直接操作HDFS文件数据好,还是操作类似Hbase这样的key-velue好?
4> 因为是原数据,是否需要类似机器学习这样的训练,把数据处理一下?
5> 补充:我现在用spark on yarn的模式批处理这些数据(某区域部分)做查询,时间很慢,spark任务启动就耗费不少时间,无法达到10秒内出查询结果。
拜谢!
5 个回复
李扬 - Apache Kylin committer & PMC member, Sr. Architect of eBay CCOE
赞同来自: fish 、依韵
fish - Hadooper
赞同来自: 依韵
fish - Hadooper
赞同来自: 依韵
依韵
赞同来自:
fish - Hadooper
赞同来自: