Hadoop与Spark如何选择

hadoop与spark有什么区别?它们各自的使用场景是什么?对于初学者,该如何选择?

fish - Hadooper

赞同来自:

Hadoop先于Spark产生,是分布式存储及计算的框架。用于支持分布式存储、离线批处理任务。批处理计算为磁盘密集型方案,适于处理海量离线批处理计算,稳定,但性能相对Spark差。 Spark是基于内存的分布式计算框架,除了支持Hadoop的mapreduce计算之外,还支持更丰富的算子。由于基于内存,计算性能由于Hadoop。本身无存储方案,若需要分布式存储,可使用Hadoop的HDFS。

要回复问题请先登录注册