spark RDD cache unpersist的问题

我想知道spark编程时,这个api的使用场景,何时cache,persist, unpersist?
在spark_shell里代码时,并没有调用这些api,spark处理的数据此时不在内存里吗?

Eric_Jiang - 我是小象的搬运工!!!

赞同来自:

你要再看下spark的缓存策略 cache 其实就是调用的persist(),区别是缓存策略为MEMERY_ONLY persist()可是手工指定缓存策略 按着你的需要来。 俩者都可以用unpersist取消、 如果你希望加载到内存中 cache就够了。 如果你希望文件能够保存本地,那么用persist制定相应缓存策略  

yanglei

赞同来自:

建议阅读下spark的源码,从rdd.iterator这个函数入手(RDD.scala),一步一步追下去。 这样就会对spark整个的缓存策略有较全面和深入的理解。

要回复问题请先登录注册