大数据应用实践

大数据应用实践

hadoop里面的8088显示全是0

回复

下午三点 回复了问题 1 人关注 1 个回复 1284 次浏览 2019-08-08 18:28 来自相关话题

虚拟机免密登录问题

123321STAR 回复了问题 2 人关注 2 个回复 1484 次浏览 2019-04-04 15:58 来自相关话题

请问老师,如何理解java中的这种语句?

阮钦 回复了问题 2 人关注 1 个回复 1093 次浏览 2019-04-01 18:07 来自相关话题

大数据与人工智能L1课程公告

回复

fish 发起了问题 1 人关注 0 个回复 1356 次浏览 2019-01-29 17:39 来自相关话题

一个hive on tez 的报错问题

回复

coderlb 发起了问题 1 人关注 0 个回复 1883 次浏览 2019-01-09 21:12 来自相关话题

老师好:请问一下presto中如果再一个节点上部署要启动多个worker实例,presto如何配置啊

回复

新际航 发起了问题 1 人关注 0 个回复 1659 次浏览 2018-12-27 19:43 来自相关话题

matplotlib

回复

iioe 发起了问题 1 人关注 0 个回复 1048 次浏览 2018-11-11 09:33 来自相关话题

为什么我用的是最新的pycharm以及3.7。0版本的python, 但是出现以下错误

回复

浪城 发起了问题 1 人关注 0 个回复 3495 次浏览 2018-11-05 18:41 来自相关话题

hadoop2.9运行自带wordcount时出错?

坏脾气先森 回复了问题 3 人关注 2 个回复 1826 次浏览 2018-08-22 10:59 来自相关话题

mysql安装报错

fish 回复了问题 2 人关注 1 个回复 1163 次浏览 2018-08-17 17:37 来自相关话题

问个问题,hive里怎么自定义行分隔符,默认的是\n,但是文件里其他列有这个字符,会引起误分隔。

奔跑的鱼 回复了问题 2 人关注 1 个回复 2065 次浏览 2018-07-20 18:23 来自相关话题

咨询个问题:spark-submit 控制台信息同时写到日志文件吗?

奔跑的鱼 回复了问题 2 人关注 1 个回复 1294 次浏览 2018-07-20 18:18 来自相关话题

问一个小白问题,spark安装一般是基于hadoop之上的吗?请问hadoop单机模式下可以配置spark吗

奔跑的鱼 回复了问题 2 人关注 1 个回复 1383 次浏览 2018-07-20 18:06 来自相关话题

hive的load数据分布及如何提交分布事务相关问题

回复

奔跑的鱼 发起了问题 1 人关注 0 个回复 1521 次浏览 2018-07-20 17:50 来自相关话题

安装k8s 的集群启动报错

回复

weixinu2o 发起了问题 1 人关注 0 个回复 3988 次浏览 2018-05-19 12:04 来自相关话题

hadoop里面的8088显示全是0

回复

下午三点 回复了问题 1 人关注 1 个回复 1284 次浏览 2019-08-08 18:28 来自相关话题

虚拟机免密登录问题

回复

123321STAR 回复了问题 2 人关注 2 个回复 1484 次浏览 2019-04-04 15:58 来自相关话题

请问老师,如何理解java中的这种语句?

回复

阮钦 回复了问题 2 人关注 1 个回复 1093 次浏览 2019-04-01 18:07 来自相关话题

大数据与人工智能L1课程公告

回复

fish 发起了问题 1 人关注 0 个回复 1356 次浏览 2019-01-29 17:39 来自相关话题

一个hive on tez 的报错问题

回复

coderlb 发起了问题 1 人关注 0 个回复 1883 次浏览 2019-01-09 21:12 来自相关话题

老师好:请问一下presto中如果再一个节点上部署要启动多个worker实例,presto如何配置啊

回复

新际航 发起了问题 1 人关注 0 个回复 1659 次浏览 2018-12-27 19:43 来自相关话题

matplotlib

回复

iioe 发起了问题 1 人关注 0 个回复 1048 次浏览 2018-11-11 09:33 来自相关话题

为什么我用的是最新的pycharm以及3.7。0版本的python, 但是出现以下错误

回复

浪城 发起了问题 1 人关注 0 个回复 3495 次浏览 2018-11-05 18:41 来自相关话题

hadoop2.9运行自带wordcount时出错?

回复

坏脾气先森 回复了问题 3 人关注 2 个回复 1826 次浏览 2018-08-22 10:59 来自相关话题

mysql安装报错

回复

fish 回复了问题 2 人关注 1 个回复 1163 次浏览 2018-08-17 17:37 来自相关话题

咨询个问题:spark-submit 控制台信息同时写到日志文件吗?

回复

奔跑的鱼 回复了问题 2 人关注 1 个回复 1294 次浏览 2018-07-20 18:18 来自相关话题

问一个小白问题,spark安装一般是基于hadoop之上的吗?请问hadoop单机模式下可以配置spark吗

回复

奔跑的鱼 回复了问题 2 人关注 1 个回复 1383 次浏览 2018-07-20 18:06 来自相关话题

hive的load数据分布及如何提交分布事务相关问题

回复

奔跑的鱼 发起了问题 1 人关注 0 个回复 1521 次浏览 2018-07-20 17:50 来自相关话题

安装k8s 的集群启动报错

回复

weixinu2o 发起了问题 1 人关注 0 个回复 3988 次浏览 2018-05-19 12:04 来自相关话题

Distribute Cached 使用

cenyuhai 发表了文章 1 个评论 1489 次浏览 2015-09-11 14:41 来自相关话题

 在Kettle中说到Pentaho的MapReduce要用到它,就查了一下关于它的资料,以下是从官方查到的内容,记录一下。   DistributedCache: 一些比较小的需要共享的文件或者jar包,我们先存到hdfs上,然后在MapRedu ...查看全部
 在Kettle中说到Pentaho的MapReduce要用到它,就查了一下关于它的资料,以下是从官方查到的内容,记录一下。
  DistributedCache: 一些比较小的需要共享的文件或者jar包,我们先存到hdfs上,然后在MapReduce线程当中进行共享,直接用了。
    // Setting up the cache for the application

1. Copy the requisite files to the FileSystem:

$ bin/hadoop fs -copyFromLocal lookup.dat /myapp/lookup.dat
$ bin/hadoop fs -copyFromLocal map.zip /myapp/map.zip
$ bin/hadoop fs -copyFromLocal mylib.jar /myapp/mylib.jar
$ bin/hadoop fs -copyFromLocal mytar.tar /myapp/mytar.tar
$ bin/hadoop fs -copyFromLocal mytgz.tgz /myapp/mytgz.tgz
$ bin/hadoop fs -copyFromLocal mytargz.tar.gz /myapp/mytargz.tar.gz


2. Setup the application's JobConf:

JobConf job = new JobConf();
   // #lookup.dat 表示给前面的这个文件取一个别名,类似sql里面的as别名一样
DistributedCache.addCacheFile(new URI("/myapp/lookup.dat#lookup.dat"),
job);
DistributedCache.addCacheArchive(new URI("/myapp/map.zip", job);
DistributedCache.addFileToClassPath(new Path("/myapp/mylib.jar"), job);
DistributedCache.addCacheArchive(new URI("/myapp/mytar.tar", job);
DistributedCache.addCacheArchive(new URI("/myapp/mytgz.tgz", job);
DistributedCache.addCacheArchive(new URI("/myapp/mytargz.tar.gz", job);


3. Use the cached files in the Mapper
or Reducer:

public static class MapClass extends MapReduceBase
implements Mapper {

private Path[] localArchives;
private Path[] localFiles;

public void configure(JobConf job) {
// Get the cached archives/files
localArchives = DistributedCache.getLocalCacheArchives(job);
localFiles = DistributedCache.getLocalCacheFiles(job);
}

public void map(K key, V value,
OutputCollector output, Reporter reporter)
throws IOException {
// Use data from the cached archives/files here
// ...
// ...
output.collect(k, v);
}
}

  查看代码了才知道其实它根本不是什么缓存,它只不过是在配置文件中的指定属性记录下相应的值,然后在mapreduce的时候,调用配置文件里面的属性值,然后取得需要的文件盒jar包。