
大数据应用实践
虚拟机免密登录问题
123321STAR 回复了问题 2 人关注 2 个回复 1877 次浏览 2019-04-04 15:58
请问老师,如何理解java中的这种语句?
阮钦 回复了问题 2 人关注 1 个回复 1345 次浏览 2019-04-01 18:07
老师好:请问一下presto中如果再一个节点上部署要启动多个worker实例,presto如何配置啊
回复新际航 发起了问题 1 人关注 0 个回复 1914 次浏览 2018-12-27 19:43
请问,Flume大批量写数据到kafka时出现异常:[WARN -kafka.utils.Logging$class.warn(Logging.scala:88 )]Failed to send producer request with java.io.IOException:Broken pipe,大致是什么问题?
c_cc 回复了问题 1 人关注 1 个回复 1955 次浏览 2018-10-08 10:28
hadoop2.9运行自带wordcount时出错?
坏脾气先森 回复了问题 3 人关注 2 个回复 2135 次浏览 2018-08-22 10:59
问个问题,hive里怎么自定义行分隔符,默认的是\n,但是文件里其他列有这个字符,会引起误分隔。
奔跑的鱼 回复了问题 2 人关注 1 个回复 2295 次浏览 2018-07-20 18:23
"请教2个问题: 1、znode是目录还是节点服务器 2、zookkeeper要求挂掉的节点不超过半数,说的只是follower角色,还是包含observer角色"
奔跑的鱼 回复了问题 2 人关注 1 个回复 1575 次浏览 2018-07-20 18:21
咨询个问题:spark-submit 控制台信息同时写到日志文件吗?
奔跑的鱼 回复了问题 2 人关注 1 个回复 1504 次浏览 2018-07-20 18:18
"大神,hadoop理解出现偏差了,大神有空的话给分析一下。。。 hadoop一个job在一台jdatanode上,而当任务真正在datanode上运行的时候,分多个map和reduce是吗?"
奔跑的鱼 回复了问题 2 人关注 1 个回复 1767 次浏览 2018-07-20 18:16
问一个小白问题,spark安装一般是基于hadoop之上的吗?请问hadoop单机模式下可以配置spark吗
奔跑的鱼 回复了问题 2 人关注 1 个回复 1564 次浏览 2018-07-20 18:06
问下,集群添加新的节点进来,我直接把之前的hadoop的东西考过来 ,改配置,是不是要删除hdfs的tmp和zookeep的tmp
奔跑的鱼 回复了问题 2 人关注 2 个回复 1276 次浏览 2018-07-20 18:02
E0127 21:28:00.772793 8491 start.go:234] Error updating cluster: Error updating localkube from uri: Error creating localkube asset from url: Error opening file asset: /home/user1/.minikube/cache/localkube/localkube-v1.9.0: open /home/user1/.minikube/c
回复兔撕鸡大爷 发起了问题 1 人关注 0 个回复 1851 次浏览 2018-03-15 15:52
老师好:请问一下presto中如果再一个节点上部署要启动多个worker实例,presto如何配置啊
回复新际航 发起了问题 1 人关注 0 个回复 1914 次浏览 2018-12-27 19:43
请问,Flume大批量写数据到kafka时出现异常:[WARN -kafka.utils.Logging$class.warn(Logging.scala:88 )]Failed to send producer request with java.io.IOException:Broken pipe,大致是什么问题?
回复c_cc 回复了问题 1 人关注 1 个回复 1955 次浏览 2018-10-08 10:28
问个问题,hive里怎么自定义行分隔符,默认的是\n,但是文件里其他列有这个字符,会引起误分隔。
回复奔跑的鱼 回复了问题 2 人关注 1 个回复 2295 次浏览 2018-07-20 18:23
"请教2个问题: 1、znode是目录还是节点服务器 2、zookkeeper要求挂掉的节点不超过半数,说的只是follower角色,还是包含observer角色"
回复奔跑的鱼 回复了问题 2 人关注 1 个回复 1575 次浏览 2018-07-20 18:21
"大神,hadoop理解出现偏差了,大神有空的话给分析一下。。。 hadoop一个job在一台jdatanode上,而当任务真正在datanode上运行的时候,分多个map和reduce是吗?"
回复奔跑的鱼 回复了问题 2 人关注 1 个回复 1767 次浏览 2018-07-20 18:16
问一个小白问题,spark安装一般是基于hadoop之上的吗?请问hadoop单机模式下可以配置spark吗
回复奔跑的鱼 回复了问题 2 人关注 1 个回复 1564 次浏览 2018-07-20 18:06
问下,集群添加新的节点进来,我直接把之前的hadoop的东西考过来 ,改配置,是不是要删除hdfs的tmp和zookeep的tmp
回复奔跑的鱼 回复了问题 2 人关注 2 个回复 1276 次浏览 2018-07-20 18:02
E0127 21:28:00.772793 8491 start.go:234] Error updating cluster: Error updating localkube from uri: Error creating localkube asset from url: Error opening file asset: /home/user1/.minikube/cache/localkube/localkube-v1.9.0: open /home/user1/.minikube/c
回复兔撕鸡大爷 发起了问题 1 人关注 0 个回复 1851 次浏览 2018-03-15 15:52
Distribute Cached 使用
cenyuhai 发表了文章 1 个评论 1680 次浏览 2015-09-11 14:41
DistributedCache: 一些比较小的需要共享的文件或者jar包,我们先存到hdfs上,然后在MapReduce线程当中进行共享,直接用了。
// Setting up the cache for the application
1. Copy the requisite files to the FileSystem:
$ bin/hadoop fs -copyFromLocal lookup.dat /myapp/lookup.dat
$ bin/hadoop fs -copyFromLocal map.zip /myapp/map.zip
$ bin/hadoop fs -copyFromLocal mylib.jar /myapp/mylib.jar
$ bin/hadoop fs -copyFromLocal mytar.tar /myapp/mytar.tar
$ bin/hadoop fs -copyFromLocal mytgz.tgz /myapp/mytgz.tgz
$ bin/hadoop fs -copyFromLocal mytargz.tar.gz /myapp/mytargz.tar.gz
2. Setup the application's JobConf:
JobConf job = new JobConf();
// #lookup.dat 表示给前面的这个文件取一个别名,类似sql里面的as别名一样
DistributedCache.addCacheFile(new URI("/myapp/lookup.dat#lookup.dat"),
job);
DistributedCache.addCacheArchive(new URI("/myapp/map.zip", job);
DistributedCache.addFileToClassPath(new Path("/myapp/mylib.jar"), job);
DistributedCache.addCacheArchive(new URI("/myapp/mytar.tar", job);
DistributedCache.addCacheArchive(new URI("/myapp/mytgz.tgz", job);
DistributedCache.addCacheArchive(new URI("/myapp/mytargz.tar.gz", job);
3. Use the cached files in the Mapper
or Reducer:
public static class MapClass extends MapReduceBase
implements Mapper{
private Path[] localArchives;
private Path[] localFiles;
public void configure(JobConf job) {
// Get the cached archives/files
localArchives = DistributedCache.getLocalCacheArchives(job);
localFiles = DistributedCache.getLocalCacheFiles(job);
}
public void map(K key, V value,
OutputCollectoroutput, Reporter reporter)
throws IOException {
// Use data from the cached archives/files here
// ...
// ...
output.collect(k, v);
}
}
查看代码了才知道其实它根本不是什么缓存,它只不过是在配置文件中的指定属性记录下相应的值,然后在mapreduce的时候,调用配置文件里面的属性值,然后取得需要的文件盒jar包。