大数据面试题求解:上千万或上亿数据(有重复),统计其中出现次数最多的前N个数据。

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 1642 次浏览 • 2015-09-09 13:59 • 来自相关话题

大数据面试题求解:怎么在海量数据中找出重复次数最多的一个?

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 961 次浏览 • 2015-09-09 13:57 • 来自相关话题

大数据面试题求解: 海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10!

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 1953 次浏览 • 2015-09-09 13:55 • 来自相关话题

大数据面试题求解:在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数。

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 3456 次浏览 • 2015-09-09 13:51 • 来自相关话题

大数据面试题求解:海量日志数据,提取出某日访问百度次数最多的那个IP

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 1528 次浏览 • 2015-09-09 13:49 • 来自相关话题

大数据面试题求解:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 2211 次浏览 • 2015-09-09 13:30 • 来自相关话题

大数据处理工程师面试的时候通常会问些什么问题?

面试经验 木舟 回复了问题 • 2 人关注 • 1 个回复 • 3024 次浏览 • 2015-09-09 11:38 • 来自相关话题

mvn将CDH源码生成eclipse项目时报错

Hadoop fish 回复了问题 • 2 人关注 • 1 个回复 • 1054 次浏览 • 2015-09-09 11:01 • 来自相关话题

董西成的专栏文章:深入理解Hadoop YARN中的Container概念

Yarn Dong 发表了文章 • 0 个评论 • 633 次浏览 • 2015-09-08 19:44 • 来自相关话题

在学习Hadoop  YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Co...
查看更多

董西成的专栏文章:Hadoop YARN中内存和CPU两种资源的调度和隔离

Yarn Dong 发表了文章 • 0 个评论 • 509 次浏览 • 2015-09-08 19:38 • 来自相关话题

1. 编写目的 本文描述了hadoop中的计算能力调度器(Capacity Scheduler)的实现算法,计算能力调度器是由Yahoo贡献的,主要是解决HADOOP-3421中提出的,在调度器上完成HOD(Hadoop On Demand)功能,克服已有...
查看更多

董西城的专栏文章:Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数

Yarn Dong 发表了文章 • 0 个评论 • 457 次浏览 • 2015-09-08 19:34 • 来自相关话题

Capacity Scheduler是YARN中默认的资源调度器。 想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。 在Capacity Scheduler的配置文件中,队...
查看更多

董西成的专栏文章:Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

Hadoop Dong 发表了文章 • 0 个评论 • 449 次浏览 • 2015-09-08 19:31 • 来自相关话题

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSch...
查看更多

董西成的专栏文章:Hadoop YARN配置参数剖析(3)—MapReduce相关参数

Hadoop Dong 发表了文章 • 0 个评论 • 591 次浏览 • 2015-09-08 19:28 • 来自相关话题

MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户...
查看更多

董西成的专栏文章:Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数

Yarn Dong 发表了文章 • 0 个评论 • 400 次浏览 • 2015-09-08 19:23 • 来自相关话题

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。 1.    权限相关配置参数 这里的权限由三部分组成,分别是:(1)管理员和普通用户如何区分 (2)服务级别的权限,...
查看更多

董西成的专栏文章:Hadoop YARN配置参数剖析(1)—RM与NM相关参数

Hadoop Dong 发表了文章 • 0 个评论 • 485 次浏览 • 2015-09-08 19:20 • 来自相关话题

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。 1.    ResourceManager相关配置参数 (1) yarn.resourcemanager.addre...
查看更多

朴素贝叶斯算法如何在Hadoop上实现呢?请指教一下。

算法 Dong 回复了问题 • 2 人关注 • 1 个回复 • 1886 次浏览 • 2015-09-08 19:06 • 来自相关话题

董西城的专栏文章:浅谈Thrift内部实现原理

Dong 发表了文章 • 0 个评论 • 401 次浏览 • 2015-09-08 18:41 • 来自相关话题

   Thrift由两部分组成:编译器(在compiler目录下,采用C++编写)和服务器(在lib目录下),其中编译器的作用是将用户定义的thrift文件编译生成对应语言的代码,而服务器是事先已经实现好的、可供用户直接使用的RPC Server(当然,用户也...
查看更多