Cloudera企业版概览

作为业界最领先的企业级数据平台软件,Cloudera企业版包含了一个完全开源的CDH核心、专为Hadoop构建的系统管理工具(Cloudera Manager)、提供数据管理和治理功能的Cloudera Navigator以及为在云化环境中更好地释放大数据能力的Cloudera Director。借助于Cloudera企业版的整体解决方案,企业可以专注于自己的业务能力。概括来讲,Cloudera企业版提供了以下一些技术特性:
  • 高度集成(CDH) --  一个统一数据存储和计算平台,无缝集成了基于Hadoop的大量生态工具,不同业务可以集中在一个平台内完成,而不需要在处理系统间移动数据;
  • 高度安全 – 提供了从身份验证、授权访问控制、审计到数据安全的整体安全解决方案;
  • 高度可治理(Cloudera Navigator) – 企业级的访问审计,数据追踪,数据发现以及数据生命周期管理的数据管理工具;
  • 高度可管理(Cloudera Manager)– 平台提供了企业级应用需要的高可用性、高容错和自愈性,同时还包括自动化备份和系统灾备;
  • 高度开放 – 基于开源Hadoop构建的数据存储和处理平台,保证数据和处理逻辑对用户是完全开放的,同时给用户扩展应用提供了保证,从而保护用户的投资;
  • 高性能 – 高度可扩展的数据存储平台为ETL作业提供了高吞吐量的数据访问或写入,基于内存的分析引擎Impala为Hadoop上的BI分析提供强有力的性能保证,基于内存的Spark计算引擎为ETL、数据挖掘或流式计算提供了高性能支持,内建的Cloudera Search引擎提供了实时的数据检索能力,从而将大数据平台能力释放给更多的用户。

 
 
开放的标准和完善的生态
Cloudera企业版有最广泛的开发者支持和系统集成商支持,Cloudera企业版占全球Hadoop实际商业部署量的60%以上。大量生态工具(数据集成工具、商业智能分析,数据挖掘工具)的主动对接为用户的业务集成提供了多样化的选择。

 
统一的数据存储和管理支持
Cloudera企业版是基于开源Haoop构建的存储和分析平台,能提供多样化海量数据存储能力,并进行统一管理;基于HDFS的存储对结构化数据的字段数据几乎没有任何限制。Cloudera企业版能提供了一站式数据处理分析能力,在各种数据规模上都能提供高效的数据处理性能。
 
内建的多样化处理引擎和工具支持
Cloudera企业版在统一的数据存储平台和资源管理框架上,提供了多种数据处理引擎如ETL工具(Hive/Spark)、BI引擎(Impala)、数据挖掘算法库(Spark Mllib)、流处理框架(Spark Streaming)以及海量数据搜索(Cloudera Search),并集成了用户必须的UI操作和可视化工具(Apache Hue)。
 
企业级的备份和灾难恢复方案
Cloudera提供了基于完备的端到端灾备解决方案,配以一系列易用的管理能力为持续支撑用户业务提供了强有力的保证,包含灵活备份和灾备配置、可监控的备份灾备过程及优化的备份操作。
 
高度安全可管理的数据平台
基于Cloudera企业版的新一代企业数据中心提供了一些通用的策略来保证数据安全,其中包括:1)基于开放标准的安全和认证系统,重点是监控系统访问,数据和它的各种服务;2)管理和透明度,包括报告和监测的地点,时间,以及如何使用数据;3)统一安全访问控制策略, 包括定义个执行哪些用户和应用程序可以使用那些数据;4)数据保护,包括未授权的数据访问或者在途或存储上的数据安全。
 
 
CDH
CDH(Cloudera Distributed Hadoop)是包含Apache Hadoop的开源发型版本。除了提供Hadoop的核心组件以外,CDH是唯一一个提供全面的从数据采集、数据存储、数据处理、数据分析以及数据可视化的发行版。它包括了:数据接入和共享工具(Apache Flume,Apache Sqoop,Apache Kafka)、分布式数据存储(HDFS)、分布式数据库(HBase)、统一资源管理和调度平台(YARN)、分布式处理引擎(MapReduce)、数据仓库组件(Hive)、交互式SQL分析引擎(Impala)、分布式搜索引擎(Cloudera Search)、分布式内存计算引擎(Spark)、流计算平台(Spark Streaming)、安全管理(Apache Sentry)、Hadoop交互前端(Apache Hue)。
 
统一资源管理调度框架--YARN
为了实现一个 Hadoop 集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。YARN 分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。ResourceManager还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中,ApplicationMaster承担了以前的 TaskTracker 的一些角色,ResourceManager 承担了 JobTracker 的角色。
 
ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster负责协调来自 ResourceManager 的资源,并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配)。请注意,尽管目前的资源更加传统(CPU 核心、内存),但未来会带来基于手头任务的新资源类型(比如图形处理单元或专用处理设备)。从 YARN 角度讲,ApplicationMaster是用户代码,因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的,因此将它们当作无特权的代码对待。
     
NodeManager 管理一个 YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务,从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1 通过插槽管理 Map 和 Reduce 任务的执行,而 NodeManager 管理抽象容器,这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。

YARN运行时
在YARN上可以支持多种不同的处理引擎,如批处理作业引擎、交互式BI工具、数据挖掘等。YARN可以为这些引擎分配相应的处理资源,而不致作业间有频繁的资源竞争请求。
 
BI分析工具 – Impala
Cloudera Impala是直接运行在Apache Hadoop之上业界领先的大规模并行处理SQL查询引擎,汇聚了硅谷顶尖的数据库开发人员,它将分布式并行技术、内存计算和Hadoop进行原生结合,帮助用户能够直接查询存储于HDFS和HBase的数据而不用进行数据迁移或者转变。 Impala设计之初就定位为Hadoop生态系统的一部分,因此,Impala和MapReduce,Hive,Pig以及Hadoop的其他组件,都享有共同的灵活的文件和数据格式。
 
在Impala出现之前,如果关系型数据库的数据量已经达到数据库容量上限,用户为了维持系统性能不得不对其做相应的扩展。如果用户已经在使用能够分析任何种类数据的Hadoop,但是需要交互式响应,用户就不得不把数据转移到一个快速的关系型数据库。这种方法不仅需要用户承担复制,存储以及同步数据的成本,同时需要接受不够灵活的schema,接受转移数据中不可避免的数据丢失,接受只能在目标关系型数据库中做有限的分析。
 
Impala的出现使得用户增加了一个选择。Impala能够使得数据分析师或者数据科学家,使用现存的BI工具,直接操作存储于Hadoop的数据进行交互。不仅如此,Impala可以减轻现有分析数据库的压力从而避免了BI任务堆积。Impala具有以下特性:
  • 高效的数据存储和索引:列式数据存储(Parquet),提供了高效的数据压缩存储和索引
  • 高性能:基于内存的分析引擎使得Impala可以和目前领先的MPP数据库媲美,比开源的Apahcehive/Stinger 更是快10-100倍
  • 实时:Impala具有秒级,分钟级别的响应速度,能够让用户更快的从数据中获得有用的知识。
  • 节省成本:使用Impala,不需要对存储于Hadoop中的数据进行迁移或者转换,从而节省成本。
  • 更加完整的分析:可以完整的分析原始数据或者历史数据,而不用担心数据在转移过程中的损失。
  • 标准接口:Impala使用标准的SQL,查询数据,用户可以通过操作传统数据库一样的方式操作Impala。
  • 安全性高:提供基于LDAP/Kerbeross身份认证和基于角色授权。
  • 开源:Apache 许可。

 
 
海量数据搜索引擎– Cloudera Search
Cloudera Search为下一代数据管理架构(企业数据中心)提供全文,互动搜索和导航,并被有前瞻性思维和创新性的公司所采纳。企业数据中心可以让企业改变他们思考数据的方式,变成更加信息驱动的方式来做决定和行动。基于Apache Hadoop和Apache Solr的 100%开源技术,Cloudera Search提供了一个熟悉而强大的方式来在企业数据中心访问,探索,存储数据。
   
使用Cloudera Search,用户可以获得前所未有的可视性,并用在HDFS和Apache HBase中发现数据,Cloudera Search提供了丰富的搜索API和有直观界面的面导航功能,集成和完善了企业数据中心的其他工作负载。用户可以使用任何需要的计算框架在所有数据上提问和回答更大,更复杂的问题,包括搜索,在一个本地集成,多工作负载的架构中。Cloudera Search可以帮助组织增加数据的投资回报率,并在一个成熟的,值得信赖的,被管辖和低廉的成本的环境中用更快的时间来洞悉。
   
使用企业级数据中心(EDH)把数据放进业务中心的企业通过Cloudera Search会拥有广泛的能力和机会。从动态的领域和无模式索引选项,对先进的配置、聚类、排名、本体、字典和对数十亿文件实时地分析相关即时数据点的对环境和需要极其简单的用法,Cloudera Search为企业用户提供全面,灵活,强大的功能强大以发现在他们数据的最大价值。
   
业务用户可以一起浏览和分析结构化和非结构化数据一起,通过多个属性交互关联多个不同数据集,从而打破“数据孤岛”;用户还可以很容易地用模糊搜索扩大查询的范围和结果的相关性,简化手动匹配的过程。非技术用户可以有一个直接的方式来探索Hadoop中的数据;数据科学家可以发现模式并找到相关的数据集进行进一步的分析。加速时间洞察 有紧张SLA的关键业务工作人员可以深入到大量的对时间敏感的,多样的数据;用户可以在数据建模和探索的过程中很快地发掘“数据形状”简化运营和成本 企业团队能够在单一环境中存储、处理、分析和探讨数据,避免了单独系统、存储和数据运动;IT运营商通过集中管理得到简化的部署、配置和监控大规模、多用途集群,并且利用交叉负载可视性和控制可以减少生产的复杂性。为未来做准备 IT领导者依靠Cloudera Search的索引选项的广泛的范围,以容纳越来越多不同的用例;Hadoop的底层架构让运营商可以轻松地扩展计算和存储,以满足业务需求。
   
作为成熟和经过验证的开源技术的产品,其中包括Apache Solr和Apache Hadoop,Cloudera Search可以让企业开发团队把他们现有的工具、代码库、和这些技术的基础知识放到一起,来为所有数据共同实现企业级的大型数据存储,处理和检索。
 
分布式内存计算框架– Spark
 
Spark是一个开源的,并行数据处理框架,能够帮助用户进行简单的、快速的开发,能对数据进行批处理,流式处理,挖掘分析等等。Spark具有如下特点:
  • 快速:数据处理能力,比Mapreduce快10-100倍。
  • 易用:可以通过Java,Scala,Python,简单快速的编写并行的应用处理大数据量,Spark提供了超过80种高层的操作符来帮助用户组件并行程序。
  • 普遍性: Spark提供了众多高层的工具,例如Spark SQL,MLib,GraphX,Spark Streaming,为各种处理场景的统一提供了可能性。
  • 与Hadoop无缝集成: Spark能够直接运行于Hadoop 2.0的集群,并且能够直接读取现存的Hadoop数据,和CDH的其他组件无缝集成。Spark提供了基于MapReduce编程模型的另一种实现。相比于Hadoop,Spark拥有明显的性能优势。Spark使用in-memory的计算方式,通过这种方式来避免一个Mapreduce工作流中的多个任务对同一个数据集进行计算时的IO瓶颈。Spark利用Scala语言实现,Scala能够使得处理分布式数据集时,能够像处理本地化数据一样。 除了数据分析,Spark还能够支持数据挖掘,由于Spark是基于内存的计算,很方便处理迭代计算,而数据挖掘的问题通常都是对同一份数据进行迭代计算。除此之外,Spark能够运行于安装Hadoop 2.0  Yarn的集群。之所以Spark能够在保留Mapreduce容错性,数据本地化,可扩展性等特性的同时,能够保证性能的高效,并且避免繁忙的磁盘IO,主要原因是因为Spark创建了一种叫做RDD(Resilient DistributedDataset)的内存抽象结构。 原有的分布式内存抽象,例如key-value store以及数据库,支持对于可变状态的细粒度更新,这一点要求集群需要对数据或者日志的更新进行备份来保障容错性。这样就会给数据密集型的工作流带来大量的IO开销。而对于RDD来说,它只有一套受限制的接口,仅仅支持粗粒度的更新,例如map,join等等。通过这种方式,Spark只需要简单的记录建立数据的转换操作的日志,而不是完整的数据集,就能够提供容错性。这种数据的转换链记录就是数据集的溯源。由于并行程序,通常是对一个大数据集应用相同的计算过程,因此之前提到的粗粒度的更新限制并没有想象总的大。事实上,Spark论文中天阐述了RDD完全可以作为多种不同计算框架,例如Mapreduce,Pregel等的编程模型。并且,Spark同时提供了操作允许用户显示的将数据转换过程持久化到硬盘。对于数据本地化,是通过允许用户能够基于每条记录的键值,控制数据分区实现的。

 
统一安全访问控制组件– Sentry
数据的访问控制,是数据中心安全的一个关键部分。Apache Sentry采用了统一认证机制使得用户能够将敏感数据存放在Hadoop中。Sentry是CDH的一个高度集成组件,能够通过一个单一的系统提供细粒度授权和基于角色的权限控制。到目前为止,Sentry已经和开源的SQL查询框架,Apache Hive,Impala,开源查询引擎及Cloudera Search集成在一起,并且能够扩展到Hadoop生态系统的其它计算引擎。
 
企业数据中心必须能够有效,安全的存储,处理,分析,管理所有档案数据。Sentry能够为数据中心中的SQL,BI,查询工具,使用案例等等提供安全使用数据的保障。Sentry有如下的关键特性:
  • 基于角色的管理:数据库管理员可以解锁基于角色的访问权限控制,并且定义哪些用户或者应用,可以对来自服务器,数据库,表,视图和搜索索引的数据进行哪些操作。
  • 数据分类:内容提供者和拥有者可以通过细粒度的控制在一个数据集中显示区分关键数据和非敏感数据。
  • 用户分组授权:通过访问权限的控制,可以使得Hadoop能够服务更多不同的用户,不同部门的用户具有不同的权限,同时拥有一个集中的管理员组来进行协调。

 
如果没有Sentry,Apache Hadoop平台通常是通过粗粒度的HDFS权限控制来保证数据安全,但其具有明显的问题:数据的安全访问和授权的主要机制被HDFS文件模型限制。文件级别的授权是粗粒度的,没有能力控制文件中数据访问权限,即用户要么可以访问这个文件中的一切数据,要么什么都不能访问。此外,HDFS权限模型不能够使得多个用户组在同一个数据集上面有多种访问权限级别。
通过引入Sentry,Hadoop能够满足企业和政府客户的关键RBAC(role-based access control),主要表现在一下几点:
  • 安全控制:Sentry可以控制数据访问,并且对已授权的用户提供数据上对应的权限。
  • 细粒度访问控制:Sentry对Hadoop中的数据和元数据提供了细粒度的访问控制。对最初发布的Hive,Impala,Sentry允许在SERVER,DATABASE,TABLE,VIEW建立不同权限级别,包括SELECT,INSERT和All权限控制 - 允许管理员使用视图来限制访问的列或行。管理员还可以在文件中利用Sentry和带case的视图或UDF,按需求屏蔽数据。
  • 基于角色的管理:Sentry通过基于角色的授权简化了管理;用户可以对不同的用户组设立不同的权限级别用于访问同一份数据集。例如,对于特定的数据集,用户可以给反欺诈小组查看所有列的权限;给分析人员查看非敏感或者非PII(Personally IdentifiableInformation)列的权限;给数据接收管道插入新的数据到HDFS的权限。
  • 多租户管理:Sentry可以允许不同的数据集的权限委托给不同的管理员。在Hive和Impala的例子中,Sentry允许数据库或者schema级别的权限管理。。
  • 统一平台:Sentry提供了保护数据的统一平台;它使用现有的Hadoop Kerberos安全认证。此外,通过Hive或者Impala访问数据时可以使用相同的Sentry权限。

高度模块化和可扩展的机制:首先它允许Impala和Hive运行细粒度的安全策略,并且这种能力能够扩展到其它地方。
 
数据管治工具 -- Cloudera Navigator
Cloudera Navigator是唯一原生在Hadoop生态系统上的并提供全面数据管理服务的一套解决方案。该产品通过统一的用户接口可以有效协助系统管理员、数据经理以及分析师对平台中各式各样的数据进行管治、分类与探索。
 
大体上而言,Navigator提供了3类最核心的功能:
  • 审计与访问管理:维护完整的数据访问、数据操作审计历史以满足合规需求。同时帮助系统管理员快速验证用户/用户组在Hadoop集群中数据集合的访问权限(permission)正确性;

权限视图
查看用户/用户组对HDFS、Impala、Hive和HBase的访问权限以保证对隐私及合规的正确配置
审计配置
对HDFS、Impala、Hive、HBase和Sentry的审计追踪提供集中式的配置管理接口
审计面板
可视化与概述数据访问并提供可查询的统一接口
信息导出
有效导出审计信息至全局的安全信息与事件管理系统(SIEM)
当前Cloudera Navigator支持的审计追踪功能包括:1)通过HDFS、Hive、HBase、Cloudera Impala服务对HDFS数据的访问;2) HBase与Impala服务中的相关操作;3) Hive元数据修改;4) 对Sentry的访问。
  • 数据发现与探索:提供了一套标注工具帮助用户定制化数据标签与自动化识别数据标签。该功能可以有效加速用户发现有用数据、分析数据结构,进而提高数据复用率与数据商业价值;

元数据查询
快速检索相关数据,加速数据发现流程
元数据标注
自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类
元数据识别
从外部系统中识别出Hadoop的元数据,以整合公司范围内的不同系统与处理流程

数据探索发现
  • 数据溯源(lineage):提供追踪数据在系统中演变过程的功能,允许用户回朔数据源头,验证数据有效性,进而提供完善的数据生命周期管理(lifecycle management)。

可视化
帮助用户直观理解数据集的上下游血脉关系,验证数据源头与数据演变过程
血脉关系识别
从其他数据管理系统中识别出Hadoop的血脉关系用以可视化

 

要回复问题请先登录注册