为分布式存储高呼万岁的时刻——Tachyon更名为Alluxio

#### Alluxio快如闪电,超级简单,是伯克利最新的大数据宝宝。我们一起来看看它是如何重新定义存储层的吧。 大数据分析的一些巨大的突破产生于加州大学伯克利分校的AMPLab。Apache Spark是非常受欢迎的内存计算引擎,得到IBM和其他许多大数据厂商的支持。Apache Mesos ,为Twitter和苹果的Siri注入蓬勃的动力,它是数据中心或云操作系统的核心,将所有资源池化以完成大规模工作负载的运行和管理。 我们之前一直在谈论的,是数百TB甚至PB级规模的数据集在内存中的计算。这个非常巨大的规模。 然而,我们好像漏了什么?没错,存储。 如何在跨集群的计算内存中高效、可靠地共享数据是一个巨大的挑战。随着数据集持续增长,存储和网络成为了许多分布式工作负载的严重瓶颈。而且,它不仅仅是一个性能问题,存储系统的接口复杂,难以理解,对于大数据开发者来说,如何获取数据并送给应用程序或框架进行计算也是大数据领域最难的事情之一。 为了应对这些挑战,AMPLab的博士生Haoyuan Li开发了Alluxio (原名Tachyon,直到最近才刚刚更名),一个拥有统一的命名空间、以内存为中心、高容错的虚拟分布式存储系统。经过三年的孕育,Alluxio已经被许多大公司所接受,同时,也成为了AMPLab伯克利数据分析栈( BDAS )的存储层方案。 Alluxio是一个以内存为中心的虚拟分布式存储系统,非常适用于大数据和其他高可扩展性应用。系统已经被许多不同的业务所检验。例如,百度在其产品中使用Alluxio使得端到端的查询性能提升了30倍。巴克莱(Barclays)利用Alluxio使其分析工作的运行时间从小时级降低为秒级。 非常非常快,甚至从某些维度(某些项目)看(http://readwrite.com/2016/02/22/new-fast-sql-project ),基于Alluxio的方案甚至比Spark SQL还快上100倍。 除了显著的性能提升 Alluxio通过虚拟接口将底层存储系统与计算框架统一起来。它使任何框架/应用程序能够从任何存储系统中访问和分析任何数据。 酷死了,巨大的突破! ### 不仅快…还很简单 Alluxio抽象了底层持久性文件或存储系统的所有潜在复杂性。这是编写分布式应用的开发人员可以高呼万岁的时刻! 这意味着,在任何存储系统或文件系统之上( 阿里巴巴OSS,亚马逊S3 ,EMC, NetApp, OpenStack Swift,红帽GlusterFS,等等),可以运行任何大数据框架(Apache Spark,Apache MapReduce, Apache Flink,Impala等),这些框架可以访问任何存储介质(从DRAM到硬盘驱动器,到SSD等等)。开发人员所需要了解的,只是一个统一的API。 ![](http://wenda.chinahadoop.cn/uploads/questions/20160224/e6d3db20db176663a05283bff9c50a08.png) 而且,这不仅是开发人员的福音,也给网络运营商带来了好消息 为了体验Alluxio的好处,并不需要将数据中心昂贵的存储系统推倒重来。之前存储在NetApp和EMC这些盒子中的宝贵数据依然可以保留。并且,如果存储领域出现了新的技术,也可以简单地接入到数据中心当中,这是适应未来发展的存储。使用Alluxio,任何应用都可以从任何地方访问任何数据。任何应用程序都可以将任何数据存储到任何地方。 ### 开发人员的宝贝 Alluxio也迅速获得开发者的关注。在为期三年的开发过程中,社区的开发者活跃度遥遥领先于许多其他流行的开源大数据框架和数据存储项目: ![](http://wenda.chinahadoop.cn/uploads/questions/20160224/76a668c6f4b8d546b9afad51428027df.png) 如果Alluxio不断发展,它将不仅仅是BDAS存储层方案。它可以成为任何数据中心可以使用的标准存储层。 鉴于其性能以及比较简单的使用方法,这并不是不切实际想法。

要回复问题请先登录注册