外媒ITWorld:Hadoop、Spark和Kafka在数据摄取管道里是平等的

译者:施羽聪
原文链接:http://www.itworld.com/article/2999800/how-apache-kafka-is-greasing-the-wheels-for-big-data.html
小象科技原创作品,欢迎大家疯狂转发;
机构、自媒体平台转载务必至后台留言,申请版权。
 

Apache Kafka能够用于实时摄取多种类型数据,这要归功于:Confluent

 
与大数据相关的最大挑战之一是数据分析。但在分析数据之前需要摄取数据,以便提供给企业用户。这就是Apache Kafka出现的原因。
 
LinkedIn起初开发Kafka这个开源系统是用来管理实时数据流,里面的数据来自网站、应用程序和传感器。
 
但从本质来讲,Kafka作为一种企业的“中枢神经系统”,收集了大量有关用户活动、日志、应用程序指标、股票代码和设备仪器的数据,例如其可用于企业用户消费的实时流。
 
RedMonk的联合创始人、首席分析师Stephen O’Grady说,Kafka被比作ActiveMQ、RabbitMQ这种用于本地实现的技术,或对于云用户而言,可与Amazon Web Service的Kinesis比较。
 
O’Grady补充说,“关注度越来越高,不仅因为这是个高质量的开源项目,还因为在维修工作负载中的使用需求越来越多,比如对于物联网,Kafka处理信息高速流的能力越来越强。”
 
自被LinkedIn构想以来,Kafka获得了来自如Netflix、Uber、Cisco和Goldman等公司的高度支持。在周五它获得了来自IBM的新激励,IBM宣布基于Kafka的两款新服务的可用性在Bluemix平台上通过。
 
IBM新的流分析服务致力用毫秒级的响应时间和即时决策以分析每秒数以万计的事件。IBM信息中心,现在在测试阶段,向云应用提供可伸缩、分布式、高吞吐、异步的消息传送,使用REST或Apache Kafka API(应用程序编程接口)与其他应用程序通信。
 
Kafka在2011年开源。去年,三位Kafka的创立者成立了Confluent,该创业公司致力于帮助企业在大规模生产中使用它。
 
Kafka其中一位创立者、Confluent的创始人之一Neha Narkhede说:“在LinkedIn爆炸性的增长阶段中,我们跟不上迅速增长的用户群和数据,那些可以用来改善用户体验。”
 
Narkhede解释说“Kafka可用来移动全公司数据,并且作为一个持续的自由流动的流可在几秒内向有需要的用户提供。并且它确实有如此规模。”
 
对LinkIn过去的影响是“转型”,她说,如今LinkedIn在生产中仍然留有最大的Kafka部署,每天超过1.1万亿条消息。
 
与此同时,Confluent通过订阅提供先进的管理软件,以帮助大公司在生产系统中运行Kafka。其中一些客户是主流大型零售商和“美国最大的信用卡发行商之一。”Narkhede说。后者在使用实时欺诈保护技术,她说。
 
Kafka是“一个令人难以置信的快速消息总线”,一份451项的研究表明,这有助于快速集成很多不同类型的数据,Jason Stamper说。“这就是为什么它会成为一个最流行的选择的原因。”
 
他提到,除了ActiveMQ和RabbitMQ之外,Apache Flume也提供相似的功能,Storm和Spark Streaming在很多方面也有相似之处。
 
在商业空间,Confluent的竞争对手包括IBM InfoSphere Streams、Informatica的Ultra Messaging Streaming Edition、SAS的Event Stream Processing Engine (ESP) 和Software AG的Apama,还有Tibco的StreamBase和SAP的Aleri,Stamper补充道。较小的竞争对手包括DataTorrent、Splunk、Loggly、Logentries、X15 Software、Sumo Logic和Glassbeam。
 
在云方面,AWS的Kinesis 流处理服务“与Redshift数据仓库和S3存储平台的集成类似,有其他的好处。”他补充道。
 
Teradata新发布的Listener是另一个竞争者,其也是基于Kafka的,Forrester Research副总裁和首席分析师Brian Hopkins指出。
 
Hopkins说实时数据的趋势非常显著。
 
直到2013年左右,“大数据是大量的数据全部塞进Hadoop。”他说:“可是现在,如果你不这样做,你就已经落后于权利曲线了。”
如今,来自智能手机和其他数据源的数据,给了企业与客户实时交流和提供上下文经验的机会,他说。反过来,取决于快速理解数据的能力。
“物联网就像是手机的第二次浪潮,”Hopkins解释道。“每个供应商都是巨量数据的定位。”
 
因此,技术正相应地调整着。
 
“到了2014年全是Hadoop,然后是Spark,”他说,“而现在,是Hadoop、Spark和Kafka。在如今这个现代化分析架构中,这三者在数据摄取管道里是平等的。”

0 个评论

要回复文章请先登录注册