百度的Palo和eBay的Kylin都是OLAP产品,能想回比较下各自的优劣?

李扬 - Apache Kylin committer & PMC member, Sr. Architect of eBay CCOE

赞同来自: fish 编程小梦 yanglei greencloud

我了解Kylin多一些,关于Palo仅从几次宣讲会上听到的来分析。 Palo和Kylin的主要技术不同。Palo据我理解主要是MPP,而Kylin是cube(多维立方体)。注意这里说的是主要技术,次要技术两者互有渗透。比如Palo貌似也有物化视图,而Kylin也有并行处理。   MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合列式存储和一些索引,查询可以更快返回。要注意这里在线运算量并没有减小,8亿条记录还是要扫描一次,只是参与的机器多了,所以快了。   MOLAP Cube [2][3] 是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。8亿记录的一个3维索引可能只有几万条记录,规模大大缩小,所以在线计算量大大减小,查询可以很快。索引表也可以采用列存储,并行扫描等MPP常用的技术。但多维索引要对多维度的各种组合作预计算,离线建索引需要较大计算量和时间,最终索引也会占用较多磁盘空间。   除去技术,Palo和Kylin的商业模式很不一样。Palo是云服务,数据在云端,有采购成本。而Kylin是开源产品,产品免费,数据私有,但有后期的运营成本。 [1] https://en.wikipedia.org/wiki/Massively_parallel_(computing) [2] https://en.wikipedia.org/wiki/MOLAP [3] https://en.wikipedia.org/wiki/OLAP_cube

要回复问题请先登录注册