请问hive的桶在什么时候能用到?

RT

fish - Hadooper

赞同来自: 李虎翼 Riordon

当查询经常只针对部分数据进行,不需要通过扫描全表而是通过扫描部分数据得到结果,为了节省磁盘IO,可以用bucket。   分桶其实就是将记录分别存储到不同的数据目录下,当扫描时,可以方便的根据查询条件,扫描部分文件。

李虎翼 - Hive/Hadoop

赞同来自: Riordon

@fish 哥回答得很好,而且用桶还可以避免使用在join时候避免reduce(如果用桶键作关联的话),避免倾斜,如今天课程上讲到。用桶的主要就是在建表时,就要想好主键是什么,用什么主键作关联。

要回复问题请先登录注册