何亮亮《HBase服务化实践》演讲PPT

题目:HBase服务化实践


何亮亮.jpg


演讲人:何亮亮,小米
演讲人介绍:09年毕业于中科院自动化所,13年加入小米基础架构组,先后负责小米结构化存储服务设计与开发,Hadoop/HBase开发与维护等工作。
 
现场没有来得及回答的问题,我们将邀请主讲人继续在这里互动回答。

演讲PPT在此:
 

9 个评论

请问何老师,把传统数据库中的数据导入hbase时,原来的主键是int型自增长的,在HBase中为了避免热点问题应怎么表示?如果用MD5,会使主键太长,有没有更短更好的处理方法?
有没有具体的hash库可调用?
小米的libsys是如何处理的?
可以用有限个数的hash,比如rowkey hash 16,然后拼上原始rowkey,这样写入数据时均匀分布到16个region中,然后get和scan时每个region处理一次然后归并就行了。
ps,我不是小米的,看到了回答一下而已 :P
起始时,每个RegionServer不只有一个Region吗?怎么保证hash算法与reginserver数目无关呢?
起始时,每个RegionServer不只有一个Region吗?怎么保证hash算法与reginserver数目无关呢?
跟 @mopishv0 说的一样,hash的桶数目(取2的幂)对于一个表是固定的,scan时如果需要严格保持顺序就归并。建表可以指定预分的region split数目,只要是2的幂并且在[1, hash桶数]范围内都是可以的。至于 “起始时,每个RegionServer不只有一个Region吗?” 要看你对业务数据量的预估,看看划分多少split合适,不一定非要是一个RS分一个split。
谢谢大家!
xiexie

要回复文章请先登录注册