一个kylin 查询性能优化的问题

A 事实表 字段包括:频道A,timeA 访问时间(timestamp类型)等,
B 时间的lookup表lookup,字段包括:timeB(timestamp类型),year,month,day,hour
 
A timeA 与 B timeB inner join 关联
 
原来timeA 和 time 作为date类型的时候查询1s以下,现在为了统计每个小时的访问人次,换成timestamp后 查询在10s左右,原始数据在52W行
 
语句 select day,hour,count(*) from A inner join B on A.timeA = B.timeB group by B.day,B.hour
 
timeA encoding 用的time,请教有什么好的优化方法吗?目前B都是派生维度

李扬 - Apache Kylin committer & PMC member, Sr. Architect of eBay CCOE

赞同来自:

很少见用timestamp作关联主键的,因为一般基数会太高。常见的模型会在A表上就加上date和hour,省去关联,不保证能解决性能问题,但至少模型清楚很多。 性能问题还是先要搞清楚现在的瓶颈是什么。http://kybot.io是一个工具,能够分析kylin查询的性能瓶颈。

要回复问题请先登录注册