Hadoop大数据处理课程实时处理模块疑问

老师您好:
               在Hadoop课程分布式日志搜集xia项目中,实时处理模块,baj把结果写进Redis中,我看了给的代码,采用的hashshu数据结构,像省份成交量统计中,key是省份,value是成交量,如果没有时间信息的话实时处理的结果是如何体现出来的?
              还有一个问题是,在省份成交量的统计中,有的省份流量大,有的省份流量小,fieldsGrouping的数据均衡性如何进行优化?
              谢谢老师

Dong - Hulu

赞同来自: lbjj

实时统计是根据需求来的,比如省份与交易量随着时间的变化,如果你只需要省份与交易量信息,那么时间维度的,一个小时和一天的交易量肯定不同啊 fieldgrouping的确是个问题,你可以再加一轮filedgrouping,第一轮对于大省,按照id+省份做key,,比如把广东分成20个区,id是0-19,即0-广东,1-广东,...第二轮对相同省份汇总 另外,建议你好好整理一下自己的问题,汉字和拼音交互使用

要回复问题请先登录注册