问个Hadoop或者spark环境应用场景的问题

如果现在有这样一个场景需要怎么搭建hadoop环境解决方案:
 
从国家数据公布平台上爬取各个污染监控企业(国控150000家企业)的公布数据(字段有上千个,因为企业类型,行业不同)实现:
1 监测150000家企业数据公布是否及时,完整。每小时跑一遍。结果的可视化展现可以用什么系统呢,比如做简单的汇总统计,有哪些地区哪些行业,哪些的企业的数据时不完整的,
2 发布数据是否符合国家标准,行业标准(根据不同的行业,不同的国家标准,行业标准使用一些制定好的规则)。
3 发现各企业公布的数据与国家环境监测数据之间的关系。
 
这样的环境怎么搭建呢?

fish - Hadooper

赞同来自: leetec wangxiaolei

如果每条记录的字段非常多,而且经常涉及对某个确定字段的操作,但只是对字段的较为简单查询,没有复杂查询或多维度条件查询,可以考虑使用HBase做数据的存储。   数据通过etl进入HBase存储系统,每小时统计所监控企业是否正常。   统计展现可以采用传统的方式,结果入mysql等关系型数据库,用echart或者hichart整合出一个可视化前端作为展示。

fish - Hadooper

赞同来自: leetec

好像不是第二个问题,是第二三四五...   这个“字典”有多大啊?字典只能做存储,“做对比”这个动作不是在字典里进行啊,是得在你的每小时任务里执行吧。   每小时执行一次最简陋的方法可以用linux的crontab定义,也可以试试Oozie或者azkaban。

leetec

赞同来自:

谢谢茂源老师,那第二个问题是不是要把各行业的国家和行业标准要求的数值做成个字典,在把每条观测先按照行业分类,然后再在字典里面把各个字段的观测和行业标准数值做对比么,如果行业要求数值每年更新的应该怎么维护字典呢,etl是通过sql语言实现么,怎么控制每小时自动执行一次呢,用zookeeper么?

fish - Hadooper

赞同来自:

你这“标准”有多大?得确定数据量才好决定用什么做字典。

要回复问题请先登录注册