基于Hadoop+Jstorm+zookeeper的自然灾害气象数据仓库构建技术研究_第1页
基于Hadoop+Jstorm+zookeeper的自然灾害气象数据仓库构建技术研究_第2页
基于Hadoop+Jstorm+zookeeper的自然灾害气象数据仓库构建技术研究_第3页
基于Hadoop+Jstorm+zookeeper的自然灾害气象数据仓库构建技术研究_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于hadoop+jstorm+zookeeper的自然灾害气象数据仓库构建技术研究    丁薇+谭向宇+彭晶+黄绪勇+聂鼎+程旭明+胡勇随着科学技术的不断提高,人们不只是依靠传统的气象监测方式,而是不断的进行科技革新,监测的方式越加丰富起来。而问题也随之而来,气象数据涉及的方面广阔,数据多维化,结构化和非结构化数据成上升趋势,使得气象数据的存储面临难题。将数据库技术应用于包含海量数据的气象数据上,虽然可以大大提高数据检索能力和服务效率,但是对于海量数据分析是远远不够的,其涉及到的数据是多维化的,想要从这些看似简单,实际却很复杂的数据中分析有用数

2、据是很困难的。而数据仓库的出现可以很好的解决气象数据的数据量巨大,且数据多维化的问题。1 气象数据仓库1.1 体系结构本文的数据仓库的建立是基于hadoop+jstorm+zookeeper三者的结合构建的分布式计算环境上的,最终数据存放于hbase中,使用map reduce对电力大数据进行分布式计算和处理。高效快速的对实时数据处理反馈,海量数据存储。同时将各个监测设备终端和监测属性点存放于oracle数据库中。各个设备终端之间的关系如下:一台设备上可以挂载多个监测终端于其上,一个监测终端又按监测的种类不同分为多个监测主题实例,每个主题实例对应这一个监测类型(县级站点气象实时数据、乡镇站点气

3、象实时数据等),每一种监测类型下有对应这多个监测属性(雨量、实时温度、湿度等)。将采集到的实时数据存放于hbase,非实时数据存放于oracle,两者即互不相干,有密不可分。hbase数据的写入,依赖于实时数据和非实时数据。1.2 数据来源本次研究的数据仓库技术的数据来源是从地方局中调取的数据,其以文件格式存储于远程ftp服务器上。故数据要想进入到hbase中,需要程序解析后塞入消息队列中,然后在存至hbase。为了预测的准确和详细,需要进行多个天气指标值:温度()、雨量(mm)、风速(m/s)、风向、气压等,还要根据气象卫星传递回来的数据进行分析整合。在数据存放hbase前,设计合理的row

4、key可以大大的提高数据的检索能力,提高hadoop集群的性能。本此研究同样设计了一套简单而有效的rowkey策略:以主题实例+监测属性+采集时间三者拼接组合成rowkey。这样设计的原因是:1)主题实例是唯一存在的,一个主题只对应着一个终端,而一个终端也只对应着一个设备,以主题实例为首,就能确定属性的唯一;2)主题与类型是多对一的关系,一个主题对应着一个类型;而类型与属性是是一对多的关系,这样设计就能知道,是哪个主题下那个属性的监测信息了;3)采集时间,因为数据采集是分时间段的,每隔一段时间就要进行数据的采集,为确保数据的实时性,所以添加了采集时间。这样就确保了监测终端在某个时间点采集到了某

5、个监测属性的值。图2即是rowkey的最终效果展示:由图可以知道:主题实例10000000000001790977在2016年11月4日6时30分的时候的10076属性(天气情况)为小雨,而在8时53分为阵雨。通过主题实例亦可以反向拿到监测终端为:“10*10气象网格19176”。數据从不同的监测系统中到来,经过解析后,按照固定的格式存储,既保证了数据的规范化处理,又能达到数据因果查询效果。拿到一个设备可以通过设备与监测终端的关系获取到终端信息,再以终端和主题实例的关系获取到主题实例信息,然后再以主题实例与实例类别,就能抽取到主题的监测属性信息,最后就可以根据这些信息,去查询指定时间采集到的数

6、据值了:get theme_param_vaue,100000000000016833731009920160706000000。或者查询一天之内采集到的所有数据值:scan theme_param_value,startrow=>1000000000016833731009920160706074800,stoprow=>000000000016833731009920160707000000。2 流数据的处理气象数据也是一种流式数据,监测设备按照一定的频率,长期的采集监测点的数据,通过网络实时的提交给服务器。所以可以把它看作一种流数据。针对于流数据,我们在建设分布式计算环境的时

7、候就已经接入jstorm流式计算框架。它能够简单可靠的处理实时的数据流,采用批处理方式实时处理,在极端时间内得到结果反馈。外部流式数据流入spout中,然后将数据以tuple作为基本单元传递给bolt处理单元,然后再将经过处理后的数据到下一个处理单元对数据加工处理,直到最后一个处理单元处理完成,才能算完成一次topology,在这个处理和传递数据的过程中,走的都是批处理方式,高效快速的对流数据进行计算处理,达到实时的反馈1。气象数据的后期利用也是很大的,虽然上一刻的天气已经处于过去时了,但是其依然还有利用价值,比如:气象预测的时候,你得有一个事物作为参照,才能根据公式、程序得出想要的结果。所以对于气象数据的存储,不管是过去,还是现在的数据都非常重要,不能轻易的做删除操作,而在hbase中如果数据列有问题,可以通过rowkey更新覆盖,这有一个好处:hbase会自动记录版本号,旧的版本不是物理上的删除,而是不直接显示,每次只显示最新版本的数据。3 结论以上就是对气象数据仓库在数据存储方面的研究,建立合理的rowkey策略,保证数据的唯一性、可使用性,以简单的方式存储具有重要价

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论