气象数据的“大数据应用”浅析_第1页
气象数据的“大数据应用”浅析_第2页
气象数据的“大数据应用”浅析_第3页
气象数据的“大数据应用”浅析_第4页
气象数据的“大数据应用”浅析_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、气象数据的“大数据应用”浅析2014-03-24 17:03:19 作者:国家气象总局沈文海 来源:CIO时代网摘要: 气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。 关键词: 气象数据大数据    1、引言    据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,以这些ipad做砖石,足可以垒建起两座中国的万里长城。而到2013 年,仅中国当年产生的数据

2、总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB.【1】而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹航空母舰。    数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”.    很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多

3、的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机-气象部门也是如此。    做为抛砖引玉,笔者拟就如下问题提出自己的看法:    (1)气象数据是否具备“大数据”的核心特征?    (2)业界公认的“大数据应用”的主要形态是什么?    (3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要首先具备哪些必要条件?  

4、0; (4)气象信息技术领域当务之急需要解决的关键技术问题。    2、大数据的现实以及气象数据的体量构成    2.1 大数据的行业分布    就数据量而言,中国的大数据近期具有如下行业分布特征:    (1)互联网公司    目前国内的互联网公司,拥有总计约2EB的数据,而其中的互联网三巨头BAT(百度、阿里巴巴、腾讯)占有了其中的3/4(约1.5EB)。    (2)电信、金融、保险、电力、

5、石化系统    这些行业及企业数据量分布较为平均,就每个企业(或运营商、部门)而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。    (3)公共安全、医疗、交通、电子政务领域    城市:随着平安城市、智慧城市等工程的推进,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB.最保守估计(含定期循环清除),每年能够保存下来的数据在数百PB以上。    交通:飞机航班往返一次产生的数据达TB级。列

6、车、水陆路运输每年产生并保存下来的各种数据视频、文本类数据约达数十PB.    卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB.    电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB.而调查显示,未来12年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是1050TB.    (4) 其他,商业销售、制造业、农业、物流和流通等领域    随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下

7、)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。【2】    (5)气象数据    气象部门需要永久保存的数据目前约45PB,年增量约1PB.    由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。    2.2 大数据

8、的特征    早在2012年,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征:    Volume(大体积):体积巨大是大数据的最根本的特征,体积不足够大,任何数据都不能称之为“大数据”.一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。    Variety(多样性):类型和来源渠道繁多是大数据的第二个特征。大数据非但体积巨大,而且内容繁杂,数据种类繁多,包括网络日志、音频、视频、图片、地理位置信息等等;这些种类繁杂的数据来源于多种不同的渠道。多类型的

9、数据对数据的处理能力提出了更高的甚至全新的要求。    Velocity(高速度):生成速度快,处理时效要求高,这是大数据区分于传统数据采集、汇聚、处理乃至数据挖掘等方面最显着的特征。    Value(价值稀薄):数据价值密度相对较低,这是大数据的第四个特征。根据业界专家的看法,大数据里蕴藏着的信息无所不包,任何人所需要的任何信息,都可以从大数据里寻找到。只是这些信息隐藏在大数据的汪洋大海之中,寻之如同大海捞针,人们需要研究出类似沙里淘金的办法,才能在有效的时间内将所需信息寻找到。因此如何通过强大的机器算法更迅速地完成数据的价值“提

10、纯”,是大数据时代亟待解决的难题。当然,还有一些人将对大数据“Value”的理解确定在“价值丰富”的层面上;而最早提出“大数据”概念及特征的Gartner公司和麦肯锡公司,甚至至今仍坚持特征“3V”(Volume、Variety、Velocity)论,认为“Value”不能作为大数据的特征【3】。限于篇幅,不予展开讨论。    需要注意的是,在此“4V”(或“3V”)特征中,“Volume”(体量巨大)仅仅是成为大数据的必要条件,而非充分条件,如同 30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却可算罕见大雨,所以体量大小是相对的。事实上,大数据概念的

11、提出绝非仅因为数据量的暴增,而且是因为数据已多得用传统方法无法应对或处理,导致人们必须采用新的方法、新的思路乃至新的理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为“大数据”.因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。    2.3 气象数据的体量种类分布    气象资料种类较多,就体积而言,其中的地面观测、气象卫星遥感、天气雷达和数值预报产品四类资料占据总量的90%以上,其中:    地面观测资料:因二十一世纪以来观测方法从人工观测改进为自动观测,摆脱了人类居住

12、条件限制的制约,台站数由本世纪初的不到3,000个,迅速扩展到目前的40,000多个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB,增幅约4个数量级。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增12个数量级,由现在的每天数百万条记录增至超过一亿条记录/天。    天气雷达资料:按照天气雷达近期发展规划(2005-2010)以及气象发展规划

13、(2011-2015)中“新一代天气雷达建设增补站点布局方案”,目前在全国已布设约200部不同波长的多普勒天气雷达,并为达到雷达资料全社会共享的目的,已基本实现7×24小时全天候不间断观测;日增总量约300GB.    气象卫星资料:根据我国气象卫星及其应用发展规划(20112020年),至2020年,我国计划发射11颗气象业务卫星,包括3颗风云二号03批卫星,3颗风云三号上午星、2颗风云三号下午星、1颗降水测量雷达星以及2颗风云四号光学星。此外还将在2020年前发射2颗气象试验卫星。【数据量待补充】目前的日增总量约数百GB,未来有可能增加到数TB/日。

14、    数值预报产品:与地面观测、气象卫星和天气雷达等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS、T639为代表的天气预报模式,以及以BCC_CSM2、DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近TB级。    在上述四类数据之外,气象资料尚有高空探测、地面农气观测、沙尘暴观测、闪电定位观测、风廓线雷达探测等等许多种,但就体积而言,较上述四类资料至少低一个数量级,难以将其称之为“大数据”. &

15、#160;  因此,如果就体积而言,气象资料可勉强算得上“大数据”,也是因为地面观测、气象卫星、天气雷达和数值模式这四大金刚将气象资料的体积撑大而成的。    3、“气象大数据”的特征分析    气象数据的体积虽大,却有其独特的特征:    (1)体积虽大但总量可控    这里对地面观测、气象卫星遥感、天气雷达和数值预报产品这四类体量最大的气象数据进行分析:    地面观测资料数据量剧增的原因,是站点数的增加和观测频

16、度的大幅加密。然而,这种台站规模的扩充和观测频次的加密是基于预报和服务需求,经过严格科学论证,有计划有步骤逐步推进的;在观测台站达到一定密度,观测频度足以满足气象业务需求后,台站数不会无限制持续增加,观测频度更不会无节制地永远加密下去,因此总量既是可预测的,更是可控的。    对天气雷达而言,布网工作已基本完成,雷达总量不会有成倍数的增加。而且目前的天气雷达已基本实现7×24小时全天候不间断观测。因此天气雷达的资料量(年增量),将稳定相当长一段时间,而不会有倍数的增量变化。    未来数年内,我国还将发射数颗气象卫星,每颗卫

17、星都会产生数百TB级的数据年增量。为满足气象卫星资料的应用时效,国家卫星气象中心针对每一颗气象卫星,都建有相应专属的地面接收处理系统,已完全实现所有气象卫星遥测遥感资料的实时接收处理。因此气象卫星数据目前虽以每年数百TB的量级增长,而且规模有可能继续扩大,但却始终处于可控可管和完全可用状态。    数值预报模式产品资料是各级预报员最重要的预报参考资料,这些产品甫一生成,便即刻送达天气预报、气候预测专家的桌面,供其业务参考使用;同时以满足业务需求的时效,分发至各省级乃至地市级气象部门,供其本地化应用。因此与气象卫星资料相类似,数值预报产品资料体积虽大,却始终处于可控

18、可管和可用的状态,未来也将始终如此。    因此,气象资料体积虽大,在量级上算得上“大数据”,但却始终处于可控可管可用状态。    (2)种类虽多但内部信息单纯,来源单一    按照行业标准气象资料分类与编码,气象资料分为14大类,计有数百种之多【4】。该标准基本涵盖了气象资料的所有内容。所以就内容而言,气象资料在目前及可预见的未来,超不出该行标所规定的范围。数百种的气象资料种类虽多,但每种资料所含信息却十分单纯:土壤持水量只记载某时某地某规定土壤深度中水份的持有程度,“云能天”只记录某时某地的云量云状、

19、能见度以及天气现象等信息。这与互联网大数据如电子邮件、微信、微博中所包含的社会百态、生老病死、喜怒哀乐、柴米油盐酱醋茶等所有信息有很大差异。究其原因,海量气象数据是由气象探测系统以及数值预报业务系统产生的,来源比较单一;而互联网大数据则由人来提供的,它来源于人类社会的方方面面和各个角落,是人类活动的实况记录。    (3)价值单一而明确    气象观探测业务系统只采集那些能够客观反映自然界气象状态的要素,所以气象观探测数据里包含且只包含丰富的气象信息,而以观探测数据为唯一数据和信息来源的气象数值模式,其生成的产品中所包含的信息也只能是

20、局限于未来天气或气候状态的预测。因此所谓“气象大数据”,其自身的直接用途只能是气象业务,即:天气预报、气候预测以及气象服务。    麦肯锡公司和Gartner公司始终认为:“大数据是用传统的架构、传统的技术方法无法解决的数据问题”【3】;而由上分析可知,气象数据始终处于可管、控、用状态,虽然随着数据体积的不断膨胀,以及原有管理和处理技术架构的陈旧,逐渐出现性能下降、时效减慢等现象,但并非没有解决的技术手段。因此应当说,气象数据是“大数据”的组成部分之一,但其自身并不完全具备“大数据”的所有特征。从这个观点考察,以体积硕大为由称气象数据为“大数据”十分勉强,而且较易

21、产生观念和认知上的混乱;因为衡量体量大小的标准是在不断变化的。信息技术的发展突飞猛进,处理及存储能力依摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在IT界俯拾皆是。    4、应用分析展望    4.1 大数据带来大变革    大数据时代的作者就大数据带给人们思维方面的变革,提出了三个观点:    (1)当数据处理技术已发生翻天覆地变化时,在大数据时代进行抽

22、样分析已经过时。人们进行分析的对象已不是抽样数据,而是所有的数据,即:“样本 = 总体”.    (2)执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。    (3)知道“是什么”就够了,不必知道“为什么”.在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”.【5】    而对于大数据的价值,该书作者认为,“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予”,它目前展现在人们面前仅仅是其总价值的“冰山一角”.对此,胡小明先

23、生的理解是:虽然一些数据所蕴含的其所属领域的内部规律(即所谓“首要价值”)已被本领域专家充分发掘,但如果将这些数据与其它领域数据相链接,却有可能发现出许多意想不到的相关关系,即所谓“丰富的未知价值在领域的外部”.【6】    因此,数据的价值由“内部自身”和“外部关联”两部分组成:内部自身价值是指该数据自身所包含的所有信息对其所属企业和部门业务工作的支撑、以及开拓业务领域的作用;而外部关联价值则是指该数据与外部企业、领域和行业数据进行深度结合以及具有创意的分析思路和有效的处理方法,从而发掘出新的、超出所属企业和部门原有业务范围的、传统思维所意想不到的、具有开创意义

24、的信息,众多企业和行业部门可由此了解并掌握用传统思维和方法无法获得的事实,并因此可创造出新的经济和社会价值。无论是否处于“大数据时代”,数据的价值概莫能外。而所谓“大数据应用”,是由于近二十余年来,各行业信息化程度逐渐提高,互联网及其丰富的应用逐渐渗透到人类社会各个阶层的方方面面,在使得人们的工作和生活更加舒适、方便、快捷和安全的同时,也将社会上各方面信息通过网络(尤其是互联网)采集并收集管理起来,从而导致社会上数据总量以令人瞠目结舌的速度暴增,而这些暴增起来的数据也逐渐呈现出与此前数据所不同的性质和特征(即所谓“4V”特征)。由于此时的数据具有Variety(多样性)的特性,所含信息种类较之

25、此前大大增加,人们有可能通过分析这些信息,获得以前不可能得到的新的知识、预测信息,激发出新的开拓性思维,乃至开创新的业务领域。    4.2 “大数据应用”成功案例分析    “大数据时代”伴随着“大数据应用”.通过分析众多媒体、专着上所刊载的各个“大数据应用”成功案例,不难发现三个事实:    (1)所分析的数据都是企业自身所拥有的    所有成功案例都是企业通过分析自身拥有的数据而产生的。这里既没有谷歌通过分析诸如沃尔玛等跨领域跨行业部门的数据而得到有价值信息的成功案例,

26、也没有阿里巴巴通过分析类似腾讯或百度等同为互联网运营应用的兄弟企业的数据而获益的案例。不是这些公司没有分析能力,而是对方的数据无法获取到。所有成功案例都是该企业通过分析本企业所拥有的数据-“大数据”-所获得的。跨行业、跨部门甚至跨企业的数据联合分析应用的成功案例难觅其踪。因此所有这些成功案例,都是数据内部自身价值的被挖掘。    (2)所分析的数据对象中所需要的信息足够丰富    沃尔玛能够分析出婴儿纸尿布与啤酒销量之间的正相关关系,是因为其数据库中包含所有本系统连锁店中所有商品的销售记录,包括啤酒和婴儿纸尿布。阿里巴巴企业能够提前半

27、年预测出2008年北美将爆发经济危机,是因为其数据库中详细记录了数年来世界各地与阿里集团的每一笔订单和询单,可从中统计并发现出其异常变化以及变化的区域分布。美国中央情报局能够通过对电子邮件的筛选探知出几十起针对美国的恐怖袭击计划,并提前采取相应措施,是因为恐怖分子使用电子邮件进行通信联络,留下了相关的痕迹。相反,我国金融行业数据量巨大,但分析师们却绝不可能通过分析金融数据来预测天气和气候,因为金融数据中不包含任何与气象有关的信息;反之亦然。    所以,大数据应用成功案例中最重要的一点,就是这些企业所分析的数据对象中包含了可能需要的所有信息,只不过这些信息在整体数

28、据的汪洋大海中十分稀少,需要采取非传统的、被称之为“大数据”技术的处理手段、在规定的时效内挖掘出来。    (3)大多是新兴的或信息化时间不长的企业(行业)    这些成功案例企业或是近十几年来方才崛起的新兴互联网企业(如:谷歌、亚马逊、阿里巴巴、腾讯等);或是行业历史虽然悠久,但信息化建设历程并不久远(如:沃尔玛超市等),所拥有信息的内在价值尚未真正有效地挖掘出来。    由此可知,目前业界众口称道的“大数据应用”成功案例,基本上都属于数据内部自身价值的挖掘和展现,而且数据内部的信息种类十分丰富。相对而

29、言,数据“外部关联价值”的挖掘和展现在业界和社会上尚未成为主流形态。4.3 气象数据的“大数据应用”前景预期    气象行业是信息化建设较早的行业,气象科学家分析研究气象数据已有近百年的历史。直到目前,气象数据的核心内容并未发生根本性变化,近年来所增设的新的探测手段(如气象卫星、天气雷达等),其探测信息最终都将反演成温、压、湿、风以及云能天等有限的几个气象要素,以供业务及科研使用。而这些要素之间的物理关系,早已被动力气象学解释清楚。已有数十年历史的传统的统计气候业务,正是采用复杂的统计方法,对气象要素进行时间、空间分布方面的详尽分析,发现其中的规律,进而

30、完成气候统计预测的。因此气象数据中常规探测部分(如:地面观测、高空探测等)对于气象行业而言,其常规的基本价值(对天气预报、气候预测以及其它专业气象预报的贡献)已被充分认识并挖掘。而其中可能潜藏的反映本领域内天气或气候规律的新的信号,正在由数以千计的气象科学家们分析研究着。    相对而言,非常规观测资料中的气象卫星和天气雷达资料,与“大数据应用”成功案例的特点较相吻合。以气象卫星数据为例:虽然气象卫星是用来获取与气象要素相关的各类信息的,然而在森林草场火灾、船舶航道浮冰分布等方面,气象卫星却同样也能发挥出跨行业的实时监测服务价值。究其原因,气象卫星视野的广阔和搭载

31、探测设备种类的多样化,以及各类仪器设备所获信息之间、卫星数据与其它种类气象资料(如地面观测数据)之间综合应用的可能性,占据了绝大比重。气象卫星每批次(型号)所搭载的探测仪器设备都较前批次(或型号)有所调整和增加,因此每颗卫星都有可能产生新的遥感产品,除首先应用于气象行业的预定应用外,几乎都含有行业外新的服务应用的可能,从而可使气象部门得以不断扩展新的业务领域。    天气雷达数据与此类似,限于篇幅,不再展开讨论。    所以,虽然海量气象数据属于专业感知领域,所含信息量丰富而内容单纯-只包含(且富含)与气象有关的信息,并且其内部自身价

32、值中的常规内容已被充分挖掘并应用于气象业务,可能深度蕴藏的内部自身价值正在艰难地挖掘中(已属于科学问题),但这并不意味着气象数据的内部自身价值已被挖掘殆尽。气象卫星、天气雷达等非常规遥感遥测数据中包含的信息十分丰富,有可能挖掘出新的应用价值,从而拓展气象行业新的业务领域和服务范围。然而这一切,首先需要管理者具有敏锐捕捉行业外服务需求的能力,其次则需要一支召之即来、来之能战、战之能胜的服务产品研发科技团队,而且需要积极进取和勇于担当的领导素养以及完善的机制配合。那种小心翼翼、循规蹈矩的行为方式,难以适应服务市场瞬息万变的状态。    与之相对应,气象数据“外部关联价

33、值”的挖掘,则当出现在其与其它专业领域数据的跨领域跨部门综合分析应用过程中;而这一切的必要条件,就是行业间数据的高度共享和深度分析应用。然而,虽然需求十分迫切,呼吁也强烈而持久,但数据的社会共享至今仍是一个世界性难题。美国政府多年来年以来一再发布政令,要求政府部门在规定期限内将与国家安全无关的数据实现社会共享。在我国,早在二十一世纪初便由科技部主导的科学数据共享试点工作,十余年来进展并不顺利,行业间的数据并未真正实现共享,气象部门获得某些相关部门的观测数据异常困难,有时不得不从其网站上抓取数据表格,经人工处理后获得表格中的观测数据。因此,气象数据通过跨行业深度结合而挖掘其外部关联价值的必要环境

34、并非已全部具备。而如果没有数据的充分社会共享,气象数据的“大数据应用”便将始终徘徊在“内部自身价值”的挖掘之中。    需要注意的是,“大数据应用”与目前的气象公共服务有所不同:后者是既定业务数据加工产品的社会推广应用,是气象数据已挖掘出的内部自身价值(天气预报和气候预测产品)的充分展示、应用和发挥;前者则是气象数据“内部自身”和“外部关联”价值的挖掘。简言之,前者是价值产品的创新,后者是价值产品的应用。产品应用需要的是积极灵活的客户经理和及时周到的服务支持,而价值创新,对内部自身而言,需要本行业领导的高素质、科学家的高度专业水准、研发团队的精干高效;对于外部关联

35、价值而言,则须与其它相关领域原始数据的深度结合,而由于其跨行业以及数据量的浩大,这种深度结合工作所需要的是天才的跨行业创意分析师和有效地处理技术手段。    因此,不宜将气象预报产品的社会化推广应用简单地冠以“气象大数据广泛应用”的名称,因为产品应用与气象数据“大小”无关,而如此冠名将易导致概念的混乱和气象“大数据应用”的简单化。    5 信息技术领域需要突破的关键技术以及与“云”的关系    气象数据的广泛应用需要突破的关键技术很多,其中大部分(如天气雷达数据拼图等)属于专业领域的

36、科学问题,需要相应领域科学家们的深入研究。就信息技术领域而言,海量数据的高效应用是亟需突破的核心技术难题。    (1)关键技术:海量气象结构化数据的高效应用    由“2.3”分析可知,目前气象数据的产生量巨大,每时每刻如滔滔洪水般汹涌而至,传统的技术架构已无法应对海量气象数据的处理、管理和有效服务,以至于有关业务单位不得不频繁更新设备,用更高档的服务器运行传统的关系型数据库和文件系统,用更高性能的磁盘阵列存储大小不一、数量惊人的数据文件,以及动辄数亿条记录的数据库列表,以期能够苟且满足当前日益严苛的数据处理、存储和检索等业务要求。

37、这不仅造成了资金方面的浪费,更换系统设备过程中无法避免的系统移植和切换,也给有关业务和用户造成不必要的负面影响。分布式处理和存储等云计算/大数据技术虽然提供了对非结构化数据的规范管理和高效应用技术,但对于以地面观测资料为代表的海量气象结构化数据及其复杂多变、难以预测的应用方式,却显得束手无策。    地面观测资料是气象业务和科研中应用最为广泛和持久的一类结构化数据,被要求永久在线管理以提供实时服务。而通过“2.3”中的介绍可知,目前全国四万多个地面观测站所产生的资料,月增量数亿条记录(约2.4TB),未来更有可能膨胀到每日上亿条观测记录。因此,如何运用恰当的技术,

38、有效管理海量地面观测资料,充分满足所有用户对地面观测资料的实时检索和分析应用,并使系统长期处于稳定状态,是目前必须解决的核心技术问题。虽然该问题在世界IT界亦属难题,但如果不予解决,则海量气象数据的应用便存在时效上的障碍,本部门业务需求尚且无法满足,遑论“大数据应用”了。    自2013年初以来,国家气象信息中心下属的气象资料服务室和系统设计室的有关技术人员,与国内有关高科技企业进行联合研发,在此领域已有突破性进展。相信不久的将来,此项关键技术将被突破。    (2)“大数据应用”与云的关系    由于

39、体量的巨大,统筹的集约化管理大数据显得尤为重要,因为如此方可以大幅提高数据的应用效益,降低系统的复杂度和运营成本。云计算概念的出现以及随之衍生出的“云存储”等应用架构,为大数据的有效管理提供了可行的方案。这在目前国家级和省级业务系统已十分复杂的我国气象部门,显得尤为重要和急迫。    云存储在未来必将是大数据的主要管理和应用形态,因为在未来大数据开放时代,无力管理大数据者将占大数据应用者中的绝大多数;没有云存储,大数据的广泛应用就不存在。反之,如果没有大数据及大数据应用,很多“云”(尤其是“存储云”)的价值也难以体现出来,二者是相辅相成的关系。有关的内容及规划,已

40、纳入全国气象信息网络系统总体设计之中,在不久的将来,将逐步予以实现。    综上所述,可得出如下结论:    (1)目前社会上的“大数据应用”大多仍局限在数据内部自身价值的深度挖掘方面,气象数据也是如此。相对而言,气象数据中的气象卫星和天气雷达数据因其信息量的较为丰富,有可能在与其它资料深度融合的过程中挖掘出新的应用价值,并由此开拓出新的业务领域。而气象数据外部关联价值的挖掘,有待于科学数据社会共享良好环境的建立。    (2)目前气象数据体量虽大,但其增速缓于摩尔定律。在未来的数年或十余年后,其体量将渐

41、趋于适中。因此“气象大数据”的称谓将是暂时的。    (3)气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。    (4)“云存储”将是未来海量气象数据最合理的存储管理形式。    6、结语    “气象大数据”是暂时的,它终将回归到自己应有的位置,做为全社会“大数据”的组成部分之一。气象数据是汇聚自然界与气象有关的信息聚合体,其核心价值是支撑气象业务;但其自身价值并未被穷尽。

42、通过努力,有可能在其中挖掘出新的价值,并因之开辟新的业务领域。    气象数据对于全社会而言,是极其珍贵的数据和信息资源。我们期待着气象数据在跨行业综合应用这一“外部关联价值”挖掘过程中焕发出新的耀眼光芒。而在此之前,气象预报服务产品的广泛社会应用,将是气象部门履行职责,服务社会的工作重点;它与气象数据的价值挖掘一道,成为气象业务中不可或缺的组成部分。    参考文献:    【1】ZDNET:数据中心2013:硬件重构与软件定义,ZDNET企业解决方案中心年度技术报告。原文链接: &

43、#160;  【2】36大数据:大数据史记2013:盘点中国2013行业数据量 <    原文链接:<    【3】张瑾:大数据是用传统方法无法解决的数据问题,和讯科技:2012年11月30日10:59    原文链接:<    【4】QX/T 102-2009气象资料分类与编码行业标准    【5】英维克托·迈尔-舍恩伯格,肯尼思·库克耶:大数据时代,浙江人民出版社,2013年1月,第一版

44、0;   【6】胡小明:“大数据启发新思维”,第二届大数据应用论坛大会报告,    原文链接:· 气象与大数据 · 时间:2014-03-24 08:47:12 来源:未知 作者:宣传与科普中心 点击数: 194 世界发展的趋势之一就是信息化,不同数据之间相互交叉编织成立体的、密集的信息网,在其中的任何一个数据都可能有它的用途。那么,如何从气象角度看大数据呢?特别的大数据气象历来同数据打交道    在一些人眼中,气象部门的主要职责是预报天气。然而,在世界各国的经济生活中,不少行业,如农业、交通业

45、、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关,随着气象在社会生产生活中越来越受重视,气象业务也在不断地拓宽领域,从最基础的天气预报到现有的气候预测、气候可行性论证、公共气象服务、专业专项气象服务、气象防灾减灾等,气象业务仍将继续拓展,把气象产品送到更多人手中,为社会创造财富、减轻损失。    毫不夸张地说,气象部门就是一个超大的“数据库”,里面存储了海量的数据。从业务角度对气象数据进行划分,包括气象观测数据和气象产品数据。    计量和记录一起促成了数据的诞生,它们是数据化最早的根基,气象观测数据是开展各项气象业务

46、的基础。我们平时从电视、报纸或者网站获取的看似简单的天气预报信息,在其后都有非常庞杂的数据采集作支撑,包括全国2000多个地面站、120多个高空探测站、6颗在轨卫星、5万多个自动监测站、600多个农业监测站、300多个雷达站等,逐日逐小时甚至到逐分钟扫描着中国出现的各种各样的大气数据。仅就贵州来说,每天有85个气象站、3000多个区域自动气象站、7部新一代多普勒天气雷达、2个探空雷达站实时监测各类气象要素。我们每日接收到的天气预报信息,就是由如此庞杂的数据,再加上欧亚甚至全球的所有气象数据,通过筛选、运算、分析等一系列复杂的工序得到的。随着预报业务的不断发展,这些数据将更加精密,数量也将继续增

47、加。    随着各行各业对气象信息的需求越来越大,简单的晴雨气温预报早已无法满足社会的需要。针对不同领域、不同行业、不同群体,气象部门要制作相应的气象产品,例如提供给政府的决策气象服务,水利、电力、交通、农业等部门对气象也各有需求,各类企业对气象信息的需求也不一样,有的关注降水,有的关注气温,有的关注灾害,有的关注风速风向,而且在不同时间、不同地域,各行各业对气象的需求也不一样。仅就一般公众来说,对天气预报的需求也不限于是否下雨、温度如何升降了,他们渴望更精细、更准确、更长时效的预报,甚至需要气象部门直接指导他们的生活。气象产品越来越庞杂,内容越来越丰富,构成了气

48、象大数据中的一部分。 引爆气象大数据挖掘大数据在气象上的运用    量化一切,是数据化的核心。长期以来,无论是观测业务、预报预测业务还是科研工作,气象工作者们都一直在做着量化的努力。就气象数据自身来说,我们可以由已知的数据模拟得到过去几千年、几万年甚至更久以前的气象数据,也可以通过这些数据去预测多年后的气象环境,当然,在这其中还需要量化其他非气象因子。大数据时代观点认为,对大数据进行相对简单的相关运算永远比对小数据进行复杂运算得出的结果准确,在一定程度上来说,气象部门一直在做这样的事,例如我们常用到的“遥相关”、“模式耦合”等运算方法,正是在寻求气象要素

49、之间,以及气象与其它事物之间的相关关系。    当然,一旦我们完成了对大数据的相关关系分析,我们将不仅仅满足于知道“是什么”,而会继续更深层次地研究因果关系,找出背后的“为什么”,这就是气象科研工作者每日在忙碌的事情了。    气象工作的最终目的是服务。气象部门现有的服务包括面向政府的决策气象服务,面向社会群体的公众气象服务,面向水利、电力、交通、农业以及其它部门或企业的专业专项服务,以及针对干旱、暴雨洪涝、森林火险、冰雹、雷电等灾害性天气的气象灾害预报预警服务。    防灾减灾是气象部门最重要的职责之一

50、,气象大数据在防灾减灾救灾中大有可为。在大数据观点中,预测是核心,而“防灾”是应对灾害的重中之重,所以气象预警信息显得尤为重要。气象预警的确定,需要非常复杂的气象数据分析,再综合地形、地貌等数据,以及预报员自身的经验分析。然而,防灾减灾的发展方向,不仅仅是完善预警系统和提高预警准确率,还要做老百姓看得懂的预警,直接指导他们防灾避灾,气象大数据必将发挥很大的作用。例如,我们可以通过某一个地方的历史灾害情况和历史气候数据,以及该地的地理信息、森林覆盖情况、居住人口数据等,提前知晓在什么天气条件下该地会出现洪涝灾害,雨要下到多大才会成灾,下那么大的雨会有多少人受灾,受灾人群要如何撤离等等,进而指导农

51、作物种植、房屋建造、建筑设施规划选址等等,从源头防灾减灾。    气象部门应用气象大数据的实例很多,实际上我们每天都在做着这样的事情。例如今年2月17日我省出现的大范围雨雪天气,17日夜间至18日白天,我省普遍出现降雪天气,有8个县出现暴雪,12个县出现中雪,52县出现小雪。全省共有83县1341乡镇降水,贵阳市区也降下中雪。    其实早在2月中旬初,我们就已经根据大量的气象观测资料以及模式资料数据分析,对这次大范围的降雪天气进行密切跟踪预报,期间多次向政府及各部门提供决策服务材料,通过各大媒体发布预报和预警信息,并针对公路、铁路、

52、民航、农业等不同领域制作相应的气象服务产品。正是通过对大量气象数据以及气象数据与交通、农业等其他领域的数据进行分析处理,才让我们做到了准确的预报和及时到位的服务,省领导作出重要批示,充分肯定了各部门之间的通力协作和联动应对,将降雪对交通运输的影响降到了最低。从大数据角度来看,这也是对各行各业之间的数据共享做出的肯定。 云计算搭载气象大数据助力防灾减灾    气象数据的大量搜集、处理和分析,对硬、软件的要求更为苛刻,传统的处理设备难以满足大数据处理的功能和性能要求。大数据与云计算是一个问题的两面,一个是问题,一个是解决问题的方法。  &

53、#160; 云计算是大数据时代的基础。当越来越多的需求出现时,向虚拟的“云端”提出申请,“云端”为该需求迅速组织计算资源,而在计算结束并将结果反馈后,“云端”又可将这些临时组织起来的资源快速释放。这样既提高了资源利用率,也使得我们不必为了复杂的运算一味追求昂贵的超级计算机。    云计算使得大数据处理更方便、更快速、更省时省力,这在气象防灾减灾中意义重大。要提高预报预警准确率、科学评估灾害,必须要纳入除气象数据以外的大量其他各行各业的数据,传统的设备无法快速处理,这无疑是和生命财产安全抢夺时间,而云计算可以很好地规避这个问题。 打破“数据壁垒”气象大数据

54、将大有作为    总的说来,气象大数据也就是气象数据加上行业数据分析得出事情变化规律和对未来的一些预测,也就是说,要在不同数据之间确立一定的规则,对未来进行预测。气象数据能做这样的事情是由于其客观、稳定、量大,而且气象数据和各行各业的相关性非常高。气象与经济发展和社会生活息息相关,因此,发展气象大数据大有作为,一定能为国家、为社会创造更多的财富。    气象部门是高科技部门,积累了大量的数据,无疑这些数据都是宝贵的资源和财富,要充分挖掘这些资源的价值,利用好这些资源,与政府部门、企业、社会组织等紧密合作,才能提供更贴近民生、贴近生产、

55、贴近实际,并且更为准确、更个性化的气象服务产品。气象大数据对创造和增长社会财富有重要意义,比如说能源,可以通过分析电力负荷历史,加上气象数据进行用电量估算;比如农业,可以通过某一地的农耕历史加上气候信息就可以进行农作物结构调整指导;还有交通,航班准点率历史加上机场历史天气特征,就可以得到航班延误预测;再有公共卫生,通过门诊量和药品销量加上气象历史就可以推测发病率趋势;在饮品方面,通过销量和气象要素关联就可以掌握销量变化。    然而,在实现气象大数据的过程中,“数据壁垒”是一个实实在在的障碍。我们需要建立双方及多方的信息基础环境进行数据融合,对各个行业的数据都需要

56、融合深度分析。所以,用好气象大数据,必须打破各行业之间的“数据壁垒”,真正做到数据共享,才能更大地实现气象大数据的价值,从而更大程度减轻灾害损失,为社会创造更多的财富。(文:张蕾/指导:汤筑强) 大数据时代:气象应用与时俱进标签: 大数据 2014-05-15 14:46当前,信息技术的创新正在改变着我们熟悉的生活和工作方式。在大数据时代,与气象事业发展密切相关的气象数据再次成为焦点。气象的大数据时代真的到来了吗?近日,记者就上述问题采访了国家气象信息中心副总工程师沈文海、中国科学院自动化研究所研究员张文生。大数据到底有多“大”?IBM研究表明,在整个人类文明所获得的全部数据中,有9

57、0%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。根据国际数据公司IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番。数据量暴增的速度令人瞠目结舌,我们已进入“大数据时代”。张文生说:“事实上,智能终端的大量应用,如聊微信、刷微博、手机支付,让越来越多的用户贡献了越来越多的数据。”记者了解到,就数据量而言,中国的大数据主要有以下几类:互联网,大约有2EB的数据。电信、金融、保险、电力、石化系统每个系统大致都拥有10PB以上的数据;在公共安全、医疗、交通、电子政务领域,一个中等规模城市每年大约产生300PB。在商业销售、制造业、农业、物流和流通等领域

58、,数据量尚处于积累期,体量不大,多的达到PB级别,基本约在数十TB到近百TB级别。对于气象数据来说,“气象部门需要永久保存的数据目前约有4PB5PB,年增量约1PB。”沈文海介绍,相对而言,气象数据较上述数据大户至少低3个数量级。气象数据是大数据吗?“大数据就是全体数据,是混杂数据,不必追究数据的来源。”张文生介绍。目前,对大数据的特征,科学界已达成了共识,就是大体积、多样性、高速度和价值大。“体积巨大是大数据的最根本的特征。一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。”沈文海介绍。类型和来源的渠道繁多是大数据的第二个特征。此外,生成速度快、处理时效高、价值巨大也是大数据的特征。

59、“在体积上,气象数据刚刚达到大数据的准入门槛。”沈文海分析道:目前,在所有气象资料中,地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占数据总量的90%以上,堪称“四大金刚”。气象数据来源种类繁多,仅气候工作特用资料就包括冰芯、花粉、树木年轮、洋流盐度、地表植被等观测资料,已达数十种。沈文海说:“这些数据虽然种类多,但都是只用于气象领域的科学数据,来源较为单一。”众所周知,基本的气象数据直接用途是气象业务、天气预报、气候预测以及气象服务。“大数据应用”与目前的气象服务有所不同,前者是气象数据的“深度应用”和“增值应用”,后者是既定业务数据加工产品的社会推广应用。“不宜将气象预报产品的社会

60、化推广应用简单地冠以气象大数据广泛应用的名称,因为产品应用与气象数据的大小无关,如此冠名将易导致概念的混乱和气象大数据的简单化。”沈文海表示。气象数据要如何发展?大数据时代已经到来,气象数据如何发展是气象工作者关注的重点。“目前,社会上的大数据应用大多局限在数据基本价值的深度应用挖掘方面。”张文生说。除了大家知道的天气预报等,现在,气象行业的公共服务职能越来越强,面向政府提供决策服务,面向公众提供气象预报预警服务,面向社会发展,应对气候发展节能减排。这些决策信息怎么来依赖于我们对气象数据的处理。采用统计分析方法对海量数据进行分析处理,发现其中某些特定要素之间的关系,这是到目前为止,所有“大数据

61、应用”成功案例的共同特征,即便“大机器学习”等目前备受推崇的大数据时代新事物也无例外。“大数据的核心就是预测”,这是大数据时代的作者舍恩伯格的名言。“如果这一断言是准确的话,那么气象数据的大数据应用时代也许还没有到来。”沈文海分析道。天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了也就是说,目前经典的大数据应用方法并不适用于天气预报业务。“既然预测是大数据的核心,那么对于天气预报这

62、一气象领域核心预测业务而言,其大数据应用除了统计分析方法外,还有什么别的方法吗?”沈文海说道。气象数据是整个气象行业的基础资源,它的价值在气象行业内部已经和正在被深入挖掘着。对于全社会而言,气象数据也是极其珍贵的信息资源。我们期待着气象数据在跨行业综合应用这一“增值应用”价值挖掘过程中焕发出的新的光芒。面对社会上沸沸扬扬的大数据风潮,观察一下国外气象同行们的反应不无裨益尤其是身处大数据风潮发源地的美国气象同行。当你了解到这些国外(尤其是发达国家)气象同行对于大数据风潮近乎一致的冷漠反应时,你的头脑也许会冷静下来,并产生如下疑问气象大数据时代真的到来了吗?来源:中国气象报权限:公开   来自:labs 声明: 本文仅代表作者个人观点。其原创性及文中表达的意见、判断、数据、观点和陈述文字等内容均与中国移动研究院无关。移动Labs博客致力于为ICT领域的研究者及从业者提供技术和业务交流的网络平台,对本文中全部或部分内容的真实性、完整性不作任何保证或承诺,仅供读者参考交流。 大数据如何应对成长的“烦恼”. 下一篇 >> 大数据如何应对成长的“烦恼”?标签: 大数据 2014-05-23 11:25今天,已经几乎没有人会再怀疑大数据的价值,人们更加关心的是如何真正将大数据推向应用,真正发挥其价值。但是,尽管业界不乏探索,但客观

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论