版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、气象数据的“大数据应用”浅析2014-03-24 17:03:19作者:国家气象总局沈文海 来源:CIO时代网摘要:气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。关键词: HYPERLINK /tag.php?tag=%E6%B0%94%E8%B1%A1%E6%95%B0%E6%8D%AE 气象数据 HYPERLINK /tag.php?tag=%E5%A4%A7%E6%95%B0%E6%8D%AE 大数据1、引引言 据统计计,20111年全球的数数据规模为11.8ZB,这些信息将将填满5755亿个32
2、GGB的ipaad,以这些些ipad做做砖石,足可可以垒建起两两座中国的万万里长城。而而到20133 年,仅中中国当年产生生的数据总量量就已超过00.8ZB,2倍于20012年,相相当于20009年全球的的数据总量。预预计到20220年,中国国产生的数据据总量将是22013年的的10倍,超超过8.5ZZB.【1】而而届时全球的的数据总量预预计将达到440ZB,如如果将这些数数据全部刻录录成蓝光光盘盘,则这些光光盘的总重量量相当于4224艘满载荷荷的尼米兹航航空母舰。 数据量量暴增的速度度令人瞠目结结舌,我们的的确已进入“大数据时代”. 很快地地,“地理大大数据”、“水水利大数据”、“环环境大数
3、据”、“金金融大数据”、“互互联网大数据据”乃至“气气象大数据”等名名词陆续出现现在有关媒体体上。“大数数据”逐渐成成为近来人们们谈论最多、思思考最多的技技术话题之一一。一些人憧憧憬于“大数数据”可能带带来的十分珍珍稀的高价值值信息和珍贵贵商机,也有有许多人困惑惑于目前所知知“大数据”的应应用范式,以以此研判着可可能给本行业业带来的变化化和新的业务务契机-气气象部门也是是如此。 做为抛抛砖引玉,笔笔者拟就如下下问题提出自自己的看法: (1)气象数据是否具备“大数据”的核心特征? (2)业业界公认的“大数据应用”的主要形态是什么? (3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要
4、首先具备哪些必要条件? (4)气气象信息技术术领域当务之之急需要解决决的关键技术术问题。2、大大数据的现实实以及气象数数据的体量构构成 2.11大数据的行业业分布 就数据据量而言,中中国的大数据据近期具有如如下行业分布布特征: (1)互互联网公司 目前国国内的互联网网公司,拥有有总计约2EEB的数据,而而其中的互联联网三巨头BBAT(百度度、阿里巴巴巴、腾讯)占占有了其中的的3/4(约约1.5EBB)。 (2)电电信、金融、保保险、电力、石石化系统 这些行行业及企业数数据量分布较较为平均,就就每个企业(或或运营商、部部门)而言,大大致都拥有110PB以上上的数据,且且年增量都在在PB级以上上。
5、总和则有有数百个EBB的存储数据据和数十EBB的年增量。 (3)公公共安全、医医疗、交通、电电子政务领域域 城市:随着平安城城市、智慧城城市等工程的的推进,监控控摄像头遍布布大街小巷。一一个中等规模模城市每年视视频监控产生生的数据约3300PB.最保守估计计(含定期循循环清除),每每年能够保存存下来的数据据在数百PBB以上。 交通:飞机航班往往返一次产生生的数据达TTB级。列车车、水陆路运运输每年产生生并保存下来来的各种数据据视频、文本本类数据约达达数十PB. 卫生:整个医疗卫卫生行业,一一年保存下来来的数据可达达到数百PBB. 电子政政务:一个智智慧城市的电电子政务所产产生的数据每每季度约达
6、2200PB.而调查显示示,未来12年中国政政府部门的数数据规模超过过100TBB的将达到553.3%,有将近三成成(33.33%)的用户户数据规模是是10500TB. (4) 其他,商业业销售、制造造业、农业、物物流和流通等等领域 随着产产业互联网的的普及,(线线下)商业销销售、制造业业、农林牧渔渔业、(线下下)餐饮、食食品、科研、物物流运输等等等这些传统行行业的数据量量将呈现迅速速增长态势,但但目前这些行行业数据量尚尚处于积累期期,体量不大大,多的达到到PB级别,基基本约近百TTB甚至数十十TB级别。【22】 (5)气象数据 气象部部门需要永久久保存的数据据目前约45PB,年年增量约1PP
7、B. 由此可可见,以数据据量而言,在在整个大数据据市场中,新新兴的互联网网行业巨头BBAT,以及及电信、金融融、保险等行行业占据比重重较大。相对对而言,气象象数据无论总总量还是增量量,较这些数数据大户至少少低3个数量量级。 2.22大数据的特征征 早在22012年,业业界便已就大大数据在体积积、类型、速速度和价值这这四个方面的的特征达成了了共识,即所所谓大数据的4VV特征: Vollume(大大体积):体体积巨大是大大数据的最根根本的特征,体体积不足够大大,任何数据据都不能称之之为“大数据据”.一般而而言,大数据据的起始计量量单位至少是是PB、EBB或ZB级别别。 Varriety(多多样性)
8、:类类型和来源渠渠道繁多是大大数据的第二二个特征。大大数据非但体体积巨大,而而且内容繁杂杂,数据种类类繁多,包括括网络日志、音音频、视频、图图片、地理位位置信息等等等;这些种类类繁杂的数据据来源于多种种不同的渠道道。多类型的的数据对数据据的处理能力力提出了更高高的甚至全新新的要求。 Vellocityy(高速度):生成速度快快,处理时效效要求高,这这是大数据区分于于传统数据采采集、汇聚、处处理乃至数据据挖掘等方面面最显着的特特征。 Vallue(价值值稀薄):数数据价值密度度相对较低,这这是大数据的第四四个特征。根根据业界专家家的看法,大大数据里蕴藏藏着的信息无无所不包,任任何人所需要要的任何
9、信息息,都可以从从大数据里寻找找到。只是这这些信息隐藏藏在大数据的汪洋洋大海之中,寻寻之如同大海海捞针,人们们需要研究出出类似沙里淘淘金的办法,才才能在有效的的时间内将所所需信息寻找找到。因此如如何通过强大大的机器算法法更迅速地完完成数据的价价值“提纯”,是大数据时代亟亟待解决的难难题。当然,还还有一些人将将对大数据“Vaalue”的的理解确定在在“价值丰富富”的层面上上;而最早提提出“大数据据”概念及特特征的Garrtner公公司和麦肯锡锡公司,甚至至至今仍坚持持特征“3VV”(Vollume、VVarietty、Vellocityy)论,认为为“Valuue”不能作作为大数据的特征征【3】
10、。限限于篇幅,不不予展开讨论论。 需要注注意的是,在在此“4V”(或或“3V”)特特征中,“VVolumee”(体量巨巨大)仅仅是是成为大数据据的必要条件件,而非充分分条件,如同同 30mmm的日降水,在在我国东南沿沿海地区十分分平常,但在在西北地区却却可算罕见大大雨,所以体体量大小是相相对的。事实实上,大数据据概念的提出出绝非仅因为为数据量的暴暴增,而且是是因为数据已已多得用传统统方法无法应应对或处理,导导致人们必须须采用新的方方法、新的思思路乃至新的的理念予以应应对。如果数数据量虽大,但但却能够处理理和掌控,便便不能称其为为“大数据”.因因此,“4VV”对于大数数据而言,既既是特征,也也是
11、考量的四四个维度。 2.33气象数据的体体量种类分布布 气象资资料种类较多多,就体积而而言,其中的的地面观测、气气象卫星遥感感、天气雷达达和数值预报报产品四类资资料占据总量量的90%以以上,其中: 地面观观测资料:因因二十一世纪纪以来观测方方法从人工观观测改进为自自动观测,摆摆脱了人类居居住条件限制制的制约,台台站数由本世世纪初的不到到3,0000个,迅速扩扩展到目前的的40,0000多个,观观测频度由最最初的3小时时/次调整到到目前的5分分钟/次,因因而导致资料料量呈几何倍倍数增涨,月月增量由最初初的约2400MB猛增到到现在的约22.4TB,增幅约4个个数量级。根根据防、减灾灾以及气象服服
12、务的需要,未未来扩建计划划有可能将台台站数继续扩扩增至70,000到1100,0000个,观测测频度有可能能继续加密到到1分钟/次次;因此未来来六年内该类类资料总量有有可能在现有有基础上再行行扩增122个数量级,由由现在的每天天数百万条记记录增至超过过一亿条记录录/天。 天气雷雷达资料:按按照天气雷雷达近期发展展规划(20005-20010)以以及气象发发展规划(22011-22015)中中“新一代天天气雷达建设设增补站点布布局方案”,目前在全国国已布设约2200部不同同波长的多普普勒天气雷达达,并为达到到雷达资料全全社会共享的的目的,已基基本实现724小时全全天候不间断断观测;日增增总量约3
13、000GB. 气象卫卫星资料:根根据我国气气象卫星及其其应用发展规规划(2011120220年),至至2020年年,我国计划划发射11颗颗气象业务卫卫星,包括33颗风云二号号03批卫星星,3颗风云云三号上午星星、2颗风云云三号下午星星、1颗降水水测量雷达星星以及2颗风风云四号光学学星。此外还还将在20220年前发射射2颗气象试试验卫星。【数数据量待补充充】目前的日日增总量约数数百GB,未未来有可能增增加到数TBB/日。 数值预预报产品:与与地面观测、气气象卫星和天天气雷达等气气象观探测资资料不同,气气象数值预报报模式资料属属于气象观探探测资料的加加工产品。以以GRAPSS、T6399为代表的天
14、天气预报模式式,以及以BBCC_CSSM2、DEERF2.00为代表的气气候预测模式式,每天都在在实时运行,不不断产生着数数以万计的各各类要素场,以以供国家级、省省级乃至区域域级预报员参参考使用,日日增量接近TTB级。 在上述述四类数据之之外,气象资资料尚有高空空探测、地面面农气观测、沙沙尘暴观测、闪闪电定位观测测、风廓线雷雷达探测等等等许多种,但但就体积而言言,较上述四四类资料至少少低一个数量量级,难以将将其称之为“大数据”. 因此,如如果就体积而而言,气象资资料可勉强算算得上“大数数据”,也是是因为地面观观测、气象卫卫星、天气雷雷达和数值模模式这四大金金刚将气象资资料的体积撑撑大而成的。3
15、、“气气象大数据”的的特征分析气象数数据的体积虽虽大,却有其其独特的特征征: (1)体体积虽大但总总量可控 这里对对地面观测、气气象卫星遥感感、天气雷达达和数值预报报产品这四类类体量最大的的气象数据进行行分析: 地面观观测资料数据据量剧增的原原因,是站点点数的增加和和观测频度的的大幅加密。然然而,这种台台站规模的扩扩充和观测频频次的加密是是基于预报和和服务需求,经经过严格科学学论证,有计计划有步骤逐逐步推进的;在观测台站站达到一定密密度,观测频频度足以满足足气象业务需需求后,台站站数不会无限限制持续增加加,观测频度度更不会无节节制地永远加加密下去,因因此总量既是是可预测的,更更是可控的。 对天
16、气气雷达而言,布布网工作已基基本完成,雷雷达总量不会会有成倍数的的增加。而且且目前的天气气雷达已基本本实现7224小时全天天候不间断观观测。因此天天气雷达的资资料量(年增增量),将稳稳定相当长一一段时间,而而不会有倍数数的增量变化化。 未来数数年内,我国国还将发射数数颗气象卫星星,每颗卫星星都会产生数数百TB级的的数据年增量量。为满足气气象卫星资料料的应用时效效,国家卫星星气象中心针针对每一颗气气象卫星,都都建有相应专专属的地面接接收处理系统统,已完全实实现所有气象象卫星遥测遥遥感资料的实实时接收处理理。因此气象象卫星数据目目前虽以每年年数百TB的的量级增长,而而且规模有可可能继续扩大大,但却
17、始终终处于可控可可管和完全可可用状态。 数值预预报模式产品品资料是各级级预报员最重重要的预报参参考资料,这这些产品甫一一生成,便即即刻送达天气气预报、气候候预测专家的的桌面,供其其业务参考使使用;同时以以满足业务需需求的时效,分分发至各省级级乃至地市级级气象部门,供供其本地化应应用。因此与与气象卫星资资料相类似,数数值预报产品品资料体积虽虽大,却始终终处于可控可可管和可用的的状态,未来来也将始终如如此。 因此,气气象资料体积积虽大,在量量级上算得上上“大数据”,但但却始终处于于可控可管可可用状态。 (2)种种类虽多但内内部信息单纯纯,来源单一一 按照行行业标准气气象资料分类类与编码,气气象资料
18、分为为14大类,计计有数百种之之多【4】。该该标准基本涵涵盖了气象资资料的所有内内容。所以就就内容而言,气气象资料在目目前及可预见见的未来,超超不出该行标标所规定的范范围。数百种种的气象资料料种类虽多,但但每种资料所所含信息却十十分单纯:土土壤持水量只只记载某时某某地某规定土土壤深度中水水份的持有程程度,“云能能天”只记录录某时某地的的云量云状、能能见度以及天天气现象等信信息。这与互互联网大数据据如电子邮件件、微信、微微博中所包含含的社会百态态、生老病死死、喜怒哀乐乐、柴米油盐盐酱醋茶等所所有信息有很很大差异。究究其原因,海海量气象数据是由由气象探测系系统以及数值值预报业务系系统产生的,来来源
19、比较单一一;而互联网网大数据则由人人来提供的,它它来源于人类类社会的方方方面面和各个个角落,是人人类活动的实实况记录。 (3)价价值单一而明明确 气象观观探测业务系系统只采集那那些能够客观观反映自然界界气象状态的的要素,所以以气象观探测测数据里包含含且只包含丰丰富的气象信信息,而以观观探测数据为为唯一数据和和信息来源的的气象数值模模式,其生成成的产品中所所包含的信息息也只能是局局限于未来天天气或气候状状态的预测。因因此所谓“气气象大数据”,其其自身的直接接用途只能是是气象业务,即即:天气预报报、气候预测测以及气象服服务。 麦肯锡锡公司和Gaartnerr公司始终认认为:“大数数据是用传统统的架
20、构、传传统的技术方方法无法解决决的数据问题题”【3】;而由上分析析可知,气象象数据始终处处于可管、控控、用状态,虽虽然随着数据据体积的不断断膨胀,以及及原有管理和和处理技术架架构的陈旧,逐逐渐出现性能能下降、时效效减慢等现象象,但并非没没有解决的技技术手段。因因此应当说,气象数据是“大数据”的组成部分之一,但其自身并不完全具备“大数据”的所有特征。从这个观点考察,以体积硕大为由称气象数据为“大数据”十分勉强,而且较易产生观念和认知上的混乱;因为衡量体量大小的标准是在不断变化的。信息技术的发展突飞猛进,处理及存储能力依摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超摩尔定律的膨胀
21、能力,数年后便很有可能萎缩成中等甚至中等以下规模的数据;这样的事例在IT界俯拾皆是。4、应应用分析展望望 4.11大数据带来大大变革 大数数据时代的的作者就大数数据带给人们们思维方面的的变革,提出出了三个观点点: (1)当当数据处理技技术已发生翻翻天覆地变化化时,在大数数据时代进行行抽样分析已已经过时。人人们进行分析析的对象已不不是抽样数据据,而是所有有的数据,即即:“样本 = 总体”. (2)执执迷于精确性性是信息缺乏乏时代和模拟拟时代的产物物,只有接受受不精确性,我我们才能打开开一扇从未涉涉足的世界的的窗户。 (3)知知道“是什么么”就够了,不不必知道“为为什么”.在在大数据时代,我我们不
22、必非得得知道现象背背后的原因,而而是要让数据据自己“发声声”.【5】 而对于于大数据的价值值,该书作者者认为,“数数据就像一个个神奇的钻石石矿,当它的的首要价值被被发掘后仍能能不断给予”,它目前展现现在人们面前前仅仅是其总总价值的“冰冰山一角”.对此,胡小小明先生的理理解是:虽然然一些数据所所蕴含的其所所属领域的内内部规律(即即所谓“首要要价值”)已已被本领域专专家充分发掘掘,但如果将将这些数据与与其它领域数数据相链接,却却有可能发现现出许多意想想不到的相关关关系,即所所谓“丰富的的未知价值在在领域的外部部”.【6】 因此,数数据的价值由由“内部自身身”和“外部部关联”两部部分组成:内内部自身
23、价值值是指该数据据自身所包含含的所有信息息对其所属企企业和部门业业务工作的支支撑、以及开开拓业务领域域的作用;而而外部关联价价值则是指该该数据与外部部企业、领域域和行业数据据进行深度结结合以及具有有创意的分析析思路和有效效的处理方法法,从而发掘掘出新的、超超出所属企业业和部门原有有业务范围的的、传统思维维所意想不到到的、具有开开创意义的信信息,众多企企业和行业部部门可由此了了解并掌握用用传统思维和和方法无法获获得的事实,并并因此可创造造出新的经济济和社会价值值。无论是否否处于“大数数据时代”,数据的价值值概莫能外。而而所谓“大数数据应用”,是由于近二二十余年来,各各行业信息化化程度逐渐提提高,
24、互联网网及其丰富的的应用逐渐渗渗透到人类社社会各个阶层层的方方面面面,在使得人人们的工作和和生活更加舒舒适、方便、快快捷和安全的的同时,也将将社会上各方方面信息通过过网络(尤其其是互联网)采采集并收集管管理起来,从从而导致社会会上数据总量量以令人瞠目目结舌的速度度暴增,而这这些暴增起来来的数据也逐逐渐呈现出与与此前数据所所不同的性质质和特征(即即所谓“4VV”特征)。由由于此时的数数据具有Vaarietyy(多样性)的的特性,所含含信息种类较较之此前大大大增加,人们们有可能通过过分析这些信信息,获得以以前不可能得得到的新的知知识、预测信信息,激发出出新的开拓性性思维,乃至至开创新的业业务领域。
25、 4.22 “大数据据应用”成功功案例分析 “大数数据时代”伴伴随着“大数数据应用”.通过分析众众多媒体、专专着上所刊载载的各个“大大数据应用”成成功案例,不不难发现三个个事实: (1)所所分析的数据据都是企业自自身所拥有的的 所有成成功案例都是是企业通过分分析自身拥有有的数据而产产生的。这里里既没有谷歌歌通过分析诸诸如沃尔玛等等跨领域跨行行业部门的数数据而得到有有价值信息的的成功案例,也也没有阿里巴巴巴通过分析析类似腾讯或或百度等同为为互联网运营营应用的兄弟弟企业的数据据而获益的案案例。不是这这些公司没有有分析能力,而而是对方的数数据无法获取取到。所有成成功案例都是是该企业通过过分析本企业业
26、所拥有的数数据-“大数数据”-所获获得的。跨行行业、跨部门门甚至跨企业业的数据联合合分析应用的的成功案例难难觅其踪。因因此所有这些些成功案例,都都是数据内部部自身价值的的被挖掘。 (2)所所分析的数据据对象中所需需要的信息足足够丰富 沃尔玛玛能够分析出出婴儿纸尿布布与啤酒销量量之间的正相相关关系,是是因为其数据据库中包含所所有本系统连连锁店中所有有商品的销售售记录,包括括啤酒和婴儿儿纸尿布。阿阿里巴巴企业业能够提前半半年预测出22008年北北美将爆发经经济危机,是是因为其数据据库中详细记记录了数年来来世界各地与与阿里集团的的每一笔订单单和询单,可可从中统计并并发现出其异异常变化以及及变化的区域
27、域分布。美国国中央情报局局能够通过对对电子邮件的的筛选探知出出几十起针对对美国的恐怖怖袭击计划,并并提前采取相相应措施,是是因为恐怖分分子使用电子子邮件进行通通信联络,留留下了相关的的痕迹。相反反,我国金融融行业数据量量巨大,但分分析师们却绝绝不可能通过过分析金融数数据来预测天天气和气候,因因为金融数据据中不包含任任何与气象有有关的信息;反之亦然。 所以,大数据应用成功案例中最重要的一点,就是这些企业所分析的数据对象中包含了可能需要的所有信息,只不过这些信息在整体数据的汪洋大海中十分稀少,需要采取非传统的、被称之为“大数据”技术的处理手段、在规定的时效内挖掘出来。 (3)大大多是新兴的的或信息
28、化时时间不长的企企业(行业) 这些成成功案例企业业或是近十几几年来方才崛崛起的新兴互互联网企业(如如:谷歌、亚亚马逊、阿里里巴巴、腾讯讯等);或是是行业历史虽虽然悠久,但但信息化建设设历程并不久久远(如:沃沃尔玛超市等等),所拥有有信息的内在在价值尚未真真正有效地挖挖掘出来。 由此可可知,目前业业界众口称道道的“大数据据应用”成功功案例,基本本上都属于数数据内部自身身价值的挖掘掘和展现,而而且数据内部部的信息种类类十分丰富。相相对而言,数数据“外部关关联价值”的的挖掘和展现现在业界和社社会上尚未成成为主流形态态。4.3气象数数据的“大数据应用”前前景预期 气象行行业是信息化化建设较早的的行业,
29、气象象科学家分析析研究气象数数据已有近百百年的历史。直直到目前,气气象数据的核核心内容并未未发生根本性性变化,近年年来所增设的的新的探测手手段(如气象象卫星、天气气雷达等),其其探测信息最最终都将反演演成温、压、湿湿、风以及云云能天等有限限的几个气象象要素,以供供业务及科研研使用。而这这些要素之间间的物理关系系,早已被动动力气象学解解释清楚。已已有数十年历历史的传统的的统计气候业业务,正是采采用复杂的统统计方法,对对气象要素进进行时间、空空间分布方面面的详尽分析析,发现其中中的规律,进进而完成气候候统计预测的的。因此气象象数据中常规规探测部分(如如:地面观测测、高空探测测等)对于气气象行业而言
30、言,其常规的的基本价值(对对天气预报、气气候预测以及及其它专业气气象预报的贡贡献)已被充充分认识并挖挖掘。而其中中可能潜藏的的反映本领域域内天气或气气候规律的新新的信号,正正在由数以千千计的气象科科学家们分析析研究着。 相对而而言,非常规规观测资料中中的气象卫星星和天气雷达达资料,与“大数据应用”成功案例的特点较相吻合。以气象卫星数据为例:虽然气象卫星是用来获取与气象要素相关的各类信息的,然而在森林草场火灾、船舶航道浮冰分布等方面,气象卫星却同样也能发挥出跨行业的实时监测服务价值。究其原因,气象卫星视野的广阔和搭载探测设备种类的多样化,以及各类仪器设备所获信息之间、卫星数据与其它种类气象资料(
31、如地面观测数据)之间综合应用的可能性,占据了绝大比重。气象卫星每批次(型号)所搭载的探测仪器设备都较前批次(或型号)有所调整和增加,因此每颗卫星都有可能产生新的遥感产品,除首先应用于气象行业的预定应用外,几乎都含有行业外新的服务应用的可能,从而可使气象部门得以不断扩展新的业务领域。 天气雷雷达数据与此此类似,限于于篇幅,不再再展开讨论。 所以,虽虽然海量气象象数据属于专专业感知领域域,所含信息息量丰富而内内容单纯-只包含(且且富含)与气气象有关的信信息,并且其其内部自身价价值中的常规规内容已被充充分挖掘并应应用于气象业业务,可能深深度蕴藏的内内部自身价值值正在艰难地地挖掘中(已已属于科学问问题
32、),但这这并不意味着着气象数据的内内部自身价值值已被挖掘殆殆尽。气象卫卫星、天气雷雷达等非常规规遥感遥测数数据中包含的的信息十分丰丰富,有可能能挖掘出新的的应用价值,从从而拓展气象象行业新的业业务领域和服服务范围。然然而这一切,首首先需要管理理者具有敏锐锐捕捉行业外外服务需求的的能力,其次次则需要一支支召之即来、来来之能战、战战之能胜的服服务产品研发发科技团队,而而且需要积极极进取和勇于于担当的领导导素养以及完完善的机制配配合。那种小小心翼翼、循循规蹈矩的行行为方式,难难以适应服务务市场瞬息万万变的状态。 与之相相对应,气象象数据“外部部关联价值”的的挖掘,则当当出现在其与与其它专业领领域数据
33、的跨跨领域跨部门门综合分析应应用过程中;而这一切的的必要条件,就就是行业间数数据的高度共共享和深度分分析应用。然然而,虽然需需求十分迫切切,呼吁也强强烈而持久,但但数据的社会会共享至今仍仍是一个世界界性难题。美美国政府多年年来年以来一一再发布政令令,要求政府府部门在规定定期限内将与与国家安全无无关的数据实实现社会共享享。在我国,早早在二十一世世纪初便由科科技部主导的的科学数据共共享试点工作作,十余年来来进展并不顺顺利,行业间间的数据并未未真正实现共共享,气象部部门获得某些些相关部门的的观测数据异异常困难,有有时不得不从从其网站上抓抓取数据表格格,经人工处处理后获得表表格中的观测测数据。因此此,
34、气象数据据通过跨行业业深度结合而而挖掘其外部部关联价值的的必要环境并并非已全部具具备。而如果果没有数据的的充分社会共共享,气象数数据的“大数据应用”便便将始终徘徊徊在“内部自自身价值”的的挖掘之中。 需要注注意的是,“大数据应用”与目前的气象公共服务有所不同:后者是既定业务数据加工产品的社会推广应用,是气象数据已挖掘出的内部自身价值(天气预报和气候预测产品)的充分展示、应用和发挥;前者则是气象数据“内部自身”和“外部关联”价值的挖掘。简言之,前者是价值产品的创新,后者是价值产品的应用。产品应用需要的是积极灵活的客户经理和及时周到的服务支持,而价值创新,对内部自身而言,需要本行业领导的高素质、科
35、学家的高度专业水准、研发团队的精干高效;对于外部关联价值而言,则须与其它相关领域原始数据的深度结合,而由于其跨行业以及数据量的浩大,这种深度结合工作所需要的是天才的跨行业创意分析师和有效地处理技术手段。 因此,不不宜将气象预预报产品的社社会化推广应应用简单地冠冠以“气象大大数据广泛应应用”的名称称,因为产品品应用与气象象数据“大小小”无关,而而如此冠名将将易导致概念念的混乱和气气象“大数据据应用”的简简单化。5 信信息技术领域域需要突破的的关键技术以以及与“云”的的关系气象数数据的广泛应应用需要突破破的关键技术术很多,其中中大部分(如如天气雷达数数据拼图等)属属于专业领域域的科学问题题,需要相
36、应应领域科学家家们的深入研研究。就信息息技术领域而而言,海量数数据的高效应应用是亟需突突破的核心技技术难题。 (1)关关键技术:海海量气象结构构化数据的高高效应用 由“22.3”分析析可知,目前前气象数据的产产生量巨大,每每时每刻如滔滔滔洪水般汹汹涌而至,传传统的技术架架构已无法应应对海量气象象数据的处理理、管理和有有效服务,以以至于有关业业务单位不得得不频繁更新新设备,用更更高档的服务务器运行传统统的关系型数数据库和文件件系统,用更更高性能的磁磁盘阵列存储储大小不一、数数量惊人的数数据文件,以以及动辄数亿亿条记录的数数据库列表,以以期能够苟且且满足当前日日益严苛的数数据处理、存存储和检索等等
37、业务要求。这这不仅造成了了资金方面的的浪费,更换换系统设备过过程中无法避避免的系统移移植和切换,也也给有关业务务和用户造成成不必要的负负面影响。分分布式处理和和存储等云计计算/大数据据技术虽然提提供了对非结结构化数据的的规范管理和和高效应用技技术,但对于于以地面观测测资料为代表表的海量气象象结构化数据据及其复杂多多变、难以预预测的应用方方式,却显得得束手无策。 地面观观测资料是气气象业务和科科研中应用最最为广泛和持持久的一类结结构化数据,被被要求永久在在线管理以提提供实时服务务。而通过“22.3”中的的介绍可知,目目前全国四万万多个地面观观测站所产生生的资料,月月增量数亿条条记录(约22.4T
38、B),未未来更有可能能膨胀到每日日上亿条观测测记录。因此此,如何运用用恰当的技术术,有效管理理海量地面观观测资料,充充分满足所有有用户对地面面观测资料的的实时检索和和分析应用,并并使系统长期期处于稳定状状态,是目前前必须解决的的核心技术问问题。虽然该该问题在世界界IT界亦属属难题,但如如果不予解决决,则海量气气象数据的应应用便存在时时效上的障碍碍,本部门业业务需求尚且且无法满足,遑遑论“大数据据应用”了。 自20013年初以以来,国家气气象信息中心心下属的气象象资料服务室室和系统设计计室的有关技技术人员,与与国内有关高高科技企业进进行联合研发发,在此领域域已有突破性性进展。相信信不久的将来来,
39、此项关键键技术将被突突破。 (2)“大数据应用”与云的关系 由于体体量的巨大,统统筹的集约化化管理大数据据显得尤为重重要,因为如如此方可以大大幅提高数据据的应用效益益,降低系统统的复杂度和和运营成本。云云计算概念的的出现以及随随之衍生出的的“云存储”等等应用架构,为为大数据的有效效管理提供了了可行的方案案。这在目前前国家级和省省级业务系统统已十分复杂杂的我国气象象部门,显得得尤为重要和和急迫。 云存储储在未来必将将是大数据的主要要管理和应用用形态,因为为在未来大数数据开放时代代,无力管理理大数据者将占占大数据应用者者中的绝大多多数;没有云云存储,大数数据的广泛应应用就不存在在。反之,如如果没有
40、大数数据及大数据应用,很很多“云”(尤尤其是“存储储云”)的价价值也难以体体现出来,二二者是相辅相相成的关系。有有关的内容及及规划,已纳纳入全国气气象信息网络络系统总体设设计之中,在在不久的将来来,将逐步予予以实现。 综上所所述,可得出出如下结论: (1)目目前社会上的的“大数据应用”大大多仍局限在在数据内部自自身价值的深深度挖掘方面面,气象数据据也是如此。相相对而言,气气象数据中的的气象卫星和和天气雷达数数据因其信息息量的较为丰丰富,有可能能在与其它资资料深度融合合的过程中挖挖掘出新的应应用价值,并并由此开拓出出新的业务领领域。而气象象数据外部关关联价值的挖挖掘,有待于于科学数据社社会共享良
41、好好环境的建立立。 (2)目目前气象数据据体量虽大,但但其增速缓于于摩尔定律。在在未来的数年年或十余年后后,其体量将将渐趋于适中中。因此“气气象大数据”的称称谓将是暂时时的。 (3)气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。 (4)“云云存储”将是是未来海量气气象数据最合合理的存储管管理形式。6、结结语 “气象象大数据”是暂暂时的,它终终将回归到自自己应有的位位置,做为全全社会“大数数据”的组成成部分之一。气象数据是汇聚自然界与气象有关的信息聚合体,其核心价值是支撑气象业务;但其自身价值并未被穷尽。
42、通过努力,有可能在其中挖掘出新的价值,并因之开辟新的业务领域。气象数数据对于全社社会而言,是是极其珍贵的的数据和信息息资源。我们们期待着气象象数据在跨行行业综合应用用这一“外部部关联价值”挖挖掘过程中焕焕发出新的耀耀眼光芒。而而在此之前,气气象预报服务务产品的广泛泛社会应用,将将是气象部门门履行职责,服服务社会的工工作重点;它它与气象数据据的价值挖掘掘一道,成为为气象业务中中不可或缺的的组成部分。 参考文文献: 【1】ZZDNET:数据中心心2013:硬件重构与与软件定义,ZZDNET企企业解决方案案中心年度技技术报告。原原文链接:hhttp:/sppeciall/dataacenteer20
43、133 【2】336大数据:大数据史记22013:盘盘点中国20013行业数数据量 , 原文链链接: 【3】张张瑾:大数据据是用传统方方法无法解决决的数据问题题,和讯科技技:20122年11月330日10:59 原文链链接: 【4】QQX/T 1102-20009气象象资料分类与与编码行业业标准 【5】英维克托托迈尔-舍舍恩伯格,肯肯尼思库克克耶:大数数据时代,浙浙江人民出版版社,20113年1月,第第一版 【6】胡胡小明:“大大数据启发新新思维”,第第二届大数据据应用论坛大大会报告, 原文链链接: HYPERLINK /bi/bzjgd/82383_3.html htttp:/m/bi/bb
44、zjgd/823833_3.httml气象与大数据 时间:20144-03-224 08:47:122 来源:未知知 作者:宣宣传与科普中中心 点击数数: 1944 世界发展的趋势势之一就是信信息化,不同同数据之间相相互交叉编织织成立体的、密密集的信息网网,在其中的的任何一个数数据都可能有有它的用途。那那么,如何从从气象角度看看大数据呢?特别的大数数据气象象历来同数据据打交道 在一些些人眼中,气气象部门的主主要职责是预预报天气。然然而,在世界界各国的经济济生活中,不不少行业,如如农业、交通通业、建筑业业、旅游业、销销售业、保险险业等,无一一例外与天气气的变化息息息相关,随着着气象在社会会生产生
45、活中中越来越受重重视,气象业业务也在不断断地拓宽领域域,从最基础础的天气预报报到现有的气气候预测、气气候可行性论论证、公共气气象服务、专专业专项气象象服务、气象象防灾减灾等等,气象业务务仍将继续拓拓展,把气象象产品送到更更多人手中,为为社会创造财财富、减轻损损失。 毫不夸张张地说,气象象部门就是一一个超大的“数数据库”,里里面存储了海海量的数据。从从业务角度对对气象数据进进行划分,包包括气象观测测数据和气象象产品数据。 计量和记录一起促成了数据的诞生,它们是数据化最早的根基,气象观测数据是开展各项气象业务的基础。我们平时从电视、报纸或者网站获取的看似简单的天气预报信息,在其后都有非常庞杂的数据
46、采集作支撑,包括全国2000多个地面站、120多个高空探测站、6颗在轨卫星、5万多个自动监测站、600多个农业监测站、300多个雷达站等,逐日逐小时甚至到逐分钟扫描着中国出现的各种各样的大气数据。仅就贵州来说,每天有85个气象站、3000多个区域自动气象站、7部新一代多普勒天气雷达、2个探空雷达站实时监测各类气象要素。我们每日接收到的天气预报信息,就是由如此庞杂的数据,再加上欧亚甚至全球的所有气象数据,通过筛选、运算、分析等一系列复杂的工序得到的。随着预报业务的不断发展,这些数据将更加精密,数量也将继续增加。 随着各行各业对气象信息的需求越来越大,简单的晴雨气温预报早已无法满足社会的需要。针对
47、不同领域、不同行业、不同群体,气象部门要制作相应的气象产品,例如提供给政府的决策气象服务,水利、电力、交通、农业等部门对气象也各有需求,各类企业对气象信息的需求也不一样,有的关注降水,有的关注气温,有的关注灾害,有的关注风速风向,而且在不同时间、不同地域,各行各业对气象的需求也不一样。仅就一般公众来说,对天气预报的需求也不限于是否下雨、温度如何升降了,他们渴望更精细、更准确、更长时效的预报,甚至需要气象部门直接指导他们的生活。气象产品越来越庞杂,内容越来越丰富,构成了气象大数据中的一部分。引爆气象大数据挖掘大数据在气象上的运用 量化一切,是数据化的核心。长期以来,无论是观测业务、预报预测业务还
48、是科研工作,气象工作者们都一直在做着量化的努力。就气象数据自身来说,我们可以由已知的数据模拟得到过去几千年、几万年甚至更久以前的气象数据,也可以通过这些数据去预测多年后的气象环境,当然,在这其中还需要量化其他非气象因子。大数据时代观点认为,对大数据进行相对简单的相关运算永远比对小数据进行复杂运算得出的结果准确,在一定程度上来说,气象部门一直在做这样的事,例如我们常用到的“遥相关”、“模式耦合”等运算方法,正是在寻求气象要素之间,以及气象与其它事物之间的相关关系。 当然,一旦我们完成了对大数据的相关关系分析,我们将不仅仅满足于知道“是什么”,而会继续更深层次地研究因果关系,找出背后的“为什么”,
49、这就是气象科研工作者每日在忙碌的事情了。 气象工作的最终目的是服务。气象部门现有的服务包括面向政府的决策气象服务,面向社会群体的公众气象服务,面向水利、电力、交通、农业以及其它部门或企业的专业专项服务,以及针对干旱、暴雨洪涝、森林火险、冰雹、雷电等灾害性天气的气象灾害预报预警服务。 防灾减灾是气象部门最重要的职责之一,气象大数据在防灾减灾救灾中大有可为。在大数据观点中,预测是核心,而“防灾”是应对灾害的重中之重,所以气象预警信息显得尤为重要。气象预警的确定,需要非常复杂的气象数据分析,再综合地形、地貌等数据,以及预报员自身的经验分析。然而,防灾减灾的发展方向,不仅仅是完善预警系统和提高预警准确
50、率,还要做老百姓看得懂的预警,直接指导他们防灾避灾,气象大数据必将发挥很大的作用。例如,我们可以通过某一个地方的历史灾害情况和历史气候数据,以及该地的地理信息、森林覆盖情况、居住人口数据等,提前知晓在什么天气条件下该地会出现洪涝灾害,雨要下到多大才会成灾,下那么大的雨会有多少人受灾,受灾人群要如何撤离等等,进而指导农作物种植、房屋建造、建筑设施规划选址等等,从源头防灾减灾。 气象部门应用气象大数据的实例很多,实际上我们每天都在做着这样的事情。例如今年2月17日我省出现的大范围雨雪天气,17日夜间至18日白天,我省普遍出现降雪天气,有8个县出现暴雪,12个县出现中雪,52县出现小雪。全省共有83
51、县1341乡镇降水,贵阳市区也降下中雪。 其实早在2月中旬初,我们就已经根据大量的气象观测资料以及模式资料数据分析,对这次大范围的降雪天气进行密切跟踪预报,期间多次向政府及各部门提供决策服务材料,通过各大媒体发布预报和预警信息,并针对公路、铁路、民航、农业等不同领域制作相应的气象服务产品。正是通过对大量气象数据以及气象数据与交通、农业等其他领域的数据进行分析处理,才让我们做到了准确的预报和及时到位的服务,省领导作出重要批示,充分肯定了各部门之间的通力协作和联动应对,将降雪对交通运输的影响降到了最低。从大数据角度来看,这也是对各行各业之间的数据共享做出的肯定。云计算搭载气象大数据助力防灾减灾 气
52、象数据的大量搜集、处理和分析,对硬、软件的要求更为苛刻,传统的处理设备难以满足大数据处理的功能和性能要求。大数据与云计算是一个问题的两面,一个是问题,一个是解决问题的方法。 云计算是大数据时代的基础。当越来越多的需求出现时,向虚拟的“云端”提出申请,“云端”为该需求迅速组织计算资源,而在计算结束并将结果反馈后,“云端”又可将这些临时组织起来的资源快速释放。这样既提高了资源利用率,也使得我们不必为了复杂的运算一味追求昂贵的超级计算机。 云计算使得大数据处理更方便、更快速、更省时省力,这在气象防灾减灾中意义重大。要提高预报预警准确率、科学评估灾害,必须要纳入除气象数据以外的大量其他各行各业的数据,
53、传统的设备无法快速处理,这无疑是和生命财产安全抢夺时间,而云计算可以很好地规避这个问题。打破“数据壁垒”气象大数据将大有作为 总的说来,气象大数据也就是气象数据加上行业数据分析得出事情变化规律和对未来的一些预测,也就是说,要在不同数据之间确立一定的规则,对未来进行预测。气象数据能做这样的事情是由于其客观、稳定、量大,而且气象数据和各行各业的相关性非常高。气象与经济发展和社会生活息息相关,因此,发展气象大数据大有作为,一定能为国家、为社会创造更多的财富。 气象部门是高科技部门,积累了大量的数据,无疑这些数据都是宝贵的资源和财富,要充分挖掘这些资源的价值,利用好这些资源,与政府部门、企业、社会组织
54、等紧密合作,才能提供更贴近民生、贴近生产、贴近实际,并且更为准确、更个性化的气象服务产品。气象大数据对创造和增长社会财富有重要意义,比如说能源,可以通过分析电力负荷历史,加上气象数据进行用电量估算;比如农业,可以通过某一地的农耕历史加上气候信息就可以进行农作物结构调整指导;还有交通,航班准点率历史加上机场历史天气特征,就可以得到航班延误预测;再有公共卫生,通过门诊量和药品销量加上气象历史就可以推测发病率趋势;在饮品方面,通过销量和气象要素关联就可以掌握销量变化。 然而,在实现气象大数据的过程中,“数据壁垒”是一个实实在在的障碍。我们需要建立双方及多方的信息基础环境进行数据融合,对各个行业的数据
55、都需要融合深度分析。所以,用好气象大数据,必须打破各行业之间的“数据壁垒”,真正做到数据共享,才能更大地实现气象大数据的价值,从而更大程度减轻灾害损失,为社会创造更多的财富。(文:张蕾/指导:汤筑强)大数据时代:气气象应用与时时俱进标签: HYPERLINK /mblog/k?sr=1&sf=4&kw=72326 大数据据 2014-055-15 114:46当前,信息息技术的创新新正在改变着着我们熟悉的的生活和工作作方式。在大大数据时代,与与气象事业发发展密切相关关的气象数据据再次成为焦焦点。气象的的大数据时代代真的到来了了吗?近日,记记者就上述问问题采访了国国家气象信息息中心副总工工程师沈
56、文海海、中国科学学院自动化研研究所研究员员张文生。大数据到到底有多“大”?IBM研究表表明,在整个个人类文明所所获得的全部部数据中,有有90%是过去去两年内产生生的。而到了了2020年,全全世界所产生生的数据规模模将达到今天天的44倍。根据据国际数据公公司IDC监测,人人类产生的数数据量正在呈呈指数级增长长,大约每两两年翻一番。数据量暴增的速度令人瞠目结舌,我们已进入“大数据时代”。张文生说:“事实上,智能终端的大量应用,如聊微信、刷微博、手机支付,让越来越多的用户贡献了越来越多的数据。”记者了解到,就数据量而言,中国的大数据主要有以下几类:互联网,大约有2EB的数据。电信、金融、保险、电力、
57、石化系统每个系统大致都拥有10PB以上的数据;在公共安全、医疗、交通、电子政务领域,一个中等规模城市每年大约产生300PB。在商业销售、制造业、农业、物流和流通等领域,数据量尚处于积累期,体量不大,多的达到PB级别,基本约在数十TB到近百TB级别。对于气象数据来说,“气象部门需要永久保存的数据目前约有4PB5PB,年增量约1PB。”沈文海介绍,相对而言,气象数据较上述数据大户至少低3个数量级。气象数据是大数据吗?“大数据就是全体数据,是混杂数据,不必追究数据的来源。”张文生介绍。目前,对大数据的特征,科学界已达成了共识,就是大体积、多样性、高速度和价值大。“体积巨大是大数据的最根本的特征。一般
58、而言,大数据的起始计量单位至少是PB、EB或ZB级别。”沈文海介绍。类型和来源的渠道繁多是大数据的第二个特征。此外,生成速度快、处理时效高、价值巨大也是大数据的特征。“在体积上,气象数据刚刚达到大数据的准入门槛。”沈文海分析道:目前,在所有气象资料中,地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占数据总量的90%以上,堪称“四大金刚”。气象数据来源种类繁多,仅气候工作特用资料就包括冰芯、花粉、树木年轮、洋流盐度、地表植被等观测资料,已达数十种。沈文海说:“这些数据虽然种类多,但都是只用于气象领域的科学数据,来源较为单一。”众所周知,基本的气象数据直接用途是气象业务、天气预报、气候预测
59、以及气象服务。“大数据应用”与目前的气象服务有所不同,前者是气象数据的“深度应用”和“增值应用”,后者是既定业务数据加工产品的社会推广应用。“不宜将气象预报产品的社会化推广应用简单地冠以气象大数据广泛应用的名称,因为产品应用与气象数据的大小无关,如此冠名将易导致概念的混乱和气象大数据的简单化。”沈文海表示。气象数据要如何发展?大数据时代已经到来,气象数据如何发展是气象工作者关注的重点。“目前,社会上的大数据应用大多局限在数据基本价值的深度应用挖掘方面。”张文生说。除了大家知道的天气预报等,现在,气象行业的公共服务职能越来越强,面向政府提供决策服务,面向公众提供气象预报预警服务,面向社会发展,应
60、对气候发展节能减排。这些决策信息怎么来依赖于我们对气象数据的处理。采用统计分析方法对海量数据进行分析处理,发现其中某些特定要素之间的关系,这是到目前为止,所有“大数据应用”成功案例的共同特征,即便“大机器学习”等目前备受推崇的大数据时代新事物也无例外。“大数据的核心就是预测”,这是大数据时代的作者舍恩伯格的名言。“如果这一断言是准确的话,那么气象数据的大数据应用时代也许还没有到来。”沈文海分析道。天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 未来五年地震减灾知识宣传教育服务企业ESG实践与创新战略分析研究报告
- 未来五年商务地产市场需求变化趋势与商业创新机遇分析研究报告
- 未来五年教育培训产品租赁行业市场营销创新战略制定与实施分析研究报告
- 未来五年相关金属制品加工服务企业ESG实践与创新战略分析研究报告
- 5.1 探索乐园 课件 2025-2026学年冀教版数学三年级上册
- 隔空解毒的高手──樟树
- 新能源汽车高压系统检修课件 任务三学习活动4 动力电池高压互锁故障检修
- 《研学旅行课程设计》课件-打开活动设计思路
- 跨境电子商务平台运营管理手册
- 《烟文化与人类健康》课件-7.5被动吸烟的提出
- 2025-2026学年秋季第一学期学校德育工作总结
- 子宫颈高级别病变HPV疫苗接种与管理共识(修订)课件
- 妇科围手术期下肢静脉血栓预防与护理策略指南
- 2026元旦主题班会:2025拜拜2026已来 教学课件
- 高考语文复习古代诗歌形象鉴赏课件
- 2025江苏盐城东台市消防救援综合保障中心招聘16人备考题库新版
- 2025消控证考试题库及答案
- 2025年广东省第一次普通高中学业水平合格性考试(春季高考)数学试题(含答案详解)
- 小学五年级英语学情报告与分析
- 2025年下学期高二数学模型构建能力试题
- 2025年安徽合肥庐江县部分国有企业招聘工作人员17人笔试参考题库附答案
评论
0/150
提交评论