(地图学与地理信息系统专业论文)影响暴雨产生的环境物理量场研究.pdf_第1页
(地图学与地理信息系统专业论文)影响暴雨产生的环境物理量场研究.pdf_第2页
(地图学与地理信息系统专业论文)影响暴雨产生的环境物理量场研究.pdf_第3页
(地图学与地理信息系统专业论文)影响暴雨产生的环境物理量场研究.pdf_第4页
(地图学与地理信息系统专业论文)影响暴雨产生的环境物理量场研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学2 0 0 5 届硕士学位论文 摘要 摘要 暴雨是一种常见的天气过程,持续性大暴雨往往会引起洪涝灾害,给人民的 生命财产造成严重损失,因此,对于暴雨产生和发展的研究十分重要。由于影响 暴雨形成的环境场因子众多,关系复杂,如何确定环境场因子与暴雨之间的关 系? 各个因子之间如何关联才会产生暴雨? 产生的暴雨量有多大? 每个环境物 理量在什么条件下起作用? 针对诸如此类的问题,采用传统的、定性的天气图模 型及数值预报方法很难有效地解决。而空间数据挖掘是近年来迅速发展起来的面 向应用的新技术,应用不同学科交叉解决气象学中的难点问题是一次有重要意义 的尝试。为此,本文利用国家卫星气象中心提供的1 9 9 8 2 0 0 0 年6 8 月t 1 0 6 数值预报产品及相应时段长江流域中下游地区( 1 1 0 0e 1 2 3 0 e ,2 4 0n 3 4 0 n ) 各 测站的日降水量数据,在建立日降水量及环境物理量场空间数据库的基础上,通 过提取暴雨中心周边环境物理量场的特征值,运用空间数据挖掘中的决策树方法 建立了暴雨中心暴雨量与周边环境物理量场之间的确定性关系。 本文所采用的是与暴雨有关的环境物理量场包括位势高度、温度、涡度、散 度、水汽通量散度、地面气压、假相当位温、k 指数、相对湿度等9 个物理量场 的数据,水平分辨率为1o ( 经) 1 9 ( 纬) ,时间分辨率为2 4 小时,研究层次为 5 0 0 h p a 。论文首先运用等值线作图法分析了环境物理量场空间分布特征与暴雨中 心暴雨量之间的关系,结果表明,暴雨中心暴雨量与各环境物理量场之间的对应 关系并不明显,且不确定性的关系居多。为此,在上述分析的基础上,我们采用 决策树方法来揭示周边环境物理量场对暴雨中心暴雨量的影响机制。研究结果表 明,暴雨发生地不同,影响暴雨的环境物理量场不同并且暴雨中心周边不同外 延范围内,对影响暴雨产生的环境物理量场也不同。这一结论为区域暴雨预报中 环境物理量场的选择提供了重要的科学依据,且对于提高区域暴雨预报的准确性 具有重要的理论意义和实际应用价值。 关键词:长江流域暴雨环境物理量场值决策树 兰查塑蔓查兰! ! 塑旦堡主兰堡堡兰一一堡! 三坠! :l a b s t r a c t r a i n s t o r mi sak i n do f c o m m o nw e a t h e rp r o c e s s e s ,c o n s i s t e n ti n t e n s i t yr a i n s t o r m u s u a l l ya r i s e sf l o o dd i s a s t e r ,e v e n l e a d st os e v e r el o s st ot h ep e o p l e sl i v e sa n d p r o p e r t y , t h e r e f o r e ,i ti sv e r yi m p o r t a n t t os t u d yt h ep r o d u c i n ga n dd e v e l o p i n go ft h e r a i n s t o r m o nt h eo t h e rh a n d ,t h er e l a t i o n s h i pb e t w e e ne n v i r o n m e n t a lp h y s i c a lf i e l d v a l u e sa n dt h ec e n t e ro fr a i n s t o r mi sc o m p l e x ,c o n s e q u e n t l y , i ti sd i f f i c u l tt os o l v e s u c hp r o b l e m s ,f o re x a m p l e ,h o wt od e v e l o pt h er e l a t i o n s h i pb e t w e e ne n v i r o n m e n t a l p h y s i c a lf i e l dv a l u e sa n dr a i n s t o r m ? h o w t of o r mr a i n s t o r m ? h o wm u c hr a i n s t o r m w i l lb ep r o d u c e d ? w h e nw i l le a c he n v i r o n m e n t a lp h y s i c a lf i e l dv a l u ei m p a c tt h e a n a o u n to fr a i n s t o r m ? t ot h e s ep r o b l e m s ,t r a d i t i o n a lm e t h o d s ,s u c ha sw e a t h e rg r a p h m o d e l sa n dn n m e r i cw e a t h e rf o r e c a s t i n gm e t h o d s ,a r el i m i t e d h o w e v e r , s p a t i a ld a t a m i n i n g i san e wa p p l i c a t i o nt e c h n o l o g ya n dd e v e l o p s q u i c k l y i nr e c e n t y e a r s t h e r e f o r e ,i ti s ag r e a tm e a n i n gt os o l v ed i f f i c u l tp r o b l e m si n m e t e o r o l o g yu s i n g d e f e r e n tk n o w l e d g e i nt h i sp r o j e c t ,t 1 0 6d a t aa n d d a i l yr a i n f a l ld a t ai ny a n g t z e r i v e r ( 1t o oe 1 2 3 0 e 2 4 0n - - 3 4 0 n ) b a s i n a r eu s e df r o mj u n et oa u g u s tb e t w e e n y e a r so f 1 9 9 8t o2 0 0 0 b a s e do nt h e s e ,t h ed a i l yr a i n f a l ld a t a b a s ea n de n v i r o n m e n t a lp h y s i c a l 舭l dv a l u e sd a t a b a s ea r ed e v e l o p e d a n d t h ef e a t u r ev a l u e so fe n v i r o n m e n t a l p h y s i c a l f i e l da r ea b s t r a c t e da n dd e c i s i o nt r e ei s a p p l i e dt o s e tu pt h er e l a t i o n s h i pb e t w e e n r a i n f a l lo f r a i n s t o r mc e n t e ra n de n v i r o n m e n t a l p h y s i c a lf i e l dv a l u e s i nt h i s p a p e r , n i n ep a r a m e t e r s ,i n c l u d i n gg e o p o t e n t i a lh e i g h t ,t e m p e r a t u r e , v o r t i e i t y , d i v e r g e n c y ,r e l a t i v ew a t e rv a p o rf l u xd i v e r g e n c e ,p r e s s u r eo nt h eg r o u n d l e v e l ,es e ,ki n d e xa n dr e l a t i v eh u m i d i t ya tt h el e v e lo f5 0 0 h p a ,a r eu s e dt os t u d y t h er e l a t i o n s h i pb e t w e e nr a i n s t o r ma n de n v i r o n m e n t a lp h y s i c a lf i e l dv a l u e s a m o n g t h e s ed a t a , t h e s p a t i a l r e s o l u t i o ni s1 0 f a t xl ”l o n ga n dt i m er e s o l u t i o ni s t w e n t y f o u r - h o u r b a s e e lo nt h e s e ,t h es p a t i a ld i s t r i b u t i o no fe a c he n v i r o n m e n t a l p h y s i c a if i e l d v a l u ea n dr a i n f a l li ns t u d ya r e ai so b t a i n e dt od i s c b s st h et e l a t i o n s h i pb e t w e e n 也e m t h er e s u l t si n d i c a t et h a tt 1 1 e r e l a t i o n s h i p i s u n d i s t i n g u i s h a b l e a n du n c e r t a i n c o n s e q u e n t l y , d e c i s i o nt r e ei su s e dt or e v e a lt h eb a s i ct h e o r yo fc a u s i n gr a i n s t o r m n er e s u l t ss h o wt h a ti ti sd i f f e r e n to fe n v i r o n m e n t a l p h y s i c a lf i e l dv a l u e si n f l u e n c i n g r a i n s t o r mi nd i f f e r e n ta r e a a n d ,e n v i r o n m e n t a lp h y s i c a lf i e l dv a l u e sa r ea l s od i f f e r e n t a r o u n dr a i n s t o r mc e n t e ri nd i f f e r e n td i s t a n c e ,t h e r e f o r e ,i th a s g r e a tm e a n i n gi n c h o o s i n ge n v i r o n m e n t a lf i e l df a c t o r sf o rr e g i o n a ld i s a s t e rw e a t h e rf o r e c a s t i n g k e yw o r d s :y a n g t z e r i v e rb a s i n ,e n v i r o n m e n t a l p h y s i c a lf i e l dv a l u e s ,r a i n s t o r m 。d e c i s i o nt r e e 1 1 韭望验硕士学位论文答辩委员会成员名单 姓名职称单位备注 张超教授华东师范大学地理系主席 吴健平教授华东师范大学地理系 张立副教授华东师范大学地理系 过仲阳副教授华东师范大学地理系秘书 i 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均巴在 文中作了明确说明并表示谢意。 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索。有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 学位论文作者签名:导师签名: 吼颦瑚蝴 竺查塑蔓查堂丝塑旦堡主兰焦丝塞 筻二童羔兰 1 1 研究现状 第一章绪论 暴雨是一种常见的天气过程,持续性大暴雨往往会造成山洪暴发,淹没农田, 冲毁交通,甚至可溃坝垮库,从而酿成洪涝灾害,给人民的生命财产造成严重损 失。为此,对于暴雨的形成、产生和发展,国内外许多学者和有关部门已进行了 广泛研究( 王家祁,1 9 9 9 ) ,但通常局限于天气模式概念预报、诊断预报、相关 统计预报等。例如,e d w a y m i r e 和v i j a yk ,g u p t a ( 1 9 8 1 ) 以概率论中随机场为 理论基础提出了降雨场表达的数学框架。r o d r i g u e z i t u r b ee t a l ( 1 9 8 7 ) 运用 点过程技术研究了暴雨事件的时空结构。而梁飞燕等( 1 9 9 7 ) 利用相关分析,筛选 出能较好地反映暴雨天气系统的物理量场,并用动力相似法作出2 4 小时台风暴 雨落区预报,最后用动力因子得到了逐步回归预报方程。刘敦训等( 1 9 9 7 ) 应用q 矢量分析法诊断分析了1 9 9 7 年5 月6 7 日山东地区暴雨过程,取得了一定效果。 而梁志和( 1 9 9 7 ) 在分析1 5 年( 1 9 7 0 1 9 8 0 ,1 9 9 0 1 9 9 3 ) 广西暴雨的基础上, 将天气学、动力学和统计学相互结合,通过分析上下层天气系统的配置关系,建 立了暴雨概念模型和始报场,并计算了8 5 0 h p a 的假相当位温和2 0 0 n 3 0 0 n 、 i 0 0 。e 1 2 0 0 e 范围的水平散度,得到不同落区不同暖湿舌指数,从而作出落区 范围预报,但这只是一种半定量的方法,它的基础是必须符合暴雨概念模型的形 势配置和始报场条件,然后应用暖湿舌指数和其他物理量指标预报暴雨落区,否 则效果不太理想。甘文强( 1 9 9 8 ) 则根据预报经验选取好的预报因子基础上,采用 模糊重心决策方法,客观、定量地评价各因子的综合作用,以此来提高暴雨天气 预报的准确性。 然而,从实际预报的效果来看,上述方法不尽效率低下,且预报精度也较低。 为此,数值预报方法便应运而生,特别是近年来,随着数值天气预报水平的不断 提高,数值预报产品在灾害天气的预报中起到了极其重要的作用。一些学者根据 历史资料总结出的预报模型,结合数值预报产品,对强降水天气的预报进行了深 入研究。例如,李延香等( 1 9 9 7 ) 以h l a f s 数值预报产品为基础,以物理量诊断为 主要依据,综合使用红外卫星云图、常规气象资料和国内外数值预报产品等众多 信息,采用人机结合的方式对华北地区区域性暴雨综合预报技术进行了研究。研 究表明,运用上述方法预报时,其漏报率较小,但空报率较大,三天空报率均大 于漏报率,因而预报误差较大。梁志和( 1 9 9 8 ) 运用每天e c m 提供的7 2 、9 6 、1 2 0 小时的数值预报格点资料,对5 0 0 h p a 高度、地面气压及8 5 0 h p a 温度的预报方法 华东师范大学2 0 0 5 届硕士学位论文 第一章绪论 进行了研究,在此基础上,通过对西江( 梧州) 历史上中等( 水位达2 1 - 0 米) 以上 致洪暴雨天气、动力条件的分析,得到了低槽模式和热带模式两个中期( 3 5 天) 预报模式。利用上述模式对预报场的关键区和要素进行预报时,首先需计算出不 同的物理量场值,包括低槽指数、副高指数、中低纬度区域同纬度东西部平均高 度差、地面关键区高低压的气压指数等作为预报指标,每天运用不同时段的预报 产品,对3 5 天大范围内的暴雨进行滚动预报,若模式与指标都符合的暴雨日 持续5 6 天或以上,便确定为西江致洪暴雨,研究结果表明,该法的预报准确 率为7 3 5 。而曹晓刚( 1 9 9 8 ) 采用t 1 0 6 数值预报产品中4 8 小时和2 4 小时两个 时次预报场资料,对1 9 9 7 年1 1 月2 4 日和1 9 9 7 年1 1 月2 7 曰发生在江西的两次 大暴雨过程进行了详细的研究,并对与暴雨有关的热力条件、东气条件和动力抬 升条件进行了对比,结果表明,t 1 0 6 数值预报产品对稳定切变的暴雨形势有较 好的预报能力。杨忠明( 2 0 0 1 ) 将欧洲中心形势场预报资料与t 1 0 6 数值预报产品 相结合,从降水的三要素入手,选取水汽通量散度、假相当位温、散度、涡度、 垂赢速度等物理量,对2 0 0 0 年8 月2 3 日发生在安顺市的连续性暴雨过程进行 诊断分析,结果发现上述数值预报产品在强降水预报中有很好的指导作用,其特 点是某些物理量的预报场对强降水有很好的指示性,这对于建立预报方程、选取 预报因子具有重要的参考价值。此外,美国p s u n c a r 的中尺度第五代模式涮5 对于世界许多地区各种不同的大气现象的研究,特别是对中尺度天气现象、尤其 是暴雨的研究十分有用。d u d h i a ( 1 9 8 7 ,1 9 9 3 ) 利用m m 5 产品成功模拟了大西洋 的气旋和冷锋,d o y l e 等( 1 9 9 3 ) 采用了5 k m 的水平分辨率研究了锋生现象。而 陈晓弟( 2 0 0 4 ) 从删5 产品中选取高度、涡度、水汽通量散度、假相当位温等5 个物理量场的网格点资料,从分析物理量形势场的分布特征入手,对贵州省2 0 0 4 年4 6 月6 次暴雨过程进行了物理量诊断分析,目的是了解m m 5 对贵州省暴雨 天气的预报能力,进而发现一些规律性的量化指标,以便为暴雨的预报提供更多 依据。研究结果表明,删5 在贵州省暴雨预报实践中其系统和要素具有息好的预 示性,但系统位置有时偏后1 2 小时左右,并且m m 5 在划分降水量等级,尤其是 暴雨、大暴雨、特大暴雨的区别上还不十分准确。r o m e r o 等人( 2 0 0 1 ) 还将数 值模拟产品与地面观测、遥感产品结合研究了一系列天气对流系统的生命史及相 互作用,认为对流产生的冷堆和外流对对流的传播非常重要,强的中尺度上升气 流是由不同对流系统的外流辐合产生的,日变化强迫对对流的产生起决定性作 用。 从上面的分析中可以看到,数值预报产品在暴雨预报中已起到越来越重要的 作用,因此,进一步运用数值预报产品来探讨环境物理量场与暴雨之间的关系就 显得十分迫切。例如,廖玉芳等( 2 0 0 0 ) 以t 1 0 6 数值预报产品为基础,根据天气动 2 兰查堕蔓查堂! ! 塑星堕主堂竺堡兰 一j 塑二兰堡生 力学原理引入物理量的强度指数与面积指数的概念,并运用强度指数与面积指数 导出综合指数与暴雨量之间的关系,在此基础上,通过与t 1 0 6 的降水预报产品 相集成,得到了常德市区及各分县未来2 4 9 6 小时韵暴雨定量预报方法,实际 应用表明,该法对于暴雨发生的地点、强度具有较强的预报能力。孙连强等( 2 0 0 1 ) 则选用国家气象中心1 9 9 5 1 9 9 7 年6 8 月t 1 0 6 全球谱模式( 精度为1 。1 。) 资料,选取水汽、能量、不稳定度、冷空气触发和动力等五大类共计2 0 个物理 量,在对t 1 0 6 数值预报产品统计分析的基础上,提取了与暴雨相关密切的物理 量,进而对环境物理量场与暴雨落区之间的关系进行了研究,结果表明,这种方 法对区域性暴雨的预报能力较强。 另一方面,随着遥感技术的快速发展,不同类型的与气象有关的空间数据库 以及数据库中的数据量正在快速增长,但大量的、有用的信息也被淹没在这些数 据之中,没有得到充分的开发和利用,如何从这些海量数据中提取出与灾害天气 有关的模式、模型,进而将其变成预测灾害天气发生的信息和知识就成为气象学 家们研究的重点。我们知道,空间数据挖掘是近年来迅速发展起来的面向应用的 新技术,它能从海量数据中提取出有用的信息和知识,因此,运用空间数据挖掘 方法来解决气象学中的难点问题是一种有重要意义的尝试。如r a y m o n d 和j a m e s 对1 9 8 5 1 9 9 8 年间1 2 0 个热带气旋的特性运用改进的人工神经网络技术对其分 类和预测,结果表明,运用人工神经网络技术来预测未来热带气旋的发展趋势其 精度达到8 6 。而k i t a m o t o 等人则对3 4 0 0 0 个与台风有关的卫星图象进行数据 挖掘,得到了影响台风移动的信息,并将其分类,进而用来预测未来台风发展的 趋势。此外,z h o u 等人也运用人工神经网络技术提取了影响台风移动的有关信 息。过仲阳等人( 2 0 0 3 ,2 0 0 4 ) 运用空间数据挖掘中的决策树方法和关联规则研究 了1 9 9 8 年夏季东移出青藏高原的m c s 与其环境物理量场之间的关系,结果表明, 在4 0 0 h p a 上,位势高度、相对湿度、涡度、散度、假相当位温是影响其移出高 原的主要因子,而在5 0 0 h p a 上,移出高原的m c s 主要决定于位势高度、相对湿 度、温度、垂直速度等环境物理量场值。 尽管人们对暴雨的预报已提出了许多方法和技术,但从目前的情况来看,已 有的暴雨预报方法还存在一定的局限性,特别是对中、长期的暴雨预报,其精度 明显较低。因此,运用空间数据挖掘技术来研究环境物理量场与暴雨之间的关系, 不仅有助于提高暴雨预报的准确性,而且对于减少因灾害天气所造成的损失具有 重要的现实意义。 1 2 问题的提出 上述分析表明,目前国内外在暴雨预报方面存在着一定的局限性,特别是对 3 华东师范大学2 0 0 5 届硕士学位论文 第一章绪论 于中、长期的暴雨预报,当前的预报精度明显较低,这主要由于影响暴雨形成的 环境场因子众多,关系复杂。因此,如何确定环境场因子与暴雨之间的关系? 各 个因子之间如何关联才会产生暴雨? 产生的暴雨量有多大? 每个环境物理量在 什么条件下起作用? 针对诸如此类的问题,采用传统的、定性的天气图模型及数 值预报方法很难有效地解决。为此,本文在根据预报经验选取与暴雨有关的环境 物理量场基础上,采用空间数据挖掘技术,客观、定量地评价环境物理量场各因 子对暴雨的综合作用,建立暴雨中心周边环境物理量场与暴雨中心暴雨量之间的 确定性关系,这不仅可以弥补数值预报产品的不足,且对暴雨天气的预报而言, 有利于改善目前已有预报方法存在的缺陷,从而提高对暴雨天气的预报能力。 1 3 研究目的 运用空间数据挖掘中的决策树方法研究环境物理量场各因子对暴雨的综合 作用,在此基础上,得到暴雨中心暴雨量与周边环境物理量场之间的确定性关系。 研究成果一方面可为区域暴雨落区、暴雨量的预报提供新的方法和手段,另一方 面可改善暴雨预报的精度。 1 4 研究内容及其意义 本文利用国家卫星气象中心提供的1 9 9 8 2 0 0 0 年6 8 月t 1 0 6 数值预报产 品及相应时段长江流域中下游地区( 1 1 0 0e 1 2 3 0 e ,2 4 0n 3 4 。n ) 各测站的日降 水量数据,首先建立研究区各测站的日降水量及环境物理量场的空间数据库,在 此基础上,提取暴雨中心及萁周边环境物理量场的特征值,进而运用空间数据挖 掘中的决策树方法建立暴雨中心暴雨与周边环境物理量场之间的确定性关系,得 到影响暴雨的环境物理量场空间分布特征。这对于提高长江流域中下游地区暴雨 预报的准确性,减少因暴雨灾害所造成的损失具有较高的实用价值。 1 5 论文的特色与创新之处 空间数据挖掘是近年来迅速发展起来的面向应用的新技术,应用不同学科交 叉解决气象学中的难点问题是一次有重要意义的尝试。本文的特色及创新之处在 于: ( 1 ) 采用空间数据挖掘技术建立了长江流域中下游地区暴雨中心暴雨量与 周边环境物理量场之间的确定关系; ( 2 ) 本文应用改进的决策树方法来提取影响暴雨产生的环境场特征,克服 了数据本身的不完备性,提高了暴雨预测的精度; 4 华东师范大学2 0 0 5 届硕士学位论文第一章绪 论 ( 3 ) 采用s o ls e r v e r2 0 0 0 数据库管理系统来存储管理降雨量及环境物理 量场数据,弥补了以文件形式存储原始数据的缺陷,提高了数据处理的灵活性; ( 4 ) 选择长江流域中下游地区来研究环境物理量场与暴雨中心暴雨量之间 的关系,具有典型性和示范性。 5 华东师范大学2 0 0 5 届硕士学位论文 第二章研究方法 第二章研究方法 随着对地观测平台、传感器和数字摄影测量技术的快速发展,人们获取空间 数据的能力日益增强。然而,由于地学现象的复杂性和地理过程的不确定性,快 速增长的空间数据已远远超出了人们的解译能力。另一方面,目益丰富的空间数 据库无异于一个巨大的宝藏,当数据库中的数据量累积到一定程度时,数据库中 的数据必然会隐含着某些规律性的东西,但从目前空间数据库所具有的功能来 看,它可以高效地实现数据的录入、修改、统计、查询等功能,却无法发现隐藏 在数据背后的关系、规则和发展趋势等知识,而空间数据挖掘技术无异为解决上 述难点问题提供了一种新的方法和思路。 空间数据挖掘能从空间数据库中提取出隐含的模式、模型,进而将其变成有 用的信息和知识。其中分类是空间数据挖掘中的一种重要方法,常用的分类方法 有人工神经网络、遗传算法、决策树等,而决策树具有速度快、规则简单、易于 理解等优点,目前已在遥感影像处理、环境演变、灾害天气预测等方面得到了广 泛应用。例如,赵萍等人以南京江宁县为研究区域,根据s p o t 卫星影像资料, 运用决策树方法对研究区居民地信息的自动提取进行了研究,结果表明,采用决 策树方法可以将背景地物类型复杂的江南地区的城镇居民用地自动提取出来,并 且模型受时相影响较小,只是在域值大小上会存在一些差异;过仲阳等人则运用 决策树方法得到了1 9 9 8 年夏季青藏高原上影响中尺度对流系统东移的环境物理 量场条件;此外,李飞雪等人将k o h e n e n 神经网络与决策树方法相结合来研究遥 感图像的自动分类问题,分类结果显示,与单一的k o h o n e n 方法相比,两者的结 合极大地提高了分类精度;李爽等人将决策树方法与最大似然法在土地覆盖分类 中的应用进行了比较,研究结果表明,决策树方法对于输入数据的空间特征和分 类标志有更好的弹性和鲁棒性;而m i l l s 等人利用澳大利亚区域业务数值天气预 报模式的输出数据,运用决策树方法对澳大利亚的雷暴区、强雷暴、龙卷雷暴区 进行预报并判断这些雷暴是否可能伴有暴洪、下击暴流、强风等,强天气目标个 例研究表明,就所观测的强天气位置及类型而言,决策树方法的准确度很高。 本文根据国家卫星气象中心提供的t 1 0 6 数值预报资料,运用空间数据挖掘 中的决策树方法研究了长江流域中下游地区环境物理量场变化与暴雨中心暴雨 之间的关系,这对于长江流域中下游地区暴雨形成机理的研究具有重要的理论意 义。 6 华东师范大学2 0 0 5 届硕士学位论文 第二章研究方法 2 1 决策树的基本原理 决策树是以规则的形式对数据进行自动分类。树的根节点是整个数据集合空 闻,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两块或 多块。每个叶节点是属于单一类别的记录。决策树的构造分为生长和剪除两个阶 段。生长阶段时,首先将整个训练集作为产生决策树的集合,且训练集每个记录 必须是已经分好类的,在此基础上,寻找初始分裂;在决定哪个属性域作为目前 最好的分类指标时,通常的做法是穷尽所有的属性域,对每个属性域分裂的好坏 做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的信息增益,选 择信息增益最大的属性域进行分裂。其次,重复上述步骤,直至每个叶节点内的 记录都属于同一类,增长到一棵完整的树。生长过程中,许多分枝反映的可能是 训练数据中的噪声或孤立点,因此,建树过程中需按照某种规则将相似或相近的 分枝进行合并,并将其剪除,从而得到棵能反映数据集特性的决策树。 其过程如下图所示: 2 1 。,决策树的建立 图2 1 决策树生成示意图 决策树的建立,就是根据记录字段的不同取值建立树的分枝,迸而在每个分 棱子集中重复建立下层结点和分枝。建决策树的关键在于建立分枝时对记录字段 不同取值豹选择。选择不同的字段值,会使划分出来的记录子集不同,影响决策 树生长的快慢以及决策树结构的好坏,从而导致得到的规则信息优劣不一。可见, 决策树算法的技术难点在于选择一个好的分技取值。利用一个好的取值来产生分 枝,不但可以加快决策树的生长,而且最重要的是,产生的决策树结构好,可以 找到较好的规则信息。相反,如果根据一个差的取值来产生分枝,不但会减慢决 策树的生长速度,而且会使产生的决策树分枝过细,结构性差,从而难以发现一 些本来可以找到的有用的规则信息。 在建决策树的过程中,本文根据信息增益( i n f o r m a t i o ng a i n ) 的大小进行 属性选择,这种选择方法的特点是所有属性假设都是种类字段,但经过修改之后 可以适用于数值字段。其核心是在决策树生成过程中的各级结点上选属性,用信 ,鼠增益作为属性选择标准,使得在每一非叶结点进行测试时,能获得关于被测试 7 华东师范大学2 0 0 5 届硕士学位论文 第二章研究方法 例子最大的类信息,在此基础上,运用信息增益最大的属性来划分子集,使系统 的熵值达到最小,以此来提高子集划分的纯度。具体步聚如下: 设s 是s 个数据样本的集合。假定类标号属性具有m 个不同值,定义1 i 】个不 同类c ;( i = 1 ,m ) 。设s t 是类c t 中的样本数。对一个给定的样本分类所需的期 望信息由下式给出: i ( s 。,s :,s 。) = 一p ,l o g :( b ) j = l 其中p ,是任意样本属于c t 的概率,并用s i s 估计。 设属性a 具有v 个不同值 a ,a z ,a v ) 。可以用属性a 将s 划分为v 个子 集 s ”s 2 ,s 。) ;其中,s 。包含s 中这样一些样本,它们在a 上具有值a 。 如果a 选作测试属性( 即最好的分裂属性) ,则这些子集对应于由包含集合s 的 节点生长出来的分枝。设s ;j 是子集s j 中类c ;的样本数。根据由a 划分成予集的 熵( e n t r o p y ) 或期望信息由下式给出: e ( 4 ) = 窆堕尝( s 1 。) 项学充当第j 个子集的权,并且等于子集( 即a 值为a ,) 中的样 本个数除以s 中的样本总数。熵值越小,子集划分的纯度越高。 对于给定的子集s i 所需的期望信息由下式给出: i ( s u ,s 驴s l 1 1 ) = 一p fl o g :) 其中旷尚是s ,中的样本属于类c ,的概率。 在a 上分枝将获得的编码信息是 g a i n ( h ) = i ( s l ,s 2 ,s 。) 一e ( a ) 算法计算每个属性的信息增益。具有最高信息增益的属性选作给定集合s 的测试属性。斛建一个节点,并以该属性标记,对属性的每个值创建分枝,并据 此划分样本。 2 1 2 决策树的剪枝 创建决策树时,由于数据中存在着噪声和孤立点,因此,许多分枝反映的是 8 华东师范大学2 0 0 5 届硕士学位论文 第二章研究方法 训练数据中的异常,这就是过分适合问题,为了解决此类问题,需采用剪枝方法 对生成的决策树进行处理,常用的剪枝方法有预先剪枝和后剪枝两种。 预先剪枝:在树生成过程中根据一定的准刚( 如树已达到某高度,节点中 最大的样本比例已达到设定阈值) 来决定是否继续扩张树。一旦停止,节点成为 树叶。该树叶可能持有子样本集中最频繁的类,或这些样本的概率分布。预先剪 枝的缺点是选择一个适当的闽值较困难。较高的阈值可能导致过分简化的树,较 低的闽值可能使树的简化太少。 后剪技:待决策树完全生成后再进行剪枝。本文遵循最小描述长度( v l d l ) 原则并根据编码所需的二进位位数对树进行剪枝,以便寻求一种合理且较小的 树,其原理是使训练样本中的大多数数据符合这棵树,而把样本中不符合的数据 作为例外编码,并使编码决策树所需的比特和编码例外实例所需要的比特达到最 小。在决策树学习中,最小化决策树编码对应于简化决策树,而最小化编码例外 对应于增加决策树的正确率。该剪枝方法的特点一方面在于编码所需的二进位最 少,并且不需要独立的样本集,另一方面,尽管所需的计算量比预先剪枝多,但 通常可产生更可靠的树。 2 1 3 规则提取 决策树建立以后,从根节点到叶子节点的每条路径都可以转换为一条以i f - - t h e n 形式表示的规则。沿着给定路径上的每个属性一值对形成i f 部分的个 合取项,而将t h e n 后面的部分( 即叶节点包含的类) 作为满足上述合取项的分类 结果,在此基础上,形成系列规则,进而将所有规则建立规则库。 2 2 算法改进 尽管上述决策树建立方法具有速度快、规则简单、易于理解等优点,但以下 两方面仍然是制约建立优质决策树的瓶颈: ( 1 ) 数据存储。数据存储方式的不同将直接影响决策树算法处理的灵活性与 交互性。 ( 2 ) 数据质量。数据质量的好坏将直接影响决策树算法的最终结果及算法效 率,导致生成的决策树过于庞大或决策树中很多分枝的信息量较小。本课题涉及 的数据质量问题主要体现在数据大量冗余、数据缺损等方面。 为了克服上述缺陷,本文对以下两方面进行了改进: ( 1 ) 应用数据库的数据组织及存储方式对数据集进行高效管理,以便为决策 树的建立提供高质量的数据源。( 数据库的应用将在第三章中作详细介绍) ( 2 ) 通过在决策树方法中引进支持度与规则可信度两个参数来减少决策树 9 华东师范大学2 0 0 5 届硕士学位论文 第二章研究方法 算法中数据的处理量,克服数据本身的不完整性。 2 2 ,1 支持度在改进决策树算法中的应用 支持度的定义如下:设有元组集合x ( 决策属性1 = a ,决策属性2 = b , 决策属性i = p ) ,其子集y ( 类别标识属性= c t ,决策属性1 = a ,决策属性2 = b , 决策属性i = p ) ( 其中t i n ,n 为决策属性的个数) 。如果在元组集合x 中, 按类别标识属性的取值进行分组,得到x 的若干个相互不相交的子集。若其中某 一子集y 中元组占集合x 元组总量的s ,则称s 为子集y 对集合x 的支持度, 也可以称s 为集合x 对c t 类的支持度。其中,集合x 对应于决策树中当前层的 某个决策节点所对应的一个分枝。 我们知道,在决策树的建立过程中,处理结果往往有大量的冗余,最主要的 表现是在生成的决策树中,决策树的分枝过多,使得决策树过于庞大,分枝过于 繁琐,这样得至0 的决策信息也就过于庞杂,会产生许多不必要的规则。因此,在 建立决策树时,我们采用最小支持度逐层对决策节点可能产生的分枝数进行有效 控制。具体步聚如下: ( 1 ) 由决策人员指定一个适当的决策属性集对分类标识能力的阈值,即确定 最小支持度q ( 0 d 1 ) 。 ( 2 ) 对当前决策节点,根据计算每个决策子集中的剩余决策属性的信息增 益,选择信息增益最大的决策属性作为下一层决策节点,并根据选择的决策属性 的取值将该层所对应的样本数据集分为若干子集。 ( 3 ) 针对步骤( 2 ) 所产生的子集,计算每个子集中的每个类别标识属性值在 该子集中的支持度。 ( 4 ) 将支持度小于最小支持度的元组过滤掉。其基本思想是:决策树分枝中, 若当前某层对应的某个子集中,某元组对类别标识属性的分类支持度较小,则在 下一层中的支持度更小,所以不需要生成新的分枝来对其进行标注。 由此可以看到,在决策树生成过程中,根据支持度的大小对决策属性进行剪 除,由于被舍弃的数据所涵盖的信息量相对较少,因此,上述处理过程对原始数 据所包含的信息量影响极小,因而对规则的提炼起到了极其重要的作用。 2 2 2 规则可信度在改进决策树算法中的应用 规则可信度的定义如下:设有训练样本数据集s 中的一个元组集合x ( 决策 属性1 = a ,决策属性2 - - - - b ,决策属性i = p ) ( 1 i n ) 以及训练样本数据集 的类别标识属性值集合c ,如果在x 中有c 的元组的类别标识属性取值为c 。, 即属于c i 类,则称元组集合x 中( 元组集合x 实际上就形成了规则中的条件部 1 0 华东师范大学2 0 0 5 届硕士学位论文 第二章研究方法 分) 属于c - 类的可信度为c 。 利用支持度对决策树算法改进后形成的决策树仍存在一些冗余分枝,即一些 分枝蕴涵的知识可信度太小,不具有应用价值。因此需利用最小可信度,剪除可 信度过低的分枝,从而缩减决策树的规模,使生成的决策树更有实用性。其处理 过程为: ( 1 ) 指定一个规则可信度的域值,即确定规则的最小可信度8 ( o b 1 ) 。 ( 2 ) 计算决策树每个分枝蕴涵的规则可信度,即某元组在一定的条件下,属 于某类的可能性。 ( 3 ) 将规则可信度小于最小可信度b 的规则所对应的分枝删除。 2 2 3 改进后决策树算法的实现 针对上述两点改进,我们将其集成在一个处理过程,具体步聚如下: 通过决策人员的参与,对原有的训练样本进行进步限制( 例如,选择用 户感兴趣的若干属性,限定处理数据的时间范围、地域范围等) 。 从候选属性集中进行决策属性集的选取。 指定决策属性对类别标识属性的最小支持度闽值a ( o a 1 ) ,规则最 小可信度的阈值b ( o b 1 ) 。 在当前决策节点计算每个决策属性的信息增益,选择具有最大信息增益 的决策属性作为决策节点,并根据该决策属性的取值将该决策属性所在集合分成 若干子集。 针对步骤所产生的子集,计算每个子集中的每个类别标识属性值在该 子集中的支持度,将支持度小于最小支持度n 的类别标识属性值所对应的元组 过滤掉。 重复进行上述、步骤,直至生成决策树。 计算上述过程所生成的决策树每个分枝蕴涵的初步规则的可信度,将规 则可信度小于最小可信度b 的初步规则所对应的分枝剪除。 根据最小描述长度( l ) 原则对完全生成后的决策树进行最后剪枝,生 成可靠的分类规则。 利用i f t h e n 形式进行规则提取,且将规则存入数据库。 本文运用上述决策树方法对所建数据库中的暴雨和环境物理量场数据进行 挖掘,以期得出周边环境物理量场与暴雨中心暴雨量之间的确定性关系。 华东师范大学2 0 0 $ 届硕士学位论文 第三章资料的预处理 第三蕈资料的预处理 我国是世界上多暴雨国家之一,而长江中下游地区又是我国发生暴雨最为频 繁的地区。暴雨,尤其是特大暴雨或连续性暴雨,往往是引起长江中下游地区洪 水暴发的直接成因,特别是1 9 9 8 年夏季发生在长江流域的暴雨,给人民的生命 财产造成了严重损失。为此,对该地区暴雨发生的落区、机理等研究一直是人们 关注的焦点。例如,赵思雄、孙建华等( 1 9 9 8 ) 对1 9 9 8 年7 月下旬发生于长江 中下游地区暴雨的成因研究后认为:这一时期副热带高压向南撤退并稳定在偏 南位置,为长江流域降水提供了熏要的条件;中纬度系统维持两脊一槽的形势 有利于冷空气的南下,而夏季风在这一期间偏弱,前沿停留于长江流域,同时与 中纬度的偏北气流形成一条沿长江流域东西走向的切变线;在该切变线附近不 断有中尺度对流系统的发生发展,其中一部分中尺度对流系统已达到很强烈的程 度,因而引发了8 8 4 毫米4 时的强降水;对流层上层,如2 0 0 h p a 上的高压, 其东侧强烈的辐散区正好位于长江中下游地区,上下层系统的有利配合,对这次 暴雨的发生十分有利。另一方面,随着预报资料的不断积累和预报方法的不断改 进,人们对长江流域暴雨发生的成因研究也越来越深入。邢谦( 1 9 9 9 ) 采用美国 滨州大学( p s u ) 和国家大气研究中心( n c a r ) 研制出的中尺度数值预报模式m m 4 , 结合湖北省气象和水文站的降水量资料,对长江中游地区1 9 9 8 年7 月2 0 日和8 月1 4 日的两次特大暴雨过程进行了数值模拟,对比分析了实况与模拟降水之间 的关系,研究了与暴雨相关的中尺度对流系统的结构特征,并给出了与之相对应 的物理量结构。杨祖芳、李伟华等( 2 0 0 0 ) 在分析1 9 9 8 年夏季热带大气环流异 常特征与长江流域暴雨形成之间的关系基础上,指出北半球t u t t 偏南偏西,澳 洲及其以东冷空气活动弱造成越赤道气流偏弱,导致西北太平洋副高异常强大和 位置偏南偏西以及1 t c z 极弱;而南半球印度洋冷空气活跃,越赤道气流强盛, 加强了南亚季风,促使低纬度地区的水汽、热量源源不断地输送到副高西侧和北 侧的长江流域,并与西北、华北南下弱冷空气汇合后形成了暴雨。童明静( 2 0 0 1 ) 应用天气动力学诊断方法和数值模拟的手段对1 9 9 9 年6 月上旬发生在长江流域 的一次强暴雨过程进行了分析,发现此次暴雨与台风与华北冷高压气流之间的相 互作用有关。张小玲( 2 0 0 2 ) 分析了受夏季风强烈影响的长江流域梅雨锋上活跃 的暴雨的发生、发展过程以及梅雨锋的动力、热力结构,并对长江流域梅雨期降 水的年际差异及影响因子进行了研究,结果表明,影响长江流域梅雨期降水的四 个主要环流因子按重要性依次为:西太平洋副热带高压、南海季风涌、冷空气活

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论