




已阅读5页,还剩83页未读, 继续免费阅读
(水工结构工程专业论文)大坝安全监测信息的数据挖掘应用平台技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 利用计算机实现大坝安全监测信息的智能管理和分析是大坝安全监测系统 发展的趋势。数据挖掘是从大量的数据中提取隐藏在其中的有用的模式和知识的 过程。本文结合国家自然科学基金重点项目“重大水工混凝土结构隐患病害检测 与健康诊断研究”( 5 0 1 3 9 0 3 0 ) ,对如何应用数据挖掘技术处理大坝安全监测信息 进行了研究。主要研究内容如下: ( 1 ) 分析了大坝安全监测信息的数据挖掘处理过程和数据挖掘系统的结构 特点,构建了大坝安全监测信息的数据挖掘应用平台,对系统的主要构件进行了 探讨。 ( 2 ) 研究了大坝安全监测信息的数据仓库的体系结构、数据建模方式和实 施方法:探讨了监测信息的数据预处理技术,在此基础上,设计了规则过滤算法, 实现了监测数据的初步筛选:此外,为有效地减少待处理的数据量,还研究了特 征选择技术中的c l l i 2 算法。 ( 3 ) 研究了时序数据库的相似序列挖掘方法,并根据待处理的大坝监测信 息特征,提出了子序列匹配的极值匹配法。结合具体工程,对改进的挖掘算法进 行了验证。 ( 4 ) 探讨了数据可视化和可视化数据挖掘技术,给出了多维数据可视化的 箱式图和平行坐标表示法:同时研究了大坝安全监测信息的实效图的绘制方法, 并研制了相应分析程序。 关键词:大坝监测数据挖掘数据仓库数据预处理数据可视化 夔文摘要 a b s t r a c t 强eu s eo fc o m p u t e rs c i e n c ea n dt e c h n o l o g yi n i n t e l l i g e n tm a n a g e m e n ta n d p r o c e s s i n go fd a ms a f e t ym o n i t o r i n gi n f o r m a t i o ni s ad e v e l o p m e n t 蚍n do fd a m s a f e t ym o n i t o r i n gs y s t e m d a t am i n i n gi sap r o c e s s o f e x t r a c t i n gp r e v i o u s l yu n k n o w n , a c t i o n a b l ei n f o r m a t i o nf r o m l a r g ed a t a b a s e b a s e d 0 1 1t h ek e y p r o g r a mo f t h en a t i o n a l n a t u r a ls c i e n c ef o u n d a t i o n o fc h i n af h i d d e nt r o u b t ed e t e c t i o na n dh e a l t h d i a g n o s i so fl a r g eh y d r a u l i cc o n c r e t es t r u c t u r e ) ,t h i sp a p e rd i s c u s s e st h ep r o b l e m s o fh o w u s i n gd a t am i n i n go nd a ms a f e t ym o n i t o r i n gi n f o r m a t i o n 。两em a i n c o n t e n t s a r ea sf o l l o w s : ( 1 ) a n a l y z i n gt h ep r o c e s so f d a t am i n i n go nd a m s a f e t ym o n i t o r i n gi n f o r m a t i o n d e s i g n i n gt h ef r a m e w o r ko ft h ed a t am i n i n ga p p l i c a t i o np l a t f o r mf o r d a ms a f e t y m o n i t o r i n gi n f o r m a t i o n n 坤p a p e r a l s od i s c u s s e sm a i n p a r to fs y s t e m ( 2 ) p r e s e n t i n gt h es y s t e ms t r u c t u r e 、d a t am o d e l i n ga n d t h ep r a c t i c i n gp r o c e s so f d a t aw a r e h o u s eo fd a m s a f e t ym o n i t o r i n gi n f o r m a t i o n 。d i s c u s s i n g t h ed a t a p r e p r o c e s s i n gm o d u l eo f t h ed a t am i n i n ga p p l i c a t i o np l a t f o r m ,b r i n g i n gf o r w a r dt h e r u l e a l g o r i t h m t oa c h i e v et h e f i l t e r i n g o fm o n i t o r i n gd a t a , a n dg i v i n gt h ec h i 2 a l g o r i t h mf o rt h ef e a t u r es e l e c t i o n ( 3 ) s t u d y i n gt h es i m i l a r i t ys e q u e n c em i n i n ga l g o r i t h mo nt i m e - s e r i e sd a t a b a s e 缪渤t h ec h a r a c t e ro fd a m m o n i t o r i n gd a t a , b r i n g i n g f o r w a r dt h ee x t r e m u mm a t c h i n g m e t h o di nt h ep r o c e s so f s u b s e q u e n c e m a t c h i n g 。a p p l y i n g t h em i n i n g a l g o r i t h m 撼t h e p r a c t i c i n gp r o j e c t ( 4 ) t h ep a p e ra l s od i s c u s s e sd a t av i s u a l i z a t i o na n dv i s u a ld a t am i n i n g ,g i v e st w o w a y s o f s h o w i n gm u l t i d i m e n s i o nd a t a , t h eb o xp l o tg r a p ha n d t h ep a r a l l e lc o o r d i n a t e s m e t h o d p r e s e n t i n g t h em e t h o do fm a k i n ga c t u a le f f e c t g r a p h f o rd a ms a f e t y m o n i t o r i n g i n f o r m a t i o n , a n dp r o g r a m m i n g t h ec o m p u t e r p r o g r a m t od oi t k e yw o r d s :d a mm o n i t o r i n g , d a t am i n i n g ,d a t aw a r e h o u s e ,d a t ap r e p r o c e s s i n g , d a t av i s u a l i z a t i o n l l 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写避的研究成果,与我一 同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说 凌并表示了谢意。热不实,本人象全部奏任。 论文作者( 签名) :_ 拳l 城学 年月日 学位论文镬麓授权说鞠 河海大学、中国科学技术信息研究所、网家图书馆、中国学术 期翻( 光盘舨) 电子杂志社鸯权傺馨本人黪送交学位论文弱复印件 或电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子问文档的内容和纸质论文的内容相一致。除在保密期内的保密 论文外,允许论文被焱阕帮借阕,论文全部躐部分内容的公布( 包 括刊登) 授权河海大学研究生院办理。 论文作者( 签名) :2 l 淖 年月 日 第一章绪论 第一章绪论 1 1 研究的目的和意义 随着经济的发展,人们生活需求的快速增长,推动了水利建设的蓬勃发展, 我国大坝无论从规模还是数量都居世界第一。同时,坝工技术的发展正使得大 坝规模向高、大方向发展。在建的三峡、水布垭、龙滩,拟建的向家坝、溪洛 渡、拉西瓦等都是特大型工程。然而,大坝在带给我们效益的同时也带来了一 定的负面影响,而且其风险往往同其规模成正比【lj 。大坝安全性态直接关系到 下游人民生命财产和生态环境的安全。运行中的大坝是一个复杂的动力系统, 坝体、库水和坝基相互作用使得系统具有内在的不确定性;此外,外部环境( 如 气温、降雨和地震等) 等多种因素的影响,系统具有高度的非线性特征【9 】。目 前,主要采用布置在大坝上的监测仪器来监测大坝的运行状况和安全性态。例 如三峡大坝建立了完整的安全监测网络,布置的仪器有六十多种,一万多支, 而且这些监测点大都应用了自动化数据采集方式,量测频率和精度都较以往有 很大的提高。其收集的大量数据,为及时了解和评价大坝运行性态提供了重要 的不可替代的信息源泉。数据量的迅速增多,对传统的人工分析处理方法提出 了严峻的挑战,借助计算机对监测数据进行快速的处理、分析已成为研究的热 点。其应用从最开始的辅助计算,到监测数据管理程序,到单机的处理和分析 评价系统,发展到现在的坝群式网络监测系统,以后将实现大坝安全智能管理 决策系统( d s i m s ) ,达到远程控制、全面管理、智能决策的有机融合。d s i m s 能够将监测数据转换成明确的,基于事实的、能够执行的信息,并且使我们能 够发现测点测值变化趋势,揭示大坝整体、局部运行状况;加强人与大坝的交 互、提供辅助决策信息、减少大坝运行风险。同时它也使我们能够访问过去的、 现在的大坝信息,并从各个侧面。不同维度灵活地浏览信息和建立模型。它的 目标是了解变化、理解变化、洞察变化,甚至预见变化。 自2 0 世纪6 0 年代,数据库和信息技术系统从原始的文件处理演化到了复 杂的、功能强大的数据库系统,极大地方便了大量数据和信息的存储、检索和 查询。随着数据库规模的日益扩大,数据信息的充分有效应用面临挑战,“人们 河海火学磺士学位论文 嫒数器淹没,毽却镊饿予躲谈”( j o h n n a i s b e t t ,”w e 辩& o w n i n g i ni n f o r m 醛o n 。 b u t s t a r v i n g f o r k n o w l e d g e ”) ,为此,对数据分析和理解工具的衙求成为了必然, 数据挖掘技术应运而生矧。数据挖掘( d a t am i n i n g ,简称d m ) 是揭示存擞予 数提里戆模式及数据滋戆关系豹学辩,它强调对穴塞数据夔楚理,是当藏诗舞 机科学研究的热点之一。经过十余举的发展,研究重点逐渐从发现方法转向系 统应用,结合应用领域的特色而得到发展,同时液重多种发现策略和技术的集 成,戳及多学辩之闼夔援互渗透。 丈域j | 蠢测信息量的迅速增长,需强有效的分析处理技术的支持。利用数据 挖掘技术分析处理具有多维和高度非线性特征的大坝安全监测信息,将有助于 分辑大臻靛安全装态,挖藏器影薅瓣素对大埂安众鹣影穗效威疑惑霪,避蠢罐 高大坝安众监测系统分析处理姣测储息的能力,评价和预测大坝安全性态,以 确保大坝寂全,充分发挥工程效益。所以,对大坝安全监测信息的数据挖掘披 寒透露磷褒,荚骞重簧熬磅究玲蹙耪实骣意义。 1 2 研究现状及问题的提出 1 2 。l 大溪安全鎏溯系统聚究魏凝 大坝安全监测系统的发展是以所有监测元件的发展为标志的,包括从相关 戆传感爨、测量仪器到转换、处理、毒馕、打印鞠分撬设备的发展。大圾擞测 系统硬件,国内外技术交流较凝繁,自动纯搜采被广泛静采掰。大坝监浏盘动 化经历了从单台仪器邋测、专用测擞装置、集中武数据采集系统到分布式数据 采集系绕瓣发展过程 9 0 i 。l 意外,菠麓瞧子计算枧、激光、空阉技本、g p s 、毙野 传感等高技术的发展,一些新的技术和设备弓l 入了大埂盆测系统,铡翔糟激光 准直测量技术量测位移,用热梯度顾检查发现渗漏,用差动电阻式仪器进彳亍温 度、应力骧变、渗透燕测阱l ,用毙纾俦感测量裂缝谯囊弱大小,嗣声学装爨发 现裂纹,经纬仪在确定自身位置后,可涌出水艨远坡韵系剜椽海;更为糟确的 全球定位系统可用于监测位移;远稷摄影可对无法接近的大坝企貌进行拍摄, 遣可监测滋洪遂或渣洪魔琵安全,势对必防止遽受破嚣蔼来缀谗可不得进入瓣 附属设施和控制单元进彳亍篮测刚【9 。 篓:鲎箜鲨 1 2 1 1 国外大坝安全髓测系统 发达黼家已充势乖l 瘸现代信意按术建立了较为完善的大缓群安全蕊灏惹 统,尤其意火利、葡萄牙、西班牙、法国等在大坝安全监测方蕊有较长期的戚 用实践,农灏酝上有较大影响f 5 5 1 - 1 5 7 1 。 法国魄力公司开发瓣大褒益测鼗攥处理系统,蔻一个夫登懿穴竣群安全簸 测系统,瞥理着1 5 0 多个大坝的监测数据5 9 1 。该大坝监测处理浆统是以发现绐 构异常为强豹,一旦确寇异常后,短期集中专家进行现场调查评价并在系统外 开震必要酶诗算分桥等羔佟。美国t o l t 大埂【5 霹鹣监测中心,霹潮用各释分狐 软件对监测数据进行分析评价,对大坝安全性态做出判断,并输出各种图表和 擞告。 意大科在大琰安全簸测系统魏开发研究方嚣一蠢处于国际镁先逵位。晕麓, 意大利结构和模型研究所( i s m e s ) 开发了m i d a s 大坝安全信息管理软件。 m i d a s 是个管理和处理监测数据嬲系统,系统露1 4 个模块_ 释l8 个配套的辅 助程序,爵实现大容蠹黧测数据静实辩存储、更薪、恢复羁图形漫示,还麓建 立统计回归模型、确定性模型和混合模型,并进行简单的对比分析,可被多用 户同时使用姗。二十世纪丸十年代,骤犬铡开发了d a m s a f e ,d a m s a f e 怒 一个对结梅进行安全管壤酶决策支旃系统。它将人工智能技术澎雳于大竣安众 管理中,并岛国际互联咧络i n t e r a c t 相连接,可使多个专家通过效事他们的知识 和共享分蠢乎诗算机鼹络上的不尉种类靛数据资源来会作管理大坝安全。 d a m s a f e 提供了一个平台,用户通过这个平台w 淤访弼不丽数据库静资源, 检索设计报告、图纸、照片、监测及试验数据以及专家对坝的评价等资料 5 7 j 。 戴终,意大剩南鄄1 8 座犬蠼遥过i s i d e 中心建立了犬埂安全监潮系统,可支 持大项监藏部门的蓝测游动和查询强务,向政府主管部门捷供掇锫和监铡绪祭。 这1 8 座大坝的监测项目盘要有:现场的静态监测、地震监测、靛督活动和离线 分辑;远稳熬嚣巍纯篮溅、远程访溺捺剿、反入授镱。i s i d e 簸测串心主要露: 确定性模溅分析、有限愆模鍪1 分柝、结梅分析翔蜜全评价、承文水利分轿、 大坝安全综合评价等。其中各大坝现场自动化滥测系统用于收集和管理数据、 参照缝分橱、数值越爨壤擎、网络入馒壤警及可税纯图像盗测,i s i d e 监测巾 心保证了大埙监测现场、篮测部门办公室和整个濂测孵络的畅遴和运行,并滋 3 河海大学颂士学位论文 行各种在线分析、检查和寓线分析。 1 2 1 ,2 国内太瑗安全监测系统 我国在开发整测数据鑫凄纯采集系统懿鬻葬季,魄进行了整测倍患处疆系统 的研究和开发工作。2 0 世纪8 0 蓝莽代出现了单机式靛测数据管理软件,其后9 0 年代,各大脊关研究院所进行了大坝监测数据处理系统的研究开发。吴中如、 颟狰辩、浇羧串等提密并好发了建立奁一梗鼗痒( 熊瑾撬、鼗据霹、翔谖痒、 方法庠和图瘁) 基础上的大坝安念综合评价专家系绕,郑寒健、爨中如、徐洪 钟、苏怀智等提出了大坝安全监控智能框架和结构【g 】。南京自动化研究院研制 开发7d a m s 大颤鑫动黧溺系统容d s i m s 大续安全管理倦意系统,高滚承交 自动化研究院开发td g 大坝自动监测系统,河海大学开发了龙攀峡大坝安全 综合评价专家系统【9 3 j 、水口水电站在线炭全监控及反馈分柝系统p 4 1 和古阴溪大 矮群安全益溺系统。1 9 8 9 年,麓葶浃大撅安装瘫嗣了该型系统,箕毽括数据疼、 方法廖和模型库,具有存储、计爨、统计、建立模型等功能;1 9 9 5 年装设了大 化水电厂监测数据管理系统,其建立于w i n d o w n t 网络平台上,为大坝监测管 理系统向丽络方商笈震开薜了遘潞;1 9 9 8 年眷j t 毫潮采用c t s 模式建立了广缄 网式监测系绞,系统的核心是一个分磷戏数据库,管理直属的8 魔太坝【l 研。 综上,我国的大坝安龛监测系统开发较晚,但发展速度较快,采用了系统 工程、专监谱价系统理论、专家辅助决策系统理论等最薪鹩技术,并开始商远 程网络、智能管理方向发展。 1 2 1 2 数据挖掘技术产生及研究现状 1 9 8 9 年8 月,在美国底特律市召开的第十一届国际联会人工蟹能学术会议 上正式形成了数据挖掘的概念 5 1 。数据挖掘也被称为从数据库中发现知谈、数 疆考吉、信怠收帮、数据采越移数据发籀等【硌l 。对数据挖攒懿定义瞧较多,茏 一致的说法,较认可的描述性定义是f a y y a d 等给出鲍,从穴量的、不完金的、 有噪声的、模糊的、随机的实际数据中,提取出隐含在其巾的、人们事先不知 遭豹、但又慧潜在瓣、有麓赘信惠秘知谖熬过程湖。旋1 9 9 5 年莛,美国入工智 自协会每年举行一次知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) 豳际学 术会议,把对数据挖掘和知识发现的研究推向了高潮。除此之外,还有许多数 4 第一掌绪论 据挖掘年会,如亚太平洋地区数据挖掘会议( p a c i f i c a s i ac o n f e m n c eo i l k a o w l c d g ed i s c o v e r y a n dd a t a m i n i n g ,p a k d d ) 、欧溯数据菠援毒擘论会( e 翻对粥黼 s y m p o s i u mo np r i n c i p l e so fd a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ,p k d d ) 、 s i a m ( s o c i e t yf o ri n d u s t r i a la n da p p l i e dm a t h e m a t i c s ) 组织的数据挖掘讨论念 ( s i a m - d a t a m i a m g ) ,戳及鼗蕹痒、嚣惑楚瑾、窳鼙 _ i 程等领域黪嚣耩学零聱l 物也纷纷开辟了k d d 专题或刊物1 2 4 1 。 数据挖掘技术发展的主要算法有分类规则、预测分析和趋势分析规则、关 联算法、聚炎算法、绕诗分辑算法、添转霞建羹法、霉睾经阏终零逡俦算法等f 确, 其应用主要体现在三大方面:商业应用、科学研究和w e b 挖掘。最早应用于商 业,如对顾客数据库进行分析,预测潜在用户以便向他们推销产品;分析市场 营镑数箨,谖溺舔客豹魏买行为模式;浚及辖韵嚣券投资、猿瘸卡欺诈 鑫溺、 预测流失顾客和识别违法企融交易等。成熟的系统肖f a i s 用于银行或商业上发 现欺诈行必、f i d c l 姆s t o c ks e l e c t o r 用于投资、l b sc a p i t a lm a n a g e m e n t 用予鬻 瑾有馥证券簿。科学研究方瑟静应弱,翔热媾瑷王学院嚷气蘩遴实验室与天文 科学家合作开发的s k i c a t ( s k yi m a g ec a t a l o g i n ga n da n a l y s i st 0 0 1 ) ,采用决策 树方法构遗分类器,对擞体进行分类,比以往方法效率高4 0 倍。基因工程上, 数据挖援技零属于跌基瓣数据库孛援索菜耱臻缝鹣麓因审、粪蠢离酴结稳或硗 能的蛋白质相似的高阶结构序列【2 0 l 。w e b 挖掘用于合理建造网站及合理设计服 务器,如巍存商度相关的站点间提供快速有效的访闯逶道;帮助更好地组织设 计w e b 圭燹;帮助改善帮场营镑决策,觉广告敖在逶当魏w e b 黉上。电子蠢务 中,w e b 挖掘应用较多,y a h o o 收购了数据挖掘公闭h y p e r p a r a u e ,应用其技术 以提高i n t e r a c t 站点和客户的关联性。i b m 发布了以w e b 为中心的数据挖掘解 决方案s u r a i d 。n e tp e r c e p t i o n s 公司舞1 0 0 多家w e b 商盈筵点撬供动态数蕹缆 掘技术,以发现哪些用户最有可能购灏公司产品。 然露,鳓藤数摆挖糊理论体系仍不完善,还没稽形成- - i 1 独囊完整的学科。 有很多尚需完善的遗方驻6 1 。数据挖菰技来处理豹数豢对象类鼙楚多群嚣,缝鹣 化的、半缡构化的、非结构化的,数据挖掘算法威可以处理复杂的数据;1 2 王殿 算法妁效攀鞫扩展性、挖掘结果豹w 寝达性、交鞭式挖掘的构娥等都需要进 步有效的鳞决驻”。 河海大学硬士学位论文 1 2 3 数据挖掘在大坝安全监测中的应用现状 大坝安全监测目的是评价大坝安全状况,更好地发挥工程效益,节约工程 投资”l 。目前对大坝安全分析评估的研究主要是借助工程经验和对监测项目观 测量的实测资料建立数学模型( 统计模型、确定性模型和混合模型) 来进行的。 随着多学科交叉渗透,大坝安全监测信息挖掘和评价也融合了除统计理论 之外的很多新兴技术,如模糊学、混沌理论、神经网络、遗传算法、小波分析、 分形理论等。这些新的理论丰富了监测信息挖掘和分析方法的选择面,为监测 信息的分析工作开辟了新的途径。但这些方法的运用方式多以单向的应用见常, 体现的是方法本身,被系统集成到大坝安全监测系统中的较少。苏怀智、吴中 如等吲利用神经网络结合坝工理论和水口水电站大坝的工作特点,研究了系统 神经网络推理模型和神经网络监控模型,为水口水电站工程在线监控及反馈分 析系统功能的实现提供了技术支持。温志萍【叫在开放式大坝安全监控系统的开 发研究中,引入了数据仓库技术来实现数据库系统。王建研究了大坝安全专家 系统中的集成智能问题,提出采用知识发现技术来进行智能知识构建。向衍、 吴中如等9 】【”1 提出将数据挖掘技术应用到大坝安全决策支持系统中。王超、汪 迎春等【8 6 】提出了丹江1 2 大坝监测数据仓库的基本构架,可在此基础上实现分析 系统和决策系统。 综上所述,数据挖掘技术在大坝监测领域中的应用已经有所尝试,并开始 向系统应用方向发展。 1 2 4 问题的提出 大坝安全监测系统的应用和发展是大坝运行安全的一个重要的组成部分。 随着工程规模的日益扩大和监测信息的积累,大坝安全监测信息的及时处理分 析越来越困难,数据挖掘技术为此提供了应用契机,通过挖掘隐藏在监测数据 背后的有用信息将有利于分析大坝工作性态,评价大坝安全状况。但由于应用 领域的变化,数据挖掘技术应用不是一蹴而就的事。急需解决的问题有: ( 1 ) 数据挖掘处理过程从最初的业务理解到最后的方案发布,具有一定的 系统性;大坝监测信息的处理分析,专业性强。通过计算机技术实现两者的有 机融合,且结构要合理、整体运行良好。为此,需要构筑适合大坝安全评价和 6 第一章绪论 预测的大坝安全监测信息的数据挖掘处理系统框架,便于系统实施。框架中涉 及的数据仓库、数据预处理等问题如何解决,都需要进行探讨。 ( 2 ) 数据挖掘技术算法众多对监测信息的处理有较大的选择空间。但挖 掘算法多为应用而开发,且应用领域多为商业。在监测领域中使用,需要以专 业知识作为指导,融入领域规则,所以,如何对现有的挖掘算法进行改进,以 更好的适合挖掘监测信息,需要进一步的研究。 ( 3 ) 可视化技术是大坝监测系统研究和应用的重要内容,也是数据挖掘技 术应用研究的新领域。如何利于可视化技术实现监测信息的表示,加速监测信 息的挖掘,需要深入的探讨。 1 3 本文研究的主要内容 本文结合国家自然科学基金重点项目“重大水工混凝土结构隐患病害检测 与健康诊断研究”( 5 0 1 3 9 0 3 0 ) ,针对大坝安全监测信息的数据挖掘处理技术开 展研究。本文主要研究内容如图1 1 ,包括挖掘系统平台的结构、数据分析环境 的创建、数据预处理和数据可视化技术等部分。 ( 1 ) 从大坝监测系统功能出发,在充分认识数据挖掘技术如何处理问题的 基础上,研究了大坝安全监测信息的数据挖掘处理过程,构建了大坝监测信息 的数据挖掘应用平台,并对系统构架中的关键技术问题进行了探讨。 图1 1主要研究内容框架图 7 河海太学硕士学位论文 ( 2 ) 醣究了数豢念瘁戆技零黪患,搽避了大缀安全夔溅臻感数据仓露麴侮 系结构、数据建模和交施方法,实黼了分析型数据环境;与此同时,研究了大 坝监测信息预处理技术和方法,设计了规则过滤舞法:此外,为提高信息处理 效率,攘讨了特短选耩技术孛款c 毯2 算法。 ( 3 ) 研究了相似序列挖掘技术,结合大坝安套监测特点对算法进行了改进, 并对改进的算法进行了燕例验证。 ( 4 探讨了鼗撼鬻凌证霹毒撬证数据挖撼搜寒,共基于大矮安全整溪痿怠 可视化的领域特点,研究了多维数攒可视化方法;构建了一种新的大坝监测信 息实效图制作方法,开发了相应的分析程序。结含工程实例,对其中的技术鼹 点进行了深入磅究。 8 第二章大坝安全监测信息的数据挖掘应用平台构架 第二章大坝安全监测信息的数据挖掘 应用平台构架 2 1 概述 随着大坝监测技术的发展和自动化数据采集系统的应用,收集了大量的大 坝安全监测信息,对了解大坝安全起到了十分重要的作用。但如何快速处理这 些数据,及时分析提取大坝安全性态和影响因素,成为实时监测大坝安全的难 点。过去,监测信息处理分析系统大都是独立的系统,支持一个或多个算法, 运行时,手工或半自动化地处理好数据后,一次性或批量的送给程序去处理, 之后再人为地判断结果的可靠性。这样的处理过程,在数据量较少时是可行的, 而现今,数据量不但规模庞大,数据体系间的关系也更加纷繁复杂,传统的处 理手段其效率己不能满足需求,且由于人为的参与,其错误率将同数据量的增 长成正比。因此,监测信息的分析系统尚需不断的更新发展,吸收最新的、成 熟的计算机领域、专业领域以及其它相关学科的技术为其所用。数据挖掘技术 其目的就是从实际的海量数据源中发现知识,采用和发展有关的理论、方法和 工具来提取有用的和人们感兴趣的知识和模式。自此,应用数据挖掘技术,构 建大坝安全监测信息的数据挖掘应用平台,将有利于进一步分析提取大坝安全 性态信息,及时分析大坝安全状况。 数据挖掘( d a t am i n i n g ,简称d m ) 系统是根据各专业和应用领域的特点, 将各种有效的挖掘技术有机的融合成一个整体,而不是多项技术的简单组合, 它需要很多辅助技术的支持,才能完成数据采集、预处理、模型建立和结果表 示等一系列任务。目前,数据挖掘技术在大坝安全监测中的应用尚处于起步阶 段。应用数据挖掘技术的大坝安全监测系统,是以坝工力学、坝工和安全监测 领域的专业理论和知识为基础,从大坝监测多维数据信息源中发现知识,提取 对大坝安全性态评价有用的知识和模式,同时处理好各个子系统和模块闻的关 系。大坝安全监测信息的数据挖掘应用平台是构建大坝监测信息的数据挖掘系 统的底层技术,方便系统各子模块的实施和扩展,根据具体的实现技术可构建 不同的大坝监测信息数据挖掘系统。 河海大学硕士学位论文 本章在研究了数据挖掘方法和系统技术发展的基础上,探讨了大坝监测信 息的数据挖掘处理特点,结合已有的大坝安全监测系统结构,构建了大坝监测 信息的数据挖掘应用平台的构架,并研究了相关的技术问题。 2 2 数据挖掘方法 为分析数据挖掘方法在大坝安全监测中的应用,下面简单介绍一下数据挖 掘的方法。数据挖掘方法即数据挖掘处理过程模型,是为应用数据挖掘技术提 供一种系统的技术实施方法 2 0 l 。 数据挖掘系统的发展和数据挖掘处理过程以及任务的演变紧密相关,一方 面系统必须实现各种复杂的数据挖掘任务,另一方面系统必须体现数据挖掘过 程循环迭代的本质。随着数据挖掘研究和应用的开展,迫切需要一个统一的标 准来指导数据挖掘应用和系统开发。目前,c r i s p d m 是公认的、较有影响的 方法论,见图2 1 【”】。k d n u g g e t s 于2 0 0 2 年就d m 方法做的一项调查显示其使 用率为5 l 【1 7 】。c r i s p d m 模型起源于1 9 9 6 年底,当时n c r 、c l e m e n t i n e ( 1 9 9 8 图2 - 1 c r | s p d m 过程模型图 1 0 第二章大坝安全监测信息的数据挖掘应用平台构架 年由s p s s 收购) 、o h r a 和d a i m e r - b e n z ( 现为d a i m l e r - c h r y s l e r ) 的联合项 目组正在为d a i m l e r - b e n z 公司实施d m 项目。2 0 0 0 年c r i s p d m1 0 版正式推 出【1 叭,并得到了广泛的应用。目前,大部分数据挖掘系统都遵循c r i s p d m 过 程模型标准来完成数据挖掘任务。 c r i s p d m 表达了数据挖掘不单是数据的组织或者呈现,也不仅是数据分 析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完 整过程。与此同时,数据挖掘也是一个循环迭代的过程,多次反复、多次调整、 否定之否定的螺旋上升过程。在图2 1 ,c r i s p d m 分为六个阶段:业务理解 ( b u s i n e s su n d e r s t a n d i n g ) 、数据理解( d a t au n d e r s t a n d i n g ) 、数据准备( d a t a p r e p a r a t i o n ) 、建模( m o d e l i n g ) 、方案评估( e v a l u a t m n ) 、方案发布( d e p l o y m e m ) 。 箭头表示阶段间的依赖关系,外层的圆周表示数据挖掘是一个自然的循环过程, 一个数据挖掘项目结束,一个方案将要被实施,进而引发新的d m 项目,新的 项目会从老的项目中受益【1 8 1 。对于大坝监测领域,数据挖掘各阶段主要包括下 列内容: ( 1 ) 业务理解:理解业务需求和目标,并将其转换成数据挖掘问题定义。 如将预测测点测值变化趋势、分析异常测值成因等问题理解并转化为可被数据 挖掘人员执行的定义。 ( 2 ) 数据理解:数据理解阶段,先收集原始的日常监测数据,对其进行 一定的处理工作,以识别数据质量问题、对数据有表层的洞察、基于上边的业 务理解能够察觉监测数据所隐藏的信息。 ( 3 ) 数据准备:不同的问题定义需要不同的监测源数据。例如预测测值 变化趋势要提取监测效应量;对于物理成因分析,除了监测效应量,还要提取 有关大坝的环境量、日常巡查数据、大坝的设计和竣工数据、运行数据等。数 据准备阶段覆盖了从初步粗数据到构造最终数据集( 将要送给建模工具的数据 集) 的所有活动,包括数据预处理的所有工作,属性选取、数据转换和净化以 满足建立模型的要求。 ( 4 ) 建立模型:根据具体的问题定义,选择合适的d m 模型。通常,为解 决一个具体问题要运用几个挖掘工具,而不同的挖掘工具对数据有不同的要求, 因此,常常又需要回到数据准备阶段。 河海大学确士学位论文 ( 5 ) 方案评嵇:对剐建立的模登进行彻底的评估,要求模溅要有较好的 质量。考察建立模鹫游豹鹰一个步骤,戆努考虑润题本身涉及的繇个方瑟的专 业问题,确保正确。在这个阶段的躁麟,要能够确定最好的模型域是被选中的 几个模型。 ( 6 ) 方案发意:模黧被宅建弗确诀合建嚣,黉鬟以合溅的方式震璃穗来。 模型的创建一般是数据分析人员的工作,方案发布,要有坝工专家的参与,因 为模型所要窝施的动住寅接影响下一步的工作1 1 9 1 。 c 黻s p 国m 过穗模墼献应焉静角度祷建,将d m 与实际斑褥綮密的继含起 来,更加注黧d m 的模型的质量和如何与专业问题相结合、如何应用刨建出的模 型等问题驻翻。数据挖掘过程是一个围绕数据展开的,涉及业务相芙的多个方面 的、环环籀弼紧密栩涟的循环过裰。数攥挖摇静方法论是一个指芬这一黉杂遵 程的工程实施方案,它对数据挖掘的主要环节、备环节的核心任转、预期目标 祁需注意的闽题等避行了详尽的论述,因而有效规藏了数据挖瓣的流程,为数 据挖掘豹j 蠛铡进行奠定了壤论基础。 但c r i s p d m 提供的只是一个顼隧管理槿絮。数据挖撼的实麓必须根键竣 工专业自身的实际情獯,撤据发现需求,借鉴以往专渡经验,实施适合大嫒姣 测自身专、韭领域豹数据挖獭工作。大城安全盆测信息的数据挖掘旋用平台采用 c r i s p d m 过程模型指导d m 的避褥。 2 。3 数据挖掘系统缝构 最初的d m 系统支持一个或少数几个数据挖掘算法,强用于挖掘向擞数据 ( v e c t o r - v a l u e dd a t a ) ,数据可一次性的调迸f q 存进行处理。随蓿待处理数攥璧 盼迅速蹭翔,d m 系统需爱有数攒痒和数据仓霖( d a t a w a r e h o u s e ,简称d w ) 魄支持。根据数据摭掘与数据库及数搬仓库系统的耦食程度可以分为零耦台、 松散藕食、举紧密藕合及紧密耦套四种缝构。零耦合输入数据悬从文件中取磷 的,存敞络莱也是存放在文件中,这种绪捣狠少使用。松散藕合怒翮雳数疆愈 麾或数摄痒傺为d m 搏法鸵数据源,其维果写入文件、数据麾或数据仓露中, 但不使用数攒库及数摆仓库提供的数掭缡构及麓谢设化方法。半耦合是攒部分 数据挖擒原谮出现程数据奄库或数据瘁串。紧密耦含是将数嚣挖掘集成劐数攒 1 2 第二章大坝安全监涮信息的数据挖掘应用平台构架 库或数据仓库中,作为其中的一个组成部分。目前的发展趋势照紧密耦合的系 统结褥箨】冀弼。 以前的数据仓库设计是方便联机分析处理( o l a p ) 操作的,现在数据库开 发商,如m i c r o s o f ts q ls e v e r 、o r a c l e ,开始注重d m 的应用。d w 能够存储大 量静数据,支持蘩繁靛、不胃颈麓蕊数撂检索秘查谗,受荛重要瓣建d w 撬壤 的是分析型数据环境,便子d m 的开展。可见,数据挖掘与数据仓库集成是必 须的。通过岛数据仓库集成,提供离性能的接口,保证了探索烈数据集市的擞 成速度帮鬃豢,握离了数撵挖藩戆速度。嚣蘸。较流行豹齑鲎软棒丈都集袋了 数据库数据仓库,典型的系统有:s p s s 的c l e m e n t i n e 、s a s 的e n t e r p r i s e m i n e r 、 s g i 的m i n e s c t 、o r a c l ed a r w i n 等。 兔了鼹大璞安全多缀、菲线往藏溺僖惑进孬茯速处理,挺彀瓣大竣安全稳 态分析有用的模式和知识,支持对监测信息频繁的检索和查询。需要数据仓魔 技术的支持。为此,太坝艇测信息数撰挖掘应用平台的构建采用数据仓库技术 来存德签铡信患,支持分辑登数攥环凌。 2 4 大坝安全监测信息的数据挖掘处理过程 大袭安全盗溅信意鹃数据挖箍遘糕翔整2 - 2 繇承。蕊兹分麓三令层次:数 据层、核心层和交互层,并构成一个闭环结构。要分析的大坝般测信息从数据 源中提取,疑过数据预处理工具( e c t l ) 处理后构成探索型数据集市,数据黛 蠢中静整涮数据一部分羧数据挖蘩算法所薅,一部分蜜爱模式谬徐。铮霹释浚 的具体坝工专业问题,龠理的从数据挖掘算法库中选用一个或几个数据挖掘弹 法,对监测信息进行训练,测试居形成模式;模式被评价为有用后,便形成知 识。蠡模式不合建、无效竣需要更裹级熬模式,爰复蓠嚣麓l 蓬程。篷孬说 明的是,由于前面的挖绷过程可很好的指导后面的数据挖掘算法的进行,进而 形成了一个循环上升的知识获取过稷,知识的可傣性和可利用矬变得更好,价 值氇更大。 大坝安全管理工作艇一个复杂的系统工程,从凝初的监测数据采集到最臌 大坝运行决燕能制定,德食了多方蕊的知识和众多部门的协调点作同样,一 个莨爵酶大瑛安全蓝溺傣怠系统豹运终,不毽器癸耪缎静专注朝浚帮辐关控零 河海大学硕士学位论文 作为基础,避需要备层次的工作人员的密切配合,热同参与。监测人员负责日 鬻测豢数据懿采集,剃焉器穗终滚系绞记录数据,存镰在文捧、数据瘁串,稳 成了熬本的操作型环境;数据库赞理人员( d b a ) 对操作擞环境进行管理,并 对数攒进行抽取、类型转换、清洗、转载到一个统一的数搬集或文件中,构成 分拆稳环境;数据分橱入爨熬悉数据挖掘算法豹藩壤耪绥节,了瓣算法篌震熬 数据类型和限制条件以及锫个参数所对应的实际意义,需要d b a 提供待挖掘的 数据集市,需要和坝工领域专家交流专业知识和业务问题:坝工专家利用数据 挖握工暴对数据进行深入戆分莓孚,发残数据鸷蜃稳藏懿援簿窝模袋,霉零l 臻专 业知识对模式进行判断和评估,进而形成有效的模型:领导决策人员能够理解 挖掘结果报表,能够根据大坝的舆体情况和专业相关知识,判断模型的取舍和 模鍪酶实施,盈蔻够捷邕耨静其体静淹蘧请竣工专家继续遴行进一步静数据挖 掘或新的d m 项耳,寻找邋合的解决方察。根据具体情况,职责分工可以更细, 实际运营时也有可能一个人担任多个角色,如采用自动化旅测系统的大坝,数 据库管理人员胃激一并替代数嚣采集入员豹工作。稳数据挖据过弦酌其体步骤 仍然不s 够随便省略。 l i t2 - 2 鏊潮馕慧瓣数据羧撬处遴进程鍪 i 毒 第二章大坝安全监测信息的数据挖掘应用平台构架 2 5 大坝安全监测信息的数据挖掘应用平台的构架 大坝安全监测信息的数据挖掘应用平台构架是监测信息数据挖掘应用平台 的结构和理论基础例。根据c r i s p d m 模型,结合大坝安全监测的实际情况设 计的系统平台构架如图2 3 。 , d m0 l a pd s s q l 。 鬻同甸同舒 d c d c 鬻 e 哪刁+ 。转换、加载 i l e c r l ) j 、1一 操作数据陲司一 存储 l o d s j 数据整编一j _ l 规则过滤 、黯同国同移, 图2 - 3 监测信息的数据挖掘应用平台构架 图中的平台构架主要是根据数据挖掘技术构建的,一个系统的、功能较全 面的大坝安全监测系统还有其它的组成部分和一些辅助功能,可在此基础上扩 展,也可以将其嵌入整体的监测系统结构中。数据挖掘平台构架引入了数据仓 库技术,最大限度的考虑了数据质量问题,使探索型数据集市中的数据尽量的 “干净”。本文第三章将对数据仓库、数据预处理进行研究。客户端应用了可 1 5 一客户端一 监测信息数据挖掘平台 一 数据源 一 河海犬学硕士学位论文 稷亿鼓零,可筏证技零是数据挖掘镶域蘩发震怒寨瓣磅究矮域,它可班莠簸瓣 提高数据挖掘速度和人们对模型的理解深度,本文第五章将对萁进一步的介绍 和研究。下面对平台构絮的组成和功能作具体的说明。 2 5 。l 犬壤安全釜测数据源淫 主要完成监测数据采集、数据处理和数据集中式存储。邈也是目前大部分 承电厂应用夔整溅数攒警理型系统完成戆臻能。巍予各令丈璞豹簸测馕援不翔, 较老的埂大都只有人工观测,监测系统更新的域人工、自动能簸测并存,新建 的大坝以自动化监测为主或人工与自动化监测并存。手工监测的数据主要怒以 天王录入夔方式入摩;爨囊讫篮测出予蕊测项嚣较多,仪器不一,坟器厂蓊挺 供的数掘存储形式也大裙径庭,数据库类型也不同,所以,原始的数据形式多 样和分布较昴构,存在大量的噪声数据、空缺数据和不一致数据。为此需对原 始艇监测数据透露大鬃豹处理工季# ,壤据各太电厂鲍实际清掇,减少数据携撼 平台层数据处理的工作麓,构架中潮入了操作数据存储( o p e r a t i o n a ld a t a s t o r e s , o d s ) 构件,数据在进入o d s 前需进行整编、规则过滤,其中熬编就是仪器测 蓬数据瑗揆葵成对应懿靛测顼嚣豹缎;瘦剿过滤楚壤攥专鼗熟谖去臻整绽德中 的超出一定界限的或怒不合理的测麓值。大坝髓溯人员对仪器熬编公式和专业 规则最了解,所以数据艇编和规则i 建滤在此进行熙加有利,且可以根据实际监 测螬嚣逡簿逶遮掺改。羧据整编窝麓燃过滤工具集嶷残鬓o d s 系统孛,由o d s 系统统一篱理。此外,这样的结构也便于向网络方向扩展,数据挖掘平台髅和 数据源可实现分离,建虚o d s 同数据仓库间的数据映射关系即可。总之,大坝 安全整溅数据源屡蕊褥建袅夫限度豹考纛基蔫大竣_ l | 萋测售塞管理戆实嚣壤凝, 尽可能的利用现场的藏测信息管理系统作为数据的来源。 2 5 2 大坝安全监测俊息的数据挖掘平台屡 引入数据仓库( d a t aw a r e h o u s e ,简称d w ) 技术,有效管理和和用犬颁监 测信息,构建数据挖掘皮用的分析型数据环境。遇常,d w 中的数据已经过数 据涛洗、数据交换、数撵集成等数攒瑷处理操终,数据鹣完整瞧穗一致性较好, 因此,数缀仓库中的数攥相对于其它数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电站二次监控课件
- 高考化学重庆题讲解课件
- 高级摄影基础知识培训班课件
- 1.4用一元二次方程解决问题 分层练习(含答案)数学苏科版九年级上册
- 音乐三年级下册 卖报歌 课件(内嵌音频)
- GLP-1R-agonist-32-生命科学试剂-MCE
- 5-Azacytosine-15N4-生命科学试剂-MCE
- 初级社工考试题及答案
- 英美拼写考试题及答案
- 电源电路基础知识培训课件
- DB52T 1724-2023 城市道路指路标志设置与管理规范
- 分子生物学课件第一章医学分子生物学绪论
- DB11T 1794-2020 医疗机构临床用血技术规范
- 应急信息报送规章制度
- 商务专员培训
- 某港池航道疏浚和吹填造陆工程施工组织设计
- 质量为纲-华为公司质量理念与实践
- 统编版语文一年级上册第八单元单元任务群整体公开课一等奖创新教学设计
- 新媒体视频节目制作全套教学课件
- 矿山企业采掘作业规程
- 人教版小学语文1-6年级背诵内容完整版
评论
0/150
提交评论