




已阅读5页,还剩98页未读, 继续免费阅读
(安全技术及工程专业论文)基于粗糙集理论数据挖掘方法在边坡安全评价中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t a san e wp r o d u c to fi n t e l l i g e n ti n f o r m a t i o np r o c e s s i n gt e c h n i q u e , t h er o u g hs e t t h e o r y i san e wm e t h o do fa n a l y z i n g ,r a t i o c i n a t i n g , l e a r n i n g a n d d i s c o v e r i n g r u l ef o r i n c o m p l e t ed a t ap r o b l e mw h i c h d e v e l o p e db y p o l i s h s c i e n t i s t - p r o f e s s o rz p a w l a k b a s e do nt h e t e c h n i q u eo fr o u g hs e tt h e o r y ,d a t am i n i n gc a ne d u c et h ec o n d i t i o na n d r e s u l t ( d e c i s i o n m a k i n g ) p r o p e r t i e so fk n o w l e d g ee x p r e s s i o ns y s t e m ,a n d f i n da l lm i n i m u md e c i s i o na l g o r i t h m sa c c o r d i n gt ot h ek n o w l e d g e t h ee s s e n c eo fd a t am i n i n gi sb a s e do nt h ef u n c t i o no fe x t r a c t i n g u n d i s c o v e r e db u tu s e f u lk n o w l e d g ef r o mt h em a s s a m o u n to f , i n c o m p l e t e , u n o r d e r l y ,f u z z ya n ds t o c h a s t i cd a t a i t sw e l l - k n o w n ,t h ee x p e r ts y s t e m w h i c h d e p e n d su p o nm a n u a lb a s i s h a sab o t t l e n e c kp r o b l e mw h e n o b t a i n i n gk n o w l e d g eo fe x p e r i e n c e ,f u r t h e rm o r e ,i ti sa l s od i f f i c u l tt o o b t a i nu s e f u lk n o w l e d g ef o rc o m p l e xp r o j e c to f s l o p e ;a l t h o u g ha r t i f i c i a l n e u r a ln e t w o r ks y s t e mh a sm o r en e t w o r km o d e l ,t h em a j o r i t yh a si t s a c c o m m o d a t i v el i m i t a t i o n s o ,t h e r em u s tb es e v e r a l c o m p l e m e n t a r y m e t h o d s ,t h e nt h ea n t i c i p a t i v eg o a lc a nb eg a i n e d i na l l u s i o nt oc a t a s t r o p h i cf a i l u r eo fa r t i f i c i a la n dn a t u r a ls l o p e s ,t h i s p a p e rc o m b i n e sw i t ha b u n d a n ts l o p ef a i l u r e sd i a c h r o n i cd a t a ,e m p l o y s t h et e c h n i q u eo fd a t am i n i n ga n da n a l y t i c a l p r o c e d u r e s ot h ei n h e r e n t l a wi nd i a c h r o n i cs l o p ef a i l u r e sc a nb ee x c a v a t e d ,a n dt h o s ev a l u a b l e m a s sd a t ao fh i s t o r i c a ls l o p ef a i l u r ec a nb ea v a i l a b l yu s e di ns o l v i n gt h o s e p r o b l e m so fp r e s e n tp r o j e c t s i nt h i sw a y ,i tc a ns o l v et h ed i f f i c u l t i e so n a s s e m b l i n gt h o s ei r r e g u l a rd a t a ,m a k i n gt h o s e i s o l a t i n gd a t aa s s o c i a t e d a n d t r a n s f o r m i n gt h o s eu s e l e s sd a t at ou s e f u li n f o r m a t i o n ,a n ds oo n a l s o , h 1 1 : 、 i tm a k e st h es a f e t ye v a l u a t i o nr e s u l tm o r ea c c o r d a n tt o e n g i n e e r i n g p r a c t i c eb yc o m b i n a t i o n o fh i s t o r i c a la n dp r e s e n td a t a f i n a l l y ,t h i sp a p e rb u i l d sr i s ka n a l y s i sm o d e lw h i c hb a s e do nt h e r e s u l to fd a t am i n i n g f u r t h e rm o r e ,b yq u a l i t a t i v ea n dq u a n t i t a t i v er i s k a n a l y s i s ,t h i sp a p e ra c t u a l i z e st h ec o m p r e h e n s i v es t u d yo fs l o p er i s k s n a t u r a lc h a r a c t e r i s t i c ,d i s a s t e rc o n s e q u e n c e ,t y p e so fu n c e r t a i nf a c t o r sa n d t h e i re f f e c to nd e c i s i o n m a k i n g p r o c e s s ,a n da c c u r a t e l yg a i n s t h e r e a s o n a b l es a f e t ya s s e s s m e n tr e s u l t ,a l s og e t st h eg o a lo fr e a l i z i n gs l o p e s s a f e t ye v a l u a t i o n k e yw o r d s :r o u g hs e t s ,d a t am i n i n g ,d a t aw a r e h o u s e ,l a n d s l i d eh a z a r d , s a f e t ye v a l u a t i o n i i i 中南大学硕士学位论文 第一章绪论 1 1 引言 第一章绪论 随着我国现代化建设事业的迅速发展,各类高层建筑、水利水电设施、矿山、 港口、高速公路、铁路和能源工程等大量工程项目开工建设,在这些工程的建设 过程或建成后的运营期内,不可避免地形成了大量的边坡工程。而且,随着工程 规模的加大、加深及场地的限制,经常需在复杂地质环境条件下,人为开挖各种 各样的高陡边坡,所有这些边坡工程的稳定状态,事关工程建设的成败与安全, 对整个工程的可行性、安全性及经济性等起着重要的制约作用,并在很大程度上 影响着工程建设的投资及效益。边坡失稳产生的滑坡现象已变成同地震和火山相 并列的全球性三大地质灾害之一。我国每年由于各种滑坡造成的损失达2 0 0 亿 元,边坡的安全分析与评价是边坡工程的重要核心内容之一,因此,客观准确的 边坡工程安全评价的重要性显而易见。 然而,由于边坡系统是一个开放的复杂系统,其稳定性受地质因素和工程因 素等的综合影响,这些因素有的是确定性的,但大部分具有随机性、模糊性、可 变性等不确定性特点,对不同类型边坡岩体稳定性的影响权重是变化的,而且这 些因子之间具有复杂的非线性关系,因此在边坡岩体稳定性分析过程中应根据具 体情况动态地选择参评因素,这些都要求边坡岩体稳定性分析方法应当具有能够 同时处理确定性和不确定性信息的动态非线性的能力,在大量已有的边坡工程实 例基础上,客观地识别出边坡的稳定状态。 近年来,边坡安全评价方法的研究取得了许多新的进展。针对影响边坡稳定 性的诸多因素的不完整性和不确定性,研究人员先后提出了一些新的边坡安全评 价方法,如模糊综合评价方法【卜”、灰色聚类评价方法【4 、5 】、可靠度评价方 法【6 ”、系统聚类评价方法【8 】以及神经网络评价方法【9 1 0 】,等等。这些评价方法 的提出从不同侧面反映了影响边坡稳定性的不确定性的性质。鉴于边坡安全评价 方法的特殊复杂性,以及常用的分析与评价方法都不同程度存在相应的缺陷,研 究人员已经充分认识到了地质资料的重要性,强调理论、方法、技术的一体化研 究】:已经注意到对大量的、其稳定性状况已被研究清楚的边坡实例在边坡安 全评价中的比较和应用【1 21 3 】:根据边坡的历史范例提出了基于范例推理的边坡 安全评价模型【l ”,等等。本文也正是在这样的背景前提下,把数据挖掘技术应 用于边坡工程的安全评价中,并且取得了较满意的结果。 中南大学硕士学位论文第一章绪论 1 2 滑坡灾害安全评价在国内外研究现状 1 2 1 国外研究状况 从2 0 世纪6 0 、7 0 年代开始,一些滑坡多发国家,如美国、法国、意大利、 日本以及前苏联等,开展了大区域的滑坡灾害规律研究,认为滑坡灾害的减少必 须与国土开发规划结合在一起考虑,其预测研究对策取得了一定的成效。近2 0 年来,滑坡研究的特点已由过去的单个滑坡的现象描述、分类治理发展到现在以 定性定量描述为基础的定量预测预报研究,但作为灾害研究则是近1 0 多年的事。 尽管各国所采用的滑坡灾害评价方法不同,但它们又具有某种共同之处,即充分 考虑各种地质因素的共同叠加作用,评价某特定地质环境中产生滑坡的可能性, 各种方法之间的差异在于叠加方式的不同。其所用基础资料通常包括滑坡分布 图、构造地质图、地形地貌图、水文图、植被图、人工活动方式图等。作为滑坡 灾害评价不仅要确定已有滑坡的范围,而且还要预测尚未产生滑坡而今后可能产 生滑坡的位置,或者圈定具有产生滑坡的不利地质因素组合的位置。 2 0 世纪6 0 年代以前,滑坡灾害研究主要局限于灾害机理及预测研究,重点 调查分析滑坡灾害形成条件与活动过程。7 0 年代以后,随着滑坡灾害破坏损失 的急剧增加,促使人类把减灾工作提高到前所未有的高度。一些学者和发达国家 首先拓宽了滑坡灾害研究领域,在继续深入研究滑坡灾害机理的同时,开始进行 滑坡灾害评估研究工作。美国首先对加利福尼亚州的地震、滑坡等1 0 种自然灾 害进行了风险评价。通过该项研究,得出1 9 7 0 2 0 0 0 年加利福尼亚州1 0 种自然 灾害可能造成的损失为5 5 0 亿美元:如果采取有效的防治措施,生命伤亡可减少 9 0 ,经济损失也可以明显减少。p j f i n l a y 和r o b i n f e l l ( 1 9 9 7 ) 从滑坡风险辨 识和可接受滑坡风险水平出发,对澳洲和香港的滑坡灾害风险进行了研究,其成 果包括滑坡灾害的调查、土地开发原则、滑坡灾害的分类、滑坡灾害造成的生命 财产损失可接受概率等。p j f i n l a y ,g r m o s t y n 和r f e l l ( 1 9 9 9 ) 用统计学原理, 对香港1 9 8 4 1 9 9 3 年的3 0 0 0 多个滑坡灾害纪录数据库进行了统计分析研究,建 立了基于滑坡灾害几何条件的预测滑坡灾害水平运动距离的多元回归模型。 f c d a i 和c f l e e 对滑坡灾害的危险性进行研究,研究了降雨与滑坡灾害频率 及其体积间的关系。c o n r g s m y t h 和s t e p a r o y l e ( 2 0 0 1 ) 以n i t e r o i 城市为研究 对象,研究了滑坡承灾体城市居民的易损性,分析了滑坡致灾因子及其影响,并 提出了相应的滑坡灾害风险管理措施。f a u s t o g u z z e t t i ( 2 0 0 0 ) 建立了意大利 1 9 2 9 1 9 9 9 滑坡灾害导致生命死亡的数据库,对致命滑坡的发生频率及其致命 率的评估进行了系统的研究。r a n b a l a g a n 和b h a w a n i ( 1 9 9 6 ) 在r a n b a l a g a n ( 1 9 9 2 ) 前期关于同区滑坡灾害评估和区划制图研究的基础上,提出了风险评价 中南大学硕士学位论文第一章绪论 制图的新方法,建立了风险评价矩阵( r a m ) 。a u r o m e i h y 和e l l e n e w o h l ( 1 9 9 4 ) 在分析哥伦比亚的m e d e l l i n 地区地质灾害敏感性和生命易损性的基础上,利用 g i s 技术将二者合成产生了风险评价分区图。a c a r r a r a 和f g u z z e t t i ( 1 9 9 9 ) 用 g i s 研究了滑坡灾害分布图。j o h n r d y m o n d 和m u r r a y r j e s s e n ( 1 9 9 9 ) 用g i s 研究了在暴雨下滑坡灾害发生的概率。p i y o o s c h r a u t e l a l 和r a m e s h c h 和 n a l a k h e r a ( 2 0 0 0 ) 利用g i s 和遥感技术对印度的g i r i 和t o n sr r i v e r s ( 在h i m a c h a l h i m a l a v a ) 流域的滑坡灾害进行了风险评价研究。b t e m e s g e n 和m u m o h a m m e d ( 2 0 0 1 ) 利用g i s 和遥感技术研究了滑坡灾害与致灾因子之间的统计关系,并 用风险系数值 o ,1 】来评价滑坡灾害风险。 l2 2 国内研究状况 我国己把灾害风险评价作为防灾减灾建设的重要内容,并将之纳入国家可持 续发展体系。大多数地方的2 l 世纪议程都把防灾减灾作为可持续发展能力建设 的重要任务之一,提出了灾害风险评估行动方案。我国比较系统深入的灾害风险 评价是地震灾害。其代表性的工作成果首先是由国家地震局先后完成的三代中 国地震烈度区划图及使用规定。该图在对全国区域地震危险性评估基础上,确 定了不同地区一般场地条件下在未来一定期限内可能遭遇超越概率为1 0 的烈 度值,即地震基本烈度。黄祟福等用模糊集方法建立了城市地震灾害风险评价的 数学模型。对其它领域的一些灾害也开展了不同程度的灾害风险评价研究。水利、 农林、气象等部门的一些专家分别对一些区域性洪水灾害、森林灾害、台风灾害 等进行了风险分析或灾情预测评估,编制了风险图,提出了灾情评估或风险评价 的方法和技术。虽然这些工作还不深入且较零散,但对指导行业减灾,提高灾害 风险管理水平发挥了一定作用。近年在地质灾害领域风险评价开始兴起,2 0 世 纪8 0 年代以前,地质灾害研究主要局限于对灾害分布规律、形成机理、趋势预 测等方面的分析。8 0 年代以后,地质灾害研究开始突破传统的研究模式,研究 水平不断提高,研究内容日益丰富,开始向新的独立学科发展,随之,灾害风险 评价开始起步。刘希林( 1 9 8 8 ) 、苏经宇( 1 9 9 3 ) 等提出了判别泥石流危险性分 布的标志和方法。张梁( 1 9 9 4 ) 等根据环境经济学理论,初步论证了地质灾害的 属性特征和风险评估的经济分析方法。张业成( 1 9 9 5 ) 等以灾害度为指标,评价 了中国地质灾害危害分布特征,还对云南省东川市泥石流灾害进行了风险分析。 刘玉桓( 2 0 0 1 ) 等建立了土坝滑坡灾害风险计算模型,采用蒙特卡罗法计算了菜 水库土坝滑坡风险。赵其华( 2 0 0 2 ) 等d a ) l l 藏公路- - f i g 山隧道西出口的和平沟滑 坡灾害为研究对象,对滑坡灾害的可能失稳规模、方式及其危害性进行了研究。 朱良峰( 2 0 0 2 ) 等研究开发了基于g i s 的区域地质灾害风险分析系统,对全国 范围的滑坡灾害进行了危险性分析、易损性分析和最终的风险评估i ”】。 中南大学硕士学位论文 第一章绪论 1 3 粗糙集理论的主要特点及所能解决的问题 粗糙集是一种处理不精确与不完全数据的新的数学理论。粗糙集理论建立在 分类机制的基础上,将知识理解为对数据的划分,是在特定空间上由等价关系构 成的划分。近年来,它已被广泛地应用在人工智能、模式识别和数据挖掘等方面。 粗糙集( r o u g hs e t ) 理论的特点是不需要预先给定某些特征或属性的数量描 述,如统计学中的概率分布,模糊集理论中的隶属度或隶属函数等,而是直接从 给定问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出该 问题中的内在规律。粗糙集理论同模糊集、神经网络、证据理论等其它理论均成 为不确定性计算的重要分支。粗糙集理论是根据目前已有的给定问题的知识,将 问题的论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持 度,即肯定支持次概念或不支持次概念。在粗集理论中,上述情况分别用三个近 似集合来表示正域、负域和边界域。 在数据挖掘中,从实际系统采集到的数据可能包含各种噪声,存在许多不确 定的因素和不完全信息有待处理。传统不确定信息处理方法,如模糊集理论、证 据理论和概率统计理论等,因需要数据的附加信息或先验知识( 属难以得到) , 有时在处理大量数据的数据库方面无能为力。粗糙集作为一种软计算方法,可以 克服传统不确定处理方法的不足,并且和它们有机结合,有望进一步增强对不确 定、不完全信息的处理能力。 随着k d d 和d m 的兴起,粗糙集方法正赢得越来越多的研究者的青睐,并在 各个领域获得了广泛的应用。究其原因有: ( 1 ) k d d 和d m 的对象多为关系数据库,其中就有许多可视为粗糙集理论 中的决策信息系统,这给粗糙集方法的应用带来了极大的方便; ( 2 ) 现实世界中的规则有确定性的,也有不确定性的,从数据库中发现不 确定性的规则为粗糙集方法提供了用武之地; ( 3 ) 基于粗糙集的挖掘算法有利于并行执行,可以极大地提高挖掘效率; ( 4 ) 粗糙集方法能够自动地选择合适的属性集,去掉多余的属性,提高挖 掘的效率: ( 5 ) 与其它方法相比,用粗糙集得到的决策规则更易验证和检测。 1 3 1 粗糙集理论的特点 粗糙集方法的简单实用性是令人惊奇的,它能在创立后的不长时间内达到迅 速应用是是因为具有以下特点【6 8 】: ( 1 ) 它能处理各种数据,包括不完整( i n c o m p l e t e ) 的数据以及拥有众多变 量的数据; 中南大学硕士学位论文 第一章绪论 ( 2 ) 它能处理数据的不精确性和模棱两可( a m b i g u i t y ) ,包括确定性和非 确定性的情况; ( 3 ) 它能求得知识的最小表达( r e d u c t ) 和知识的各种不同颗粒( g r a n u l a r i t y ) 层次; ( 4 ) 它能从数据中揭示出概念简单,易于操作的模式( p a t t e r n ) ; ( 5 ) 它能产生精确而又易于检查和证实的规则,特别适于智能控制中规则 的自动生成。 1 3 2 粗糙集理论所能处理的问题 粗糙集理论能有效地处理下列问题【6 - 8 】: ( 1 ) 不确定或不精确知识的表达; ( 2 ) 经验学习并从经验中获取知识: ( 3 ) 不一致信息的分析: ( 4 ) 根据不确定、不完整的知识进行推理; ( 5 ) 在保留信息的前提下进行数据简化; ( 6 ) 近似模式分类: ( 7 ) 识别并评估数据之间的依赖关系( d a t ad e p e n d e n c i e s ) 。 1 4 数据挖掘技术简述 近年来,数据库技术得到了迅速的发展,许多领域都建立大量的数据库,并 通过网络形式提供有关的服务。数据库大量的数据中隐藏着许多有价值的信息, 是不可多得的知识信息源,而目前的数据库系统一般只限于一些基本的数据查询 操作,通过数据库管理系统只能对数据“粗加工”,不能从这些数据中归纳出隐 含的带有结论性的知识,使得这些有用知识不为人知,无法利用,实际上是对数 据库信息资源的一种浪费。因此,对数据的进一步加工和内容分析显得越来越重 要。在这样的背景下,数据仓库、数据挖掘和知识发现等技术应用而生。数据挖 掘和知识发现是数据库技术的深层次的应用,它能从大量数据中抽取出具有一定 规律的知识,深层次的开发可以进一步提高信息资源的使用价值,充分利用信息 资源,提高使用效益。数据挖掘和知识发现为决策分析带来了新的途径,能更好 地解决日益复杂多变的决策环境问题,进一步提高了决策的准确性和可靠性,为 科学决策提供了基础。数据挖掘和知识发现是知识管理的需要,信息是巨大的社 会财富,知识发现可以更为全面地获取信息并深入地对信息进行分析,认识有关 的规律,产生最大限度的升华,不断形成新的知识,从而转化为生产力,提高竞 争能力。 中南大学硕士学位论文第一章绪论 1 4 1 数据挖掘的演化历程 知识发现,又叫数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简 称k d d ) ,是指从大量数据集合中识别出有效的、新颖的、潜在有用的以及最 终可理解模式的高级处理过程,数据挖掘( d a t am i n i n g ) 是知识发现过程的一个 主要的步骤。“知识发现”一词最早是1 9 8 9 年8 月在美国底特律的第1 l 届国际人工 智能联合会议的专题讨论会上首次出现的。美国随后几年举行了有关知识发现专 题讨论会。1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘的国际学术会议, 从此以后,知识发现与数据挖掘开始流行起来。其发展的主要阶段如下: 第一阶段:数据搜集( 始于2 0 世纪6 0 年代) ,其支撑是:计算机、磁带和 磁盘。其特点是:提供历史性的、静态的数据信息。 第二阶段:数据访问( 始于2 0 世纪8 0 年代) ,其支撑是:关系数据库 ( r d b m s ) 、结构化查询语言( s q l ) 。其特点是:提供历史性的、动态数据 信息。 第三阶段:数据库( 始于2 0 世纪9 0 年代) ,其支撑是:联机分析处理( 0 l a p ) 、 多维数据库、数据仓库。其特点是:提供回溯的、动态的数据信息。 第四阶段:数据挖掘,其支撑是:高级算法、多处理器计算机、海量数据库。 其特点是:提供预测性的信息。 1 4 _ 2 数据挖掘的发展现状 作为一门新兴的研究领域,数据挖掘技术一经出现立即受到广泛的关注。知 识发现被认为是今后具有重要影响和应用前景的关键技术,目前国际上知识发现 的研究方向主要是以知识发现的任务描述、知识评价与知识表示为主线、有效的 知识发现算法为中心、知识发现模型为重点,研究知识发现自身的运行机制和内 在机理以及在各领域中的实际应用。其发展的趋势主要表现在如下几个方面: 知识发现的数据源多样化:知识发现工具的集成化;知识发现语言的标准化: 知识发现过程的交互化;知识发现方式的可视化;知识发现效率的快速化: 知识发现方法的精确化;知识发现的模式实用化:知识发现的成本效益合 理化:知识发现应用的普及化i l “。 1 5 本文主要研究内容 目前边坡安全评价首要存在的难点在于:解决评价信息的不完整性和不确 定性的问题;针对各种边坡数据的数量庞大,格式不统一的特点,解决数据丰 富而知识贫乏的问题。基于这种现状,本文采用的粗糙集理论在分析处理不确定 性和模糊性信息的问题上具有其它理论工具不可替代的优越性;基于租糙集理论 的数据挖掘技术则能够从海量数据中提取出可信、新颖、有效并能为人理解的知 中南大学硕士学位论文第一章绪论 识。本文将两者结合运用,能够满足边坡安全评价的客观需要,为边坡安全评价 提出了一个新的发展方向。 本文首先依据历史范例数据库来获得关于边坡地形、岩体、外在影响三大因 素的特征数据。如地形因素的坡高、坡角等,岩体因素的结构特征、结构面发育 程度、地下水情况等,外在影响因素有植被覆盖率、坡角开挖值等。然后将主要 影响因素数据导入滑坡数据仓库中进行数据的初步筛选与清洗,接着根据数据挖 掘基本算法对清洗结果运用数据挖掘技术进行分析,从中发掘出有用的知识和规 则。再结合风险评估的方法与原理,建立边坡风险评估基本模型,给出边坡安全 的风险估计。 进行边坡安全评价是一个复杂的问题,本文从历史边坡范例数据库所包含的 信息中,通过一系列空间运算和特征分析,识别出其中包含的边坡灾害的空间特 征和空间分布规律,用一种描述性的语言进行表达。论文的组织结构如下: 第一章,简要叙述粗糙集理论和数据挖掘技术的发展状况及技术特点,讨论 了常规方法和理论在用于边坡安全评价时所遇到的难点,提出基于粗糙集理论的 数据挖掘技术用于边坡安全评价是可行的。 第二章,作为本文的理论基础,介绍了粗糙集的基本理论极其发展,详细叙 述了基于粗糙集理论数据挖掘技术的理论根据和基本原理。 第三章,初步讨论了预报边坡发生灾害活动的主要判据,通过对目前常用的 三类滑坡预报判据( 即安全系数和可靠概率判据、变形速率判据及宏观信息预报 判据) 进行研究,大大提高了滑坡安全性评价的准确性和客观实用性。 o 第四章,主要介绍了数据仓库的基本原理和结构特征,从理论与工程实践相 结合的观点出发,构建了边坡安全评价分析数据仓库,为后面的数据挖掘工作奠 定了必要的物理基础。 第五章,介绍了数据挖掘过程的基本步骤,并从工程实践出发对一定量的边 坡原始数据应用数据仓库技术和基于粗糙集原理的数据挖掘技术进行分析,经过 数据清洗、泛化、归约以及生成规则等步骤,最终得出有用的规则与知识。 第六章,通过滑坡灾害的风险分析,对局部场地或区域进行滑坡灾害的风险 评价,从而对各类边坡进行有效的风险管理,以减少边坡灾害所造成的生命财产 损失,也为各区域的发展及中长远规划提供基础背景资料。 本文的研究仅仅是一种方法的探索,由于对相关专家知识的缺乏,对边坡灾 害理论认识的不足,以及研究水平和能力的欠缺,文中的研究带有较大的局限性, 无法完全适应自然环境中边坡灾害的复杂多样性。对于大范围内自然界中的边坡 安全评价,还是一个世界性的难题,有待于我们进一步的努力。 7 中南大学硕士学位论文第二章基于粗糙集的数据挖掘技术 第二章基于粗糙集的数据挖掘技术 粗糙集理论r s ( r o u g hs e t ) 是波兰数学家z p a w l a k 在1 9 8 2 年提出的一种 分析数据的数学理论【1 7 】。该理论在分类的意义下定义了模糊性和不确定性的概 念,是一种处理不确定、不相容数据和不精确问题的新型数学工具。 f l z p a w l a k 提出粗糙集理论后,粗糙集理论就一直是各国科学家、数学家研 究的热点。2 0 世纪8 0 年代,许多波兰学者对粗糙集理论及其应用进行了坚持不懈 的深入研究,这个时期广大学者主要是对粗糙集理论的数学性质与逻辑系统进行 了深入研究。1 9 9 1 年粗糙集理论提出者z p a w l a k 写出了第一本关于粗糙集的专 著,次年r s o w i n d k i 主编的粗糙集应用及其与相关方法比较研究的论文集的出 版,极大地推动了国际上对粗糙集理论与应用的深入研究。1 9 9 3 年,在加拿大召 开了第一届国际粗糙集与知识发现研讨会。在这次大会上,明确地提出粗糙集理 论是进行知识发现( 数据挖掘) 极好的工具。此后的每一年学术界都举行一届粗 糙集理论研讨会,每一届大会都鲜明地提出粗糙集的或者是应用或者是理论的深 入发展。值得指出的是在1 9 9 5 年的大会上,针对粗糙集理论与模糊集合的基本与 相互关系展开了激烈的讨论,极大地推动了粗糙集的进展。1 9 9 6 年在日本召开了 亚洲第一次粗糙集理论大会。此后广大中国学者积极投入到粗糙集理论的研究之 中。目前在国内粗糙集理论与知识发现是一个研究的热点,也形成了若干专门的 研究机构,如中科院自动化研究所、浙江大学智能信息研究所等;其它的还有很 多高校自发形成的研究。如清华大学、西安交通大学、重庆大学等。2 0 0 1 年在重 庆召开了国内第一次粗糙集理论国际研讨大会。 利用粗糙集理论来处理数据挖掘有着较传统挖掘工具不具有的优点。粗糙集 理论处理数据不需要对数据的了解,即不再需要对数据的先验信息:比如说统计 学中的概率分布、d e m p s t e r s h a f e r 理论中的概率赋值、或者模糊集理论中的隶属 度或概率值;基于粗糙集的数学模型更易于被理解,针对一个特定的大型数据库, 利用粗糙集理论比其它理论更容易建立数学模型:许多实验表明,对于同一个数 据集,在粗糙集理论工具下进行处理,最终得到的所需的信息更简单、更准确、 更易于被决策者接受和理解。 2 1 基于粗糙集的数据挖掘系统介绍 近年来,粗糙集理论在数据库领域知识发现( 数据挖掘) 中的应用取得了较 大的进展,基于粗糙集理论的方法逐渐成为数据挖掘主流方法之一。基于粗糙集 理论的数据挖掘系统一般都由数据预处理、基于粗糙集或其扩展理论的数据约 简、决策算法等部分组成【扪。 中南大学硕士学位论文第二章基于粗糙集的数据挖掘技术 其大概思想是先进行必要的数据预处理,为数据约简做准备,然后求出约简 或近似约简,并在此基础上根据值约简等减少属性和个体数目,最终提取规则并 将之应用于新对象的分类。 在过去几年中,国内外建立了不少基于粗糙集的数据挖掘系统。其中最有代 表性的有: ( 1 ) l e r s :l e r s ( l e a r n i n gf r o me x a m p l e sb a s e d o nr o u g hs e t ) 系统是美 国k a n s a s 大学开发的基于粗糙集的实例学习系统。该系统是作为一种开发专家 系统的工具被应用的,这种类型的专家系统大多数被用于医疗决策。此外还被应 用于环境保护、气候研究和医疗研究。 ( 2 ) r o s e :波兰p o z n a n 科技大学基于粗糙集开发了r o s e ( r o u g hs e t d a t a e x p l o r e r ) 系统,用于决策分析。该系统支持信息系统数据任务,支持新对象的 分类,这两个系统已经在许多实际领域中得到应用。而且该系统应用在w i n d o w s 平台下。 ( 3 ) k d d r :是由加拿大的r e g i n a 大学开发的基于可变精度粗糙集模型和 知识发现的决策矩阵的数据分析系统,本系统被用来对医学数据进行分析,以此 产生症状与病症之间新的联系。另外它还支持电信工业的市场研究。 ( 4 ) r o u c he n o u g h :本系统是由挪威公司开发的数据挖掘工具。该本 系统根据信息系统计算得到可辨识矩阵,并利用许多工具进行集合近似,最后得 到约简结果。 2 2 基于粗糙集的数据挖掘技术之理论基础 2 2 1 粗糙集模型 粗糙集作为集合论的扩展,用于研究不完全和不完整信息描述的智能系统。 分类和概念形成的实际需要促进了r s 理论的发展,人们把r s 理论作为其他扩 展集合理论( 例如,模糊集和多重集合) 的补充。粗糙集模型已成功地用于形形 色色的问题,表现出其广泛的实用价值和通用性。 ( 一) p a w l a k 粗糙集模型 给定一个有限的非空对象集合u ,称为论域。尺u u 表示u 上的一个等 价关系,代表关于u 的知识。等价关系r 将结合u 划分成不相等的子集,记作 为u 俾,表示r 的所有等价类族。二元偶对a p r = ( u ,r ) 称为近似空间。如果( ,上 的两个元素x 和y 属于相同的等价类,则称x 和y 是不可分辨的。r 的等价类和 空集称为近似空间a p r = ( u ,r ) 的原子集合。多个原子集合的并集称作复合集 合,所有复合集合( 包括空集) 的族,表示为c o m ( a p r ) 。复合集合族及其上的 集合运算交、并、补构成了一个布尔代数。 9 中南大学硕士学位论文第二章基于粗糙集的数据挖掘技术 粗糙集理论把知识看成是对有关对象论域的划分,而等价关系r 和由其产生 的等价类则是关于u 的有效信息或知识。任意给定一个集合x u ,如果使用r 等价类无法精确描述x ,则x 就是r 粗糙集;反之x 是r 精确集【1 9 1 。一般来说, 粗糙集可以用两个精确集合下近似( 集) 和上近似( 集) 来加以定义: a p r ( x ) = u x 】r 二 一8 。 ( 2 1 ) a p 7 ( x ) 2 川。裂; x 】一 式中: x 】月= y l x r y ( 2 2 ) 是包含工的等价类,即 x 。中的每一个对象都是与x 具有相同的特征属性。下近 似a p r ( x ) 是所有在x 子集中的原子集的并集,即由那些根据现有知识判断肯定 属于x 的对象组成的最大集合,也是包含在中的最大的复合集;上近似 a p r ( x ) 是所有具有与x 相交非空的原子集的并集,是包含x 的最小复合集。下 近似中的一个元素必然属于x :而上近似的元素可能属于x 。还可以用下列式 子表示上、下近似: a p r ( x ) = x i x 】r z ) a p r ( x ) = x l 【x r n x ) 即,当u 中某个元素x 的所有等价元素都属于x 时, 少有一个等价元素属于x 时,则它有可能属于x 。 近似集的特性 ( 2 3 ) 则它必然属于;当其至 对于任何子集z ,j ,u ,根据上下近似的定义,下近似印r 满足特性 ( a l l ) ( a l l 0 ) ,上近似a p r 满足特性( a u l ) ( a u l 0 ) : ( a l l ) a p r ( x ) = a p r ( x ) ( a u l ) a p r ( x ) = a p r ( ) ( a l 2 ) a p r ( u ) = u ( a u 2 ) a p r ( 矿) = ( a l 3 ) a p r ( x n d = 印,( ) n a p r ( y ) ( a u 3 ) a p r ( x u n = a p r ( x ) u a p r ( y ) ( a l 4 ) a p r ( xuy ) a p r ( x ) ua p r ( y ) ( a u 4 ) a p r ( xny ) ga p r ( x ) na p r ( y ) ( a l 5 ) x y ja p r ( x ) a p r ( y ) ( a u 4 ) x g y ja p r ( x ) a p r ( 1 ,) l o 中南大学硕士学位论文第二章基于粗糙集的数据挖掘技术 ( a l 6 ) a p r ( 声) = ( a u 6 ) a p r ( u ) = u ( a l 7 ) a p r ( x ) x ( a u 7 ) x a p r ( x ) _一_一 ( a l 8 ) x a p r ( a p r ( x ) ) ( a u 8 ) x 三a p r ( a p r ( x ) ) ( a l 9 ) a p r ( x ) a p r ( a p r ( x ) ) ( a u 9 ) a p r ( x ) 3a p r ( a p r ( x ) ) ( a l l 0 ) a p r ( x ) a p r ( a p r ( x ) ) ( a u l 0 ) a p r ( x ) a p r ( a p r ( x ) ) 这里,x = u x ,表示的补集。集合x 关于r 的下近似和上近似可看 成论域u 上的两个操作符,因此具有相同编号的特性具有对偶性,这些特性是相 互关联的。 正域、负域和边界域 一个集合x u 的下近似和上近似,将论域划分成三个不相交的区域:正 区域p o s ( x ) 、负域n e g ( x ) 和边界区域b n d ( x ) : p o s ( x ) = a p r ( x ) n e g ( x ) = u a p r ( x 1 ( 2 - 4 ) b n d ( x ) = a p r ( x ) 一a p r ( x ) l _ 一正区域 e 蚕边界区域 匿豳负区域 图2 - 1集合x 的正区域、负区域和边界区域 图2 1 表示一个集合x 的下、上近似以及正、负和边界区域,其中每一个小 矩形表示一个等价类。由图可见,任何属于p o s ( x ) 区域的元素x ,也一定属于 x ;任何属于n e g ( x ) 的元素x ,可以肯定不属于x ,但属于x 的补集;当一 个元素属于b n d ( x 1 ,不能确定它是否属于x ,还是属于x 的补集。所以,在 某种意义上边界域是论域的不确定域。一个集合的上近似是正区域和边界域的并 集,即a p r ( u ) = p o s ( x ) u b n d ( x ) 。如果b n o ( x ) = ,则表明x 是关于r 的 精确集;反之,x 是关于r 的粗糙集。 中南大学硕士学位论文 第二章基于粗糙集的数据挖掘技术 集合不确定性的度量 集合的不确定性是由于边界域的存在而引起的。集合的边界域越大,其精确 性越差。对于两个非空集合x 和y ,如果它们是完全不相同的,则z 和】,是不 相交的,即l n y 卜0 ;如果x 和y 正好完全相同,则i z u y i 刊x f 7 y i 刊x l = | y i 。 利用这个特性可以度量集合的不确定性( 即精确性) 。一般而言,两个集合j 和 y 之间的相似程度定义为 舭阶勰 ( 2 5 ) 若x y ,则s ( x ,y ) = 0 :若x = y ,则s ( x ,y ) = 1 。将式( 2 3 ) 代入式( 2 - 5 ) , 其中a p r ( x ) 就是式( 2 5 ) 中的x ,a p r ( x ) 就是式( 2 5 ) 中的y ,从而得到x 的 r 粗糙度( 实际上也就是精确度) 公式: 咆c 以一a p r ( 一篆耥斗黜( 2 - 6 ) d ( a p r ( x ) ,a p r ( x ) ) ( 或简记为d ( x ) ) 反应了解集合x 的知识的不完全程度。显 然,对于每一个r 且x u ,有0 d ( x ) 1 :若d ( x ) = 0 ,则x 的边界域为空 集,集合x 是r 可定义的:若d ( x ) 1 ,集合z 有非空边界域,集合x 是部分r 不可定义的:若d ( x ) = 1 ,集合x 是全部r 不可定义的。这样可用图2 - 2 表示近 似空间中两个集合的相似程度。 有 yyy ( a ) ( b )( c ) 图2 2 近似空间中集合的相似度 ( a ) 集合x 是全部可以定义的:( b ) 集合x 为部分r 可以定义的 ( c ) 集合x 是全部x 不可以定义的 精确度函数p ( x ) 是度量集合不确定性程度的另一种形式,利用式( 2 6 ) p ( 柳= l 一。( 型( n a p r ( x ) ;= 黜一( 一a p r ( 以一a p r ( c o r 冽( 2 7 ) l zl l 中南大学硕士学位论文 第二章基于粗糙集的数据挖掘技术 对于空集,定义p ( ) = l 。如果x 是复合集,那么p ( x ) = l :如果不是复合集 合,那么0 p ( ) l 。精确度与r 粗糙度恰恰相反,表示了集合x 的知识的完 全程度。 表2 - 1p a w l a k 粗糙集的基本概念 x a p r ( x )a p r ( x )p o s ( x )n e g ( x )b n d ( x )d ( x )p ( x ) 矽 庐 u ol 妇)扛 a ) 口) 6 ,c ol 6 ) 6 ,c ) 矿 妇) 6 ,c 10 庐 6 ,c 矿 臼)如,c ) 1o 。,b )协 u 口) 6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中思想政治读本课件
- 高三地球在宇宙中课件
- 高三二轮光电效应课件
- 高一物理摩擦力课件
- 《离婚谈判策略解析:三策略离婚调解协议书》
- 物业服务合同中物业服务企业责任与义务界定
- 矿业股份及矿山开采权转让与综合开发管理协议
- 行政合同在数字经济时代的创新与实践
- 离婚双方财产分配与子女抚养责任移交协议模板
- 广告创意迭代代理执行合同
- 铁路作业人员安全课件
- 2025年医疗质量管理质控培训考核试题(含答案)
- 【轻质减负】第2课《中国人首次进入自己的空间站》情境化教学课件
- 心电图课件教学
- 浮吊安全知识培训课件
- 2025年边境巡逻机群无人机协同战术应用
- 后勤人员消防知识培训课件
- 中药饮片养护技术
- 八上必背文言文解析(全册)
- 2025年高等教育法学类自考-00859警察组织行为学历年参考题库含答案解析(5套典型考题)
- 2025年大队委选拔笔试题目及答案
评论
0/150
提交评论