




已阅读5页,还剩72页未读, 继续免费阅读
(计算机软件与理论专业论文)气象数据仓库的建立及其上数据挖掘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理l 。人学硕士研究生学位论文 气象数据仓库的建立及其上数据挖掘 摘要 信息技术,即利用计算机分析数据、提取有用信息,帮助决策部门做 出正确决策,正在被应用在气象服务领域中,以加速气象科技和气象服务 的现代化。多年来气象部门积累了大量的气象监测信息,如何提高计算机 对气象信息高度综合处理能力,迅速准确从众多的信息中将有用的部分提 取出来,并按照业务要求进行组织应用,是目前气象决策工作急需解决的 大问题。 数据仓库是近几年来数据库领域非常活跃的一个研究方向。数据仓库 主要解决的问题就是从海量的历史数据中通过数据挖掘进行知识发现。其 设计目标是给决策层提供支持,具有面向主题性、完整性、稳定性等特点。 数据挖掘,也称为数据库中的知识发现,是从大量的数据中抽取出潜在的、 有价值的知识、模型或规则的过程。数据挖掘技术从一开始就是面向应用 的,它不仅是面向特定数据库的简单检索查询,而且要对这些数据进行微 观、介观乃至宏观的统计、分析、综合和推理,发现事件间的相互关联, 利用已有的数据对未来的活动进行预测,以指导实际问题的求解。 本文对山西省1 0 9 个气象站建站以来的常用要素资料包括降水、日照、 平均气温、极端最高气温、极端最低气温、相对湿度、主要气象灾害等进 行收集、转换、整理,采用s q ls e r v e r 的a n a l y s i sm a n a g e r 建立气象数据 仓库;在数据仓库上结合实际需求,运用联机分析处理对历年的降水、气 温极端值等进行规律分析;采用v b 编程,在数据仓库的基础上,应用关联 太原理l f 人学硕十研究生学位论文 规则对山西竹干旱 彳际进仃挖掘分析。气象数据几下全部足连续的数化l ! 数据,而传统的挖掘算法是基于离散化或量化的数据。本文利用领域专家 经验知识与模糊c 一均值( f c m ) 两种量化方法,对连续数值型数据进行离散 化处理,转化为便于理解的语言值。在此基础上,采用语言值关联规则及 a p r i o r i 挖掘算法,在两种不同量化结果上进行干旱指标挖掘及结果的对比 分析,并对山西省干旱的预测进行有意义的尝试。通过数据挖掘,对我省 逐句平均气温( 5 级) 和逐句平均降水量( 5 级) 的距平指标进行修订;挖 掘出了有关联规则的轻旱和重旱的水、热组合量化指标。利用逐日气象资 料,通过本文建立的干旱指标挖掘系统可以对干旱进行逐日预测,以期能 为我省在旱涝监测、预测中提供一种新的方法,更好的为地方政府服务, 为决策者服务。 关键词:数据仓库,数据挖掘,关联规则,气象应用 太原理工人学硕十研究生学仿论文 e s t a b l i s hm e t e o r o l o g i c a l d a t aw a r e h o u s ea n d d a t am i n i n gb a s e do ni t a b s t r a c t i n f o r m a t i o nt e c h n o l o g y ,u s i n gc o m p u t e r st oe x t r a c tu s e f u li n f o r m a t i o n f r o ml a r g ed a t a s e t st os u p p o r td e c i s i o n - m a k i n gi sb e i n gu s e di nm e t e o r o l o g i c a l s e r v i c e si no r d e rt o s p e e di t s s c i e n t i f i ca n dt e c h n o l o g i c a lm o d e r n i z a t i o n m e t e o r o l o g i c a ld e p a r t m e n th a sc o l l e c t e dl a r g ev o l u m e so fm o n i t o r i n gd a t ai nt h e p a s t o n eo ft h em a i np r o b l e m si nm e t e o r o l o g i c a ld e c i s i o n - m a k i n gi sh o wt o i m p r o v et h ec o m p r e h e n s i v ep r o c e s s i n ga b i l i t yo fc o m p u t e r st oe x t r a c tu s e f u l i n f o r m a t i o nf r o mt h em a s s i v er a wd a t aa n da p p l yo nd i f f e r e n td i s c i p l i n e s d a t aw a r e h o u s ei so n eo ft h ea c t i v es t u d i e si nd a t a b a s e si nr e c e n t y e a r s i ti sm a i n l yu s e dt oc l a i mk n o w l e d g et h r o u g hd a t am i n i n gf r o mm a s s i v e h i s t o r i c a ld a t a t h e g o a lo f d a t aw a r e h o u s ei st o p r o v i d e s u p p o r t f o r d e c i s i o n - m a k e r s i th a sc h a r a c t e r i s t i c so f f a c i n gt h e m e ,c o m p l e t e n e s s ,a n d s t a b l e n e s s d a t am i n i n g ,o rk n o w l e d g ed i s c o v e r y ,i st h ep r o c e s st oe x t r a c tu s e f u l i n f o r m a t i o n ,r e l a t i o n s h i p ,a n dm o d e lh i d d e nf r o ml a r g ev o l u m e so fr a wd a t a d a t am i n i n gi sap r a c t i c a l t e c h n i q u ef r o mt h eb e g i n n i n g i ti s n o to n l yo f p e r f o r m i n gs i m p l ei n d e xq u e r yf r o ms p e c i f i cd a t a b a s e ,b u ta l s oc o n d u c t i n g c o m p r e h e n s i v es t a t i s t i c a la n a l y s e st oi d e n t i f yt h er e l a t i o n s h i pa n dp a t t e r nf r o m m i c r ot om a c r os c a l e sa n dt om a k ep r e d i c t i o nu s i n ge x i s t i n gd a t ai ng u i d a n c eo f t h er e a d w o r l dp r o b l e ms o l u t i o n t h i st h e s i si st h ea p p l i c a t i o no fd a t aw a r e h o u s e i i i 太原理1 人学硕十研究士学似论文 a n dd a t am i n i n gt e c h n o l o g i e so nm e t e o r o l o g i c a lr e s e a r c ha n ds e r v i c e s m e t e o r o l o g i c a le l e m e n t sd a t ai n c l u d i n gp r e c i p i t a t i o n ,s u n l i g h t ,m e a n a i rt e m p e r a t u r e ,m a x i m u ma i rt e m p e r a t u r e ,m i n i m u ma i rt e m p e r a t u r e ,r e l a t i v e h u m i d i t y ,a n dm a j o rd i s a s t e ri n f o r m a t i o nm o n i t o r e do n1 0 9w e a t h e rs t a t i o n si n s h a n x ip r o v i n c ew e r es t u d i e di nt h i ss t u d y t h e s ed a t aw e r ec o l l e c t e d ,c o n v e r t e d , a n d p r o c e s s e du s i n ga n a l y s i sm a n a g e r o ns q ls e r v e rt oe s t a b l i s h m e t e o r o l o g i c a l d a t aw a r e h o u s e o n eo ft h e a p p l i c a t i o n s w a st o i d e n t i f y r e l a t i o n s h i pa n dp a t t e r no fd r o u g h tp a r a m e t e r sf r o mp r e c i p i t a t i o na n de x t r e m e t e m p e r a t u r e su s i n gv bp r o g r a m m i n ga n dr e l a t e da n a l y s i s t r a d i t i o n a l d a t a m i n i n gt e c h n i q u e sb a s e do nd i s c r e t ed a t a s e t sa r en o ts u i t a b l ef o rc o n t i n u o u s m e t e o r o l o g i c a lm o n i t o r i n gd a t a t h i ss t u d ya p p l i e dt w om e t h o d st oq u a n t i f y t h e s ed a t a :e x p e r te x p e r i e n c ek n o w l e d g ea n df u z z yc - m e a n ( f c m ) t h e s e c o n t i n u o u sd a t aw e r ef i r s ti s o l a t e da n dc o n v e r t e dt ou n d e r s t a n d a b l el a n g u a g e s v a l u e s ,t h e nt h e s ev a l u e sw e r ea n a l y z e du s i n ga p r i o r id a t am i n i n ga l g o r i t h mt o e x t r a c tt h e d r o u g h tp a r a m e t e r s a n df i n a l l y am e a n i n g f u lt r yw a sm a d et o p r e d i c tt h ed r o u g h tc o n d i t i o n si ns h a n x ip r o v i n c e t h r o u g hf c mc l u s t e r ,t h e a n o m a l o u so ft h em e a nt e m p e r a t u r e ( f i v el e v e l ) a n dm e a np r e c i p i t a t i o n ( f i v e l e v e l ) o fe a c ht e n - d a yw e r ec o r r e c t e d ,a n dt h ei n d e xo fl i g h td r o u g h ta n ds e r i o u s d r o u g h tw e r eo b t a i n e d b yu s e i n gm e t e o r o l o g i c a le l e m e n t sd a t ao fe a c hd a y , p r e d i c te a c hd a yd r o u g h tc o n d i t i o n sc a nb er e a l i z e da tt h i sd r o u g h ti n d e xm i n i n g s y s t e m ,a n dan e wm e t h o do fd r o u g hs u p e r v i s ea n dp r e d i c tw i l lb ea c q u i r e d b y d o i n gt h i s ,ab e t t e rs e r v i c e rw i l lp r o v i d et ot h eg o v e r n m e n t k e yw o r d s :d a t a w a r e h o u s e ,d a t am i n i n g ,a s s o c i a t i o nr u l e ,a n d m e t e o r o l o g i c a la p p l i c a t i o n 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体。均己在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:呈! ! 差e t l t 月: 迎! :主 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签名:圣垒盔e t 其i :丝么! 导师签名:马圭至 日期:美业舀: 太原理i 人学硕十研究生。 上论卫 第一章引言 1 1 背景知识 计算机硬件的飞速发展和数掘存储介质的大量供应,推动了数据库和信息产业的发 展,随着数据库技术的迅速发展及数掘库管理系统的广泛应用,数掘的积累越来越多。 如何找到有关方法,自动高效地分析数掘、发现和描述敛掘中的趋势成为必然。目的的 数据库系统可以高效地实现数掘的编辑、查询、统计等功能,但无法发现数据中存在的 关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据中隐藏的知识的 手段,随之出现了“数据丰富而知识贫乏”的问题。数据挖据一从大数据中用非平凡的 方法发现有用的知识一成了一种自然的需求。 人工智能自1 9 5 6 年诞生后,经历了博弈阶段、自然语言理解阶段、知识工程等阶 段,到目前的研究热点机器学习【”。机器学习是用计算机模拟人类学习的- - f l 科学,比 较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的 方法来分析数据,挖掘数据背后的知识,两者使数掘库知识发现( k d d ,k n o w l e d g e d i s c o v e r y i nd a t a b a s e s ) 【2 】1 3 1 1 4 】的研究非常活跃。 1 9 8 9 年1 1 月在美国底特律召开的第1 1 届国际人工智能联合会议的专题会上, f a y y a d 定义“k d d 是从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理 解的模式的非平凡过程”【3 1 ,在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年举行了k d d 的专题讨论会, 随着参加人数的增加,k d d 成为年会。知识发现做为交叉学科,受到来自不同领域研 究者的关注,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视 化、高性能计算、专家系统等多个领域【5 l ,导致多种不同的术语,如“数据挖掘”( d a t a m i n i n g ) ,“知识抽取”( i n f o r m a t i o ne x t r a c t i o n ) 、“信息发现”( i n f o r m a t i o nd i s c o v e r y ) 、 “智能数据分析”( i n t e l l i g e n td a t ae x t r a c t i o n ) 、“信息收获”( i n f o r m a t i o nh a r v e s t i n g ) 和“数掘考古”( d a t aa r c h e o l o g y ) 等,最常用的“数据挖掘”和“知识获取”。数据 挖掘主要流行于统计界、数据分析、数据库和管理信息系统界;知识发现则是人工智能 和机器学习界,一般这些术语不加区别。 数据挖掘是采用机器学习、统计等方法进行知识学习,挖掘算法的好坏将影响到所 太原理1 人学硕十研究生学付论文 发咒知识的酊坏,目一j u 人多数l 伯研究鄢罡对玎法和应用进行的。9 0q :代以爿乏数j | l 挖翔 与数掘仓库结合起来,成为当今知识发现研究领域的最大热点1 5 1 ,并且软件公司也已丌 发出数据挖掘软件产品。数掘挖掘一知识和数掘间的桥梁一正在被更多的人关注,被认 为是未来最有发展f j 途和潜力的新兴学科之- - 1 6 1 。 数据挖掘与知识管理正在迅速和广泛地推动着社会数掘化和信息化的发展,例如各 种类型的风险分析、资信评估、医疗诊断决策和市场丌发等。著名的国际证券公司m e r r i l l l y n c h c o 曾预测:到2 0 0 4 年,仅与数掘挖掘有关的分析性客户关系管理( a n a l y t i c a l c r m ) 市场将达到3 5 亿美元,是2 0 0 1 年l l 亿美元市场的三倍。据i n f o c o n o m y 报道, 2 0 0 4 年底c r m 的实际市场已达到9 0 亿美元,远远超过预测值。由此可见,数据挖掘 作为信息技术发展的关键技术正在显现其巨大的商业价值。数据挖掘及知识管理的科研 价值也将无可估量。 数据挖掘技术目前已有不少成功的范例,在日常生活中可以看到许多数据挖掘的应 用。如果你访问著名的亚马逊网上书店( w w w a m a z o n c o m ) ,会发现当你选中一本书d a t a m i n i n g :c o n c e p t sa n dt e c h n i q u e s 后,会出现相关的推荐条目: c u s t o m e r sw h o b o u g h td a t am i n i n g :c o n c e p t sa n dt e c h n i q u e sa l s ob o u g h t : p r i n c i p l e so fm i n i n g b u s i n e s sm o d e l i n ga n dd a t am i n i n g c u s t o m e r sw h ov i e w e dd a t am i n i n g :c o n c e p t sa n dt e c h n i q u e sa l s ov i e w e d : i n t r o d u c t i o nt od a t am i n i n g d a t am i n i n g :i n t r o d u c t o r ya n da d v a n c e dt o p i c s 这背后就是数据挖掘技术在发挥作用。 1 2 问题提出 、 实时气象信息数据库子系统是“气象卫星综合应用业务系统”建设的一个主要组成 部分。该数据库系统参照世界天气监视网( w w w ) 的分布式数据库概念,利用分布式 数据库技术和商用数据库管理系统,在全球卫星数据通信网( s w a n ) 和地面c h i n a p a c 网的环境下,对全球实时气象资料进行有效的组织与管理,并采用统一的数据库模型和 用户界面分级建库,己初步投入业务使用。但由于该系统面向全国各级台站,在建库过 程中全面收集g t s 和国内的全部实时气象资料,且开发完成时间晚于实时资料的主要 2 太原理i 人学硕十研究生学位论文 业务应用系统m i c a p s ,因此,_ p 务化应用程度不高,实时资料库的优势没有充分发挥, 对现有的实时气象资料数掘库系统进行必要的扩展,建立气象数掘仓库,可以更好适用 于省、地气象部门f l 常气象业务服务应用支际。 近二十年来,气候变化,特别是全球变暖问题引起了各国政府和公众的高度重视。 政府问气候变化专门委员会( i p c c ) 的系列报告表明,在过去的1 0 0 年中,全球表面空 气温度平均上升了0 4 0 8 c 。估计未来1 0 0 年中,全球平均温度将上升1 4 5 8 。c 。 由于气候变暖,干旱、洪涝、低温冷言和高温热浪、干热风等灾害性天气出现的频度和 程度都有加重的趋势,这些灾害性天气对世界经济和人们的生活都带来了严重影响。如 何准确及时的预测预警这些灾害性天气的发生、发展是近年来科学家们普遍关心的热点 问题。随着数据预报的发展,数值预报产品的应用已成为广大气象台站建立现代天气预 报业务、提高天气预报精度的重要内容。采用各种实用技术方法来充分挖掘数值预报产 品中的有用信息,对提高天气预报水平,尤其是灾害性j 关键性天气预报准确率,满足 社会各方面的需求有着十分重要的现实意义。 多年来气象部门观测积累了大量的气象监测信息,如何迅速准确从众多的信息中将 有用的部分提取出来,并按照业务要求进行组织应用,提高计算机对气象信息高度综合 处理能力,是目前气象决策服务工作急需解决的大问题。从信息处理角度,更希望计算 机分析数据、理解数据,帮助基于丰富的数据做出决策,以拓宽计算机在气象服务领域 中的应用。数据挖掘,是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则 的过程,数据挖掘技术从一开始就是面向应用的【们它不仅是面向特定数据库的简单 检索查询调用,而且要对这些数据进行微观或者宏观的统计、分析、综合和推理,以指导 实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行 预测。 关联规则是数据挖掘的重要模式。气象观测资料中气象数据有大量可供挖掘的知 识,发现这些规律可以有效地进行气象预测,对气象灾害事件( 如旱灾、涝灾) 及时采 取防范措施,同时也可以对适宜某些地区的特色经济作物决策服务提供依据。如我们可 以通过对站点地形要素分析,挖掘出降水量与地理位置的关联规则,挖掘常用要素之间 的关联关系及其与非常用要素之间的关系,充分利用气象数据资源。 3 太原理1 人学硕十研究t 学何论文 1 3 关联规则现状 数据挖掘的发展和挖掘过程以及任务的演变紧密相关,即数据挖掘的发展离不开算 法与应用,一方面必须体现数据挖掘过程循环迭代的本质,另一方面必须实现各种复杂 的数据挖掘任务,经过多年工作,相关研究与应用己取得了很大的成果。下面从算法与 挖掘软件两方面来讨论关联规则挖掘的研究重点和现状。 1 3 1 关联规则算法 关联规则致力于发现满足支持度可信度要求的关联规则,它分为频繁集发现和规则 生成两个步骤。 频繁集发现就是从目标数据库中找出所有支持度大于预先给定的最小支持度的项 集,它在关联规则发现、相关性发现、事务间关联规则发现等领域起着关键作用。由于 频繁集发现是关联规则算法提高性能的瓶颈,所以几乎所有对关联规则算法的研究都致 力于在保证精度的基础上提高算法的运行效率,其中精度是指所发现频繁集的满足要求 的程度。 1 9 9 3 年,a g r a w a l 提出关联规则问题,同时提出第一个频繁集发现算法【儿】。此后, 在各种问题背景下,围绕着提高算法效率和结果的有用性( 即用户对其感兴趣程度) ,提 出了各种频繁集发现算法。根据这些算法的研究重点不同,可将其分为基本频繁集发现 算法和增强频繁集发现算法。前者致力于设计各种算法框架,高效地发现所有支持度大 于某个不变的最小支持度的频繁集。后者致力于提高发现结果的有用性。基本频繁集发 现算法的结果往往不能满足用户要求,比如所发现的频繁集的有用性不高、发现的频繁 集数量过多、遗漏用户感兴趣的频繁集等等,增强频繁集发现算法通过引入概念层次结 构、约束条件、可变支持度等方式克服这些缺陷。 1 3 2 挖掘软件现状 数据挖掘一开始就是面向应用的,也只有在应用中广泛使用和推广后,反过来推动 数据挖掘的理论研究。而挖掘软件是数据挖掘研究和应用的桥梁,对数据挖掘的推广起 到很大的作用。 4 太原理i 人学硕十研究生学位论文 挖掘软件的发展,可从不刚角度来看。例如,从技术层面对敛掘挖抓系统遇行划分; 从应用角度对挖掘系统的发展进行归纳等。下面仅从应用角度对挖掘软件的研究方向和 现从进 j 讨论,将数训 z i | j 软n 发腱归纳成三个阶段。 ( 1 ) 独立的数掘挖掘软件 独立的数据挖掘软件,出现在数据挖掘技术发展早期,研究出一种新型的数掘挖掘 算法,就形成一个软件。这类系统要求用户对具体的算法和数据挖掘技术有相当的了解, 还要负责大量的数扼预处理工作。 ( 2 ) 横向的数掘挖掘工具 随着挖掘应用的发展,人们认识到数据挖掘软件需要和以下三方面紧密结合:数据 库和数据仓库;多种类型的数据挖掘算法;数据清洗、转换等预处理工作。 数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与 数据库和数据仓库结合是自然的发展。现实领域的问题是多种多样的,一种或少数数据。 。f 挖掘算法难以解决,同时,挖掘的数据通常不符合算法的要求,需要有数掘清洗、转换 等数据预处理的配合,才能得出有价值的模型。 随着这些需求的出现,开始出现称之为“工具集”的数据挖掘系统。特点是提供多 种数据挖掘算法( 通常有关联规则、分类和聚集等) ,同时也包括数据的转换和可视化。 由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖, 掘工具( h o r i z o n t a l d a t a m i n i n g t o o l s ) 。横向的工具一般都支持f a y y a d 过程模型,部分系 统增加了模型评价和部署,比如:s p s sc l e m e n t i n e ,从而支持c r i s p d m 模型。 典型的横向工具【1 2 】有i b m i n t e l l i g e n t m i n e r ( j 毛d p ,i b m 开发的i n s u r a n c e u n d e r w r i t i n g p r o f i t a b i l i t ya n a l y s i 二将数据仓库和数据挖掘相结合,帮助保险业执行人员处理保险业 过程1 、s p s s 的c l e m e n t i n e 、s a s 的e n t e r p r i s em i n e r 、s g i 的m i n e s e t ( 其中的分类器可 用于对保险数据进行数据挖掘1 、o r a c l ed a r w i n 等。 ( 3 ) 纵向的数据挖掘解决方案 随着横向的数据挖掘工具的使用日渐广泛,人们发现只有精通挖掘算法的专家才能 熟练使用,如果对算法不了解,难以得出好的模型。因此,研制者开始提供纵向的数据 挖掘解决方案( v e r t i c a ls o l u t i o n ) ,即针对特定的应用提供完整的数据挖掘方案对于纵 向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用 b 太原理l :人学硕十研究生学侍论文 系统f h 倒如: 在欺诈检测系统中嵌入欺诈行为的分类识别模型。 在客户关系管理系统中嵌入客户成簇分类功能或客户行为分析功能。 市场现状及发展i j i 景 在国外,数据挖掘已经有不少成功案例。尽管数掘挖掘的好处已经引起国内许多企 业的重视,但实施的并不多,更多的企业是在观望和考虑。 目前国内企业实现数据挖掘的困难在于缺少数掘积累、难于构建业务模型、各类人 员之间的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。而在r e e f ,数掘挖 掘首先在金融、证券、电信、零售业等数据密集型行业实施,因为这些行业信息化程度 比较高,数据库中已经保留了大量数据资源。 目前提供数据挖掘产品的厂商非常多,如著名的产品有s a s e n t e r p r i s e m i n e r 、n c r t e r a d a t aw a r e h o u s em i n e r 、s p s sc l e m e n t i n e7 0 、i b md b 2 i n t e l l i g e n tm i n e r 、s q ls e r v e r 2 0 0 0 数据挖掘组件、o r a c l e 9 id a t am i n i n g 、c ac l e v e r p a t hp r e d i c t i v ea n a l y s i ss e r v e r 、 d m i n e r 等。这些产品各有特色:n c r 、i b m 、o r a c l e 等数据挖掘工具可以直接在数 据库上进行挖掘;s a s 提供了数据获取、取样、筛选、转换工具来构造要挖掘的数据集; s p s s 针对具体应用领域推出了多个应用模版,以简化应用开发过程。 有数据表明,进入二十世纪9 0 年代,人类积累的数据量以每月高于1 5 的速度增 加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。 数据挖掘的前景被人们普遍看好。国际知名调查机构g a r t n e rg r o u p 在高级技术调 查报告中,将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大 关键技术”之首,还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技 术前两位。g a r t n e r 的调查报告预计:到2 0 1 0 年,数据挖掘在相关市场的应用将从目前 少于5 增加到超过8 0 。美国银行家协会预测数据仓库和数据挖掘技术在美国商业银 行的应用增长率是1 4 9 。 1 4 本文主要内容 本文较系统地论述与分析了数据仓库与数据挖掘技术以及语言值关联规则的挖掘。 研究了关联规则挖掘中关于连续数量值的离散化方法,及离散化后不同的挖掘算法。在 6 太原理i :人学硕十研究生学伊论文 大型数掘库中寻找频繁项集对时间和空间的要求太大,小文结合领域专家的经验,提出 了选择属性进行挖掘的思想方法。 本人1 婴做了以f 1 作: 1 研究了数掘仓库与关联规则挖掘当前国内外研究的现状。 2 探讨了数据仓库与数掘挖掘技术的基本概念、方法,以及目前数掘挖掘技术的研 究和应用。 3 建立气象敛扼仓库。 4 在气象数掘仓库上结合实际需求,进行联机分析处理。 5 研究了语言值关联规则及关联规则挖掘算法。 6 利用两种量化方法:领域专家经验知识的分类法与模糊c 均值( f c m ) 聚类方法, 对连续数值型数据进行离散化处理。 7 利用语言值关联规则在两种不同量化结果的基础上对干旱指标进行挖掘。基 8 对挖掘结果进行对比分析及利用结果进行预测。 本文通过气象数据仓库的建立并利用数据挖掘技术对这些信息资料进行加工处理, 以期能够提取出预测预警干旱、洪涝等气象灾害有用的信息,服务于有关部门,及早采1 取有效措施,主动积极的规避和预防这些灾害,最大程度的降低这些灾害对生产、生活、 环境所造成的损失。 7 太原理i :人学硕十研究生学位论文 第二章数据仓库与数据挖掘 2 0 世纪8 0 年代,随着计算机技术的迅猛发展,社会的信息化程度越来越强,信息 量急聚增长,大量的信息来不及组织和处理。原有的数据库系统只停留在查询、检索和 统计等几个方面,远远没有发现大量数掘中所隐含的作用和价值,以便于决策支持。正 如奈斯比特在大趋势中所说的:我们j 下在被信息所淹没,但我们却由于“缺乏知 识而感到饥饿。”为决策提供依据的需求既要求联机服务,又涉及大量用于决策的数掘, 而传统的数据库系统已无法满足这种需求。具体表现在三方面:( 1 ) 决策所需历史数 据量很大,而传统数据库一般只存储短期数据。( 2 ) 辅助决策信息涉及许多部门的数 据,而不同系统的数据难以集成。( 3 ) 由于访问数据的能力不足,对大量数掘的访问 性能明显下降。 从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策 目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,9 0 年代初出现的支持 决策的、特殊的数据存储即被称为数据仓库( d a t aw a r e h o u s e ,d w ) 。数据仓库概念始 于2 0 世纪8 0 年代,首次在数据仓库之父w i l l i a mh i n m o n 的建立数据仓库一书中 出现的。随着这几年对数据仓库的广泛研究,数据仓库的概念逐渐清晰。数据仓库是企 业管理和决策中面向主题的、集成的、与时间相关的、不可修改的集合,用于支持经营 管理中的决策过程。 2 1 数据仓库 2 1 1 数据仓库定义 数据仓库概念的创始人w h i n m o n 对数据仓库的定义是:数据仓库是面向主题的、 集成的、稳定的、随时间变更的数据集合,用以支持经营管理中的决策制定过程1 1 3 l 。 数据仓库并不是一个新的平台,它仍然建立在数据库管理系统基础之上,只是一个 新的概念。从用户的角度看,数据仓库是一些数据、过程、工具和设施,它能够完备的、 及时的、准确的和可理解的管理业务信息,并把这种信息提交给授权的个人,以便他们 8 太原理1 人中硕 蚜究t 学伊论文 作出正确有效的决定。 数掘仓库收集存储于不同数掘源中的数掘,将数掘集中到一个更大的库中,最终用 户从数圭l c 仓j = 中进行查询和数抛分 j i 。数掘仓j j 一一 一的数掘足良好j 七义的、一j 如0 、不戈 的,数据量也应足够支持敛掘分析、查询、报表尘成和与长期积累的历史数掘的对比。 2 1 2 数据仓库有四个主要特征: ( 1 ) 面向主题 主题是一个在较高层次将数据归类的标准,每一主题是某一宏观分析领域中所涉及 的分析对象。 ( 2 ) 集成 在数据进入数据仓库之前,必然经过加工与集成。数据仓库的数掘来自于不同的数 据源,要按照统一的结构、一致的格式、度量及语义,将各种数据源的数据合并到数据 仓库中。 ( 3 ) 稳定且不可更新 数据仓库的数据主要供决策分析之用,所涉及的数据操作主要是数据查询,这些数 据反映的是不同时间点的数据库快照的统计、综合等导出数据,它们是稳定的,不能被 用户随意更改。 。 ( 4 ) 随时间变化 对用户来说不能更改数掘仓库中的数据,但随着时间变化系统进行定期刷新,把新 的内容追加到数据仓库,并随时导出新综合数据和统计数据。 2 1 3 联机分析处理( o l a p ) 在数据仓库的基础之上,可建立多种分析决策工具,如o l a p 体1 5 l ( 在线分析处理) 和数据挖掘工具等,以提供各种决策支持服务。 数据处理大致分为两大类:操作型处理和分析型处理。 操作型处理也叫联机事务处理( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) ,是指对 数据库联机的日常操作,通常是对数据记录的查询和修改,主要是为企业的特定应用服 务的,人们关心的是响应时间、数掘的完整性和安全性。 9 太原理一i 人学硕十研究t 学位论文 分析型处理也叫联机分忻处艘( o n l i n e a n a l 3 t i c a l ,p r o c e s s i n g ,o l a p ) ,主婴丁二 管理人员的决策分析,需要经常访问大量的历史数掘,两者之问存在很大的差异。 数据仓库技术中,o l a p 是一种重要的技术,也称多维数据分析( m u l t i d i m e n s i o n a l d a t aa n a l y s i s ) 方法或数据立方体( d m ac u b e ) 方法。数掘仓库是面向决策支持的,决策 的前提是数掘分析。在数据分析中经常用到求和、总计、平均、最大、最小等汇集操作, 计算量大,因此将汇集操作结果预先计算并存储,可方便决策支持系统或其他数掘挖掘 应用系统的使用。存储汇集操作结果的地方称多维数掘库( m d d b ) ,或形象地称为数 据立方体。 o l a p 的基本多维分析操作有钻取( r o l lu p 和d r i l ld o w n ) 、切片( s l i e e ) 和切块( d i c e ) 、 以及旋转( p i v o t ) 等【1 6 l 。 钻取是改变维的层次,变换分析的粒度。它包括向上钻取( r o l lu p ) 和向下钻取( d r i l l d o w n ) 。r o l lu p 是在某维上将低层次的细节数据概括到高层次的汇总数据,或者减少 维数;而d r i l ld o w n 则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余 的维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p ,o l a p , h o l a p 1 7 1 。 在m d d b 上实现的o l a p 为m o i _ a p 。数据立方体也可以建立在传统的关系型模 型上,通过建立星型或雪花模型,将多维请求动态转化为关系查询,实现多维操作,这 种o l a p 称为r o l a p 。 r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l 廿) 。以关系数据库为核 心,以关系型结构进行多维数据的表示和存储。r o i a p 将多维数据库的多维结构划分 为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使 用一个表来存放维的层次,成员类别等维的描述信息。维表和事实表通过主关键字和外 关键字联系在一起,形成了”星型模式”。对于层次复杂的维,为避免冗余数据占用过 大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为”雪花模式。 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。以多维数 1 0 太从理1 人学硕士研究生学位论文 掘组织方式为核心,也就是说,m o l a p 使用多维数组存储数掘。多维数扼有存储中将 形成“立方块( ( c u b e ) ”的结构,在m o l a p 中对“立方块”的“旋转”、“切块”、“切 片足产垡一多维敛扼报表的主要技_ i ”剐。 h o l a p 表示基于混合数掘组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系型的, 高层是多维矩阵型的。这种方式具有更好的灵活性。 2 1 4 数据仓库内容 数据仓库是决策支持系统( d s s ) 的一种有效、可行和体系化解决方案,包括了三 个方面的内容: ( 1 ) 数据仓库技术,用于数据的存储和组织; ( 2 ) 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 用于数掘的分析; ( 3 ) 数据挖掘技术( d a t am i n i n g ,d m ) 用于知识的自动发现。复 数据仓库是一个决策支持的环境,它从不同的数据来源获得数据,集成数据,组织 和管理数据,使得数据有效地支持决策分析。 2 1 5 数据仓库模型 三种数据仓库模型:。 ( 1 ) 企业仓库:它搜集了关于主题的所有信息,跨越整个组织。它提供企业范围内 的数据集成,通常来自一个或多个操作的系统,或外部信息提供者,并且是跨功能的。 企业数据仓库可以在传统的大型机上实现。 ( 2 ) 数据集市:它是企业范围数据的一个子集,对于特定的用户是有用的。其范围 限于选定的主题。数据集市可以在低价格的部门服务器上实现。 ( 3 ) 虚拟仓库:它是操作数掘库上视图的集合。为了有效地处理查询,只有一些可 能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力 2 1 6 数据仓库的逻辑结构和物理结构 数据仓库中的逻辑结构数据由3 层到4 层数据组成,它们均由元数据( m e t a d a t a ) 组织而成。数掘仓库中数据的物理存储形式有多维数掘库组织形式( 空间超立方体形式) 太原理t 人学硕十研究生学何论文 和嗨于关系数州曙的组钐:1 髟文( 山关系型事实i 、和组谈却i 成) 。 数据仓库系统 数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 注水井投产工艺规定
- 净水器维修指南手册
- 共用设施设备安全维护计划
- 剖析湖南省乒乓球竞技运动成绩影响因素:多维视角与提升策略
- 利多卡因对静脉输注丙泊酚镇静及脑电参数影响的深度剖析
- 生态友好的软件设计-洞察及研究
- 冷却水系统热力分析-洞察及研究
- 数字化品牌资产评估-洞察及研究
- 城市文化创意产业政策分析-洞察及研究
- 多组学数据整合分析-第1篇-洞察及研究
- DBJ51T214-2022四川省蒸压加气混凝土隔墙板应用技术标准
- 哲学与人生 第二课 树立科学的世界观2.1
- 传感器技术-武汉大学
- 基于PLC的物料分拣系统设计
- 土石坝3D建造无人驾驶碾压新技术
- 家乡小吃课件
- 医学影像成像理论第四章 第四节 数字减影血管造影
- 大数据技术创新与实践
- (完整word版)广东省医疗机构门(急)诊通用病历
- 顺德职业技术学院-工业设计-专业建设方案
- 钻孔桩钻孔及灌注记录表
评论
0/150
提交评论