




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)基于粒计算的数据挖掘应用及研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕l 论文 摘要 数据挖掘技术具有较高的有效性和良好的可操作性,被广泛应用于各个领 域。近年来,基于数据挖掘技术的研究方法不断涌现:如基于决策树分类、统 计分类、贝叶斯分类、神经网络等方法均能有效解决小规模数据库的数据挖掘 问题。面对海量数据处理,人们提出了用不同粒度或不同概念层观测问题,从 不同的粒度中得到不同层次的信息和知识,满足人们对不同层次知识的要求。 粒计算是人工智能领域中的一种新理念和新方法。粒计算方法凭借自身的特质 在数据挖掘中显示出较大的优势。它主要用于解决海量数据的挖掘和复杂问题 的求解,通过系统访问粒结构来解决问题。 本文在对数据挖掘和粒计算相关技术进行深入研究的基础上,将粒计算与 数据挖掘方法相结合,建立了基于粒计算的数据挖掘模型,给出基于粒计算的 数据挖掘模型的关联规则算法。应用此方法对阅马场城市隧道监控交通数据信 息数据挖掘方法进行改进,构建了基于粒计算的商空间挖掘模型,结合时间粒 度概念进行了相关划分。研究工作表明,运用此方法对数据仓库在不同层次的 粒度问题进行处理,在保证数据挖掘的精度的前提下可以提高系统的效率。论 文还将粒计算与遗传算法相结合,用于地基改良工程中单桩极限承载力预测问 题的研究,通过大型桥梁的相关系数、桩参数和桩所在环境的土质参数等已知 条件,对桩承载力进行有效的预测,研究结果表明粒计算在解决复杂问题方面 有一定的优势,粒计算与遗传算法相结合的方法有较高的预测精度。 关键字:数据挖掘数据仓库粒计算商空间 武汉理t 大学硕七论文 a b s t r a c t d a t am i n i n gr e p r e s e n t se x t r a c t i n gas e q u e n c eo fu n k n o w n , v a l i da n do p e r a b l e k n o w l e d g ef r o mag r e a td e a lo fd a t u m i ti sp l a y i n ga ni m p o r t a n ts t e pi nk n o w l e d g e d i s c o v e r i n gp r o c e d u r e o no n eh a n dt h ea v a i l a b i l i t yo fd a t am i n i n gr e s u l t sl i e si ni t s c o r r e c t n e s sa n dr e a s o n i n g ;o nt h eo t h e rh a n dt h eo p e r a b i l i t yl i e si ni t su s a g ei n d e c i s i o ns u p p o r t i n g b a s e do nd a t am i n i n g ,m e t h o d sh a v ee m e r g e d ,s u c ha sd e c i s i o n t r e ec l a s s i f i c a t i o n ,s t a t i s t i c a lc l a s s i f i c a t i o n ,b a y e s i a nc l a s s i f i c a t i o na n dn e u r a l n e t w o r k sr e c e n ty e a r s t h ed i v e r s i t yo b s e r v e df r o ms t u d i e so nt h ei n t e r p r e t a t i o n so f r u l e sa n da l g o r i t h m sf o rm i n i n gr u l e s ,o nt h eo n eh a n ds h o w st h er i c h n e s so ft h ef i e l d , a n do nt h eo t h e rh a n ds u g g e s t st h en e e df o rau n i f i e df r a m e w o r ki nw h i c hd i f f e r e n t a l g o r i t h m sa n dm e t h o d o l o g i e sc a nb ee x a m i n e da n da n a l y z e d g r a n u l a rc o m p u t i n g ( g r c ) i sal a b e lo ft h e o r i e s ,m e t h o d o l o g i e s ,t e c h n i q u e s ,a n dt o o l st h a tm a k eu s eo f g r a n u l e si nt h ep r o c e s so fp r o b l e ms o l v i n g t h eb a s i ci d e a sa n dp r i n c i p l e so fg r a n u l a r c o m p u t i n gh a v eb e e ns t u d i e de x p l i c i t l ya n di m p l i c i t l yi nm a n y f i e l d si ni s o l a t i o ns u c h a se v i d e n c et h e o r y , c l u s t e r i n ga n a l y s i s ,d a t a b a s es y s t e m ,m a c h i n el e a r n i n g ,d a t a m i n i n ga n ds oo n ,b u tt h ep r i n c i p a lf o c u si nt h es p e c i a li s s u ei sd a t am i n i n g t h o u g h d a t am i n i n gi sv i e w e da saf o r mo fs u m m a r i z a t i o no fv e r yl a r g ed a t a s e t s ,g r a n u l a r c o m p u t i n gm a yb ev i e w e da sas c h e m eo fs u m m a r i z i n gs m a l ld a t a s e t si nah i e r a r c h y t h i st h e s i si n t r o d u c e sd a t am i n i n gt e c h n i q u ea n dt h es o f tc o m p u t i n g - - - g r a n u l a r c o m p u t i n gi nd e t a i l sa n dt h e np r o p o s e st h em e t h o do nd a t am i n i n gu s i n gg r a n u l a r c o m p u t i n g t h eq u o t i e n ts p a c et h e o r ym o d e li s e s t a b l i s h e dt h eh i e r a r c h i c a lc h a i n s t r u c t u r eb yn a t u r a lp r o je c t i o n ,w h i c hi sf u s e dt ot h eg r a i no fg r a n u l a rc o m p u t i n g s m a i nf e a t u r e t h i sp a p e ru t i l i z e st h eg r a n u l a rc o m p u t i n go ft h eq u o t i e n ts p a c et h e o r y m e t h o do nt h ey u e m a c h a n gt u n n e l sd a t aw a r e h o u s em i n i n gt oc h o o s e st h es u i t a b l e g r a n u l a r i t ys o l u t i o na c c o r d i n gt o t h et u n n e ld a t aw a r e h o u s e sr e q u i r e m e n t t h e nt h i s p a p e rm a k e st h eg r a n u l a rc o m p u t i n gf u r t h e re x t e n d e da p p l i c a t i o no ft h ed a t am i n i n g , a n du s e dp r e d i c t i o nm e t h o db a s e do ng r a n u l a rc o m p u t i n gt op r e d i c ta n da n a l y z ep i l e b e a r i n gc a p a c i t yo fl a r g eb r i d g e s 武汉理t 大学硕上论文 k e y w o r d s :d a t am i n i n g ,d a t aw a r e h o u s e ,g r a n u l a rc o m p u t i n g ,q u o t i e n ts p a c e 1 1 1 武汉理工大学学位论文独创性声明及使用授权书 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 研究生( 签名) :日期 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可 以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大 学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信 息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :导师( 签名)日期趣微 注:此表经研究生及导师签名后,请装订在学位论文摘要前页。 武汉理工人学硕i j 论文 1 1 本文研究背景 第1 章绪论 近年来计算机及网络的日益普及,人类进入了信息爆炸的时代,随之产生 的“信息过量 这一严重问题。面对“丰富的数据,贫乏的知识 的现象,如 何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息数据 利用率,达到数据真正充分被利用、将信息变为知识,为决策和发展服务呢? 于是数据挖掘便应运而生了。数据挖掘就是从大型数据库或数据仓库中储存的 大量的、不完整的、有噪声的数据中发现潜在的、有价值的、有趣知识的过程。 从信息处理的角度,数据挖掘可以帮助分析数据、理解数据,基于丰富的 数据做出决策,做人力所不能及的事情。与传统的数据分析方法( 例如统计方法) 相比,数据挖掘能够对数据进行更深层次的处理,发现这些数据内部隐含的规 律和联系,从而达到从海量数据中提取有价值知识目的。 从认识论的角度,知识是对事物运动状态及其变化规律的概括性描述;但 基于人工智能和信息系统,这个定义需要更精确的表达,知识源于人类的分类( 广 义) 能力,关于环境的知识从生存观点就是感觉信号的复杂分类,更抽象层次的 分类则是推理、学习、决策的关键,是一种基础知识1 1 圳。因而数据挖掘中的数 据分类技术可以认为是数据挖掘中的基础和核心技术,几乎凡是有数据的地方 就有对数据进行分类的需求。 目前数据挖掘越来越多地受到各界的重视并被广泛应用于各个领域,包括 生物医学和d n a 分析、金融数据的分析、交通信息智能系统、军事航空方面、 零售业和客户关系管理等。 粒计算( g r a n u l a rc o m p u t i n g ,简称g r c ) 是信息处理的一种新的概念和计 算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究,主要用于处 理不确定的、模糊的、不完整的和海量的信息【4 】。具体地讲,凡是在分析问题和 求解问题中,应用了分组、分类和聚类手段的一切理论与方法均属于粒计算的 范畴。从哲学角度看,粒计算是一种结构化的思想方法;从应用角度看,粒计 武汉理工大学硕士论文 算是一个通用的结构化问题求解方法:从计算角度看,粒计算是一个信息处理 的典型方法。 面对海量数据处理,人们提出了各式各样的挖掘方法。粒计算方法凭借自 身的优势在数据挖掘中显示出较大的优势。粒计算理论对一些传统的数据挖掘 方法进行了革新,粒计算采用粒度的思想来处理问题和解决问题。针对一个或 某些问题或理论,来设计与构造合适的粒或粒度,然后利用构造好的粒或粒度 对问题进行计算,分析等,最终获得问题解。结合粗糙集理论,商空间理论, 概念格理论的粒计算方法在机器学习、数据分析、数据挖掘、规则提取、智能 数据处理和粒逻辑等方面的应用。 目前,我国对粒计算的研究还处于起步阶段,限于粒计算的理论研究,而 对粒计算的应用还很少涉及。本文针对这种情况,对基于粒计算的数据挖掘方 法进行了深入的应用研究与探讨。 1 2 国内外研究现状 从1 9 7 9 年,美国的控制论专家l a z a d e h t 4 , 1 7 , 1 8 】第一次介绍了信息粒化 ( i n f o r m a t i o ng r a n u l a t i o n ) 的概念,近三十年问t y l i n t 4 0 a 1 , 4 2 ,, 4 8 , 5 0 1 和y y y a o f 4 3 ,4 9 】 等学者先后分别完善了对粒计算的表达、粒的构建、粒计算的理论模型的研究。 随着粒计算理论的研究不断发展,国外的学者针对粒计算在数据挖掘中的应用 也进行了广泛的研究。 1 9 9 8 年,t y l i n 教授提出了基于二进制邻域系统的二进制粒结构,随后, 他还着重阐述了二进制邻域系统的表示,以及用表的格式来表示二进制关系, 这个表将被称为信息表的扩展,这样,信息表处理将扩展为二进制关系粒结构 的处理。1 9 9 9 年,t y l i n 教授又提出了一个新的数据挖掘理论,在原有的关系 数据库中,附加了粒计算的概念和二进制邻域系统,用粒计算来处理二进制关 系,一系列二进制关系就是粒结构,数据挖掘就是粒结构的处理。该理论为基 于粒计算基础上的数据挖掘提供了导向。2 0 0 1 年,y y y a o 教授提出了一个基 于粒计算规则挖掘的一个框架。该框架是基于粒计算模型的概念的外延来定义 的,称为:基于粒计算模型的数据挖掘,提出的模型可能被认为数据挖掘形式和 数学建模的第一步。它通过内涵和外延的一部分作为特征,信息表被使用定义 精确的内涵和外延,语言的公式来定义内涵,论域对象的子集来定义外延,通 2 武汉理丁大学硕士论文 过概念的内涵来表达挖掘规则,通过概念的外延来解释,随着这个模型被提出, 数据挖掘一些存在的方法可以被比较和分析。2 0 0 5 年,t r q i u 等人讨论了基于 信息粒和粒计算的基础上关联规则的挖掘,以a p r i o r i 算法为基础,提出了基于 粒计算一种新的关联规则抽取算法,和经典的a p r i o r i 算法相比,该算法有效地 缩减了候选元素的数目,解决了a p r i o r i 算法在寻找频繁项目集时,重复扫描信 息表的瓶颈问题。 尽管随着人们对数据挖掘技术的重视与日俱增使得数据挖掘的应用领域 十分广泛,但是就我国当前的应用现状来看,尚处于萌芽阶段,企业大规模 地运用数据挖掘技术的不多,个别企业或部门仅仅零星地运用了数据挖掘技 术。虽然数据挖掘的工具已大量出现,一类是基于统计分析的软件,如:s a s , s p s s 等;另一类是应用与新技术如模糊逻辑、人工神经网络、支持向量机、 决策树理论的工具等的融合方法,但这些软件及模型方法并不是包罗万象地 应用于任何数据挖掘的实际要求,而是有所侧重。 实际上,数据挖掘工具与实际应用的问题紧密联系,实践中要根据实际 运用去丌发适用于实际需要的数据挖掘工具。如何从各种大型的实时数据库 或数据仓库中存储的大量的、不完整的、有噪声的数据中发现有价值的数据 规则仍是研究的重点难点。我们国家数据挖掘的软件运用和开发还没有全面 展开,尤其是将模糊逻辑、人工神经网络、支持向量机、粒计算、商空间、 决策树理沦融合进数据挖掘的模型方法中,对数据挖掘工具的开发更进一步 提高。当面对海量数据处理时,基于人工神经网络、支持向量机、决策树理 论的数据挖掘方法均存在不同程度的缺点,而如何能将粒计算方法的巨大优 势在数据挖掘中得以体现则是一个研究重点。因此,开拓数据挖掘工具的应 用和实践以及基于新理论的数据挖掘模型方法是未来数据挖掘工作中有待解 决的问题。 目前国内,对粒计算的研究刚刚开始,张钹院士和张铃【1 9 2 6 2 7 , 3 2 , 3 7 , 5 1 , 5 2 , 5 3 1 教授 提出了基于商空间的粒度世界模型。在此基础上,于2 0 0 3 年张钹院士和张铃教 授将模糊概念与商空间理论结合,证明了利用模糊等价关系可以将原来的商空 间理论推广成模糊商空间理论,并给出了模糊商空间理论的几个基本定理,提 出模糊商空间理论,为粒计算提供了新的数学模型和工具,并成功应用于数据挖 掘等领域。2 0 0 4 年刘清教授阐述了粒及粒计算在逻辑推理中的应用,讨论了信 息粒的结构及其实例,基于r o u g h 集方法定义了决策规则粒,构造了决策规则粒 武汉理工入学硕士论文 库,定义了粒语言,描述了这种语言的语法、语义、粒语句的运算法则和粒相 关的几个性质,基于这些概念,构造了一种逻辑推理的新模型。国内,粒计算 在数据挖掘中的应用文献很少涉及,这也是本文的研究的出发点。 1 3 论文的结构安排 本文的主要研究工作: 第一章为本文绪论部分。首先分析了本文的选题背景和研究意义,然后介 绍了国内外研究现状。 第二章是数据挖掘相关理论论述。本章首先阐述了数据挖掘技术的基本理 论、相关概念;然后介绍了数据仓库技术;着重介绍了数据挖掘的任务、数据 挖掘技术及分析方法并列举了数据挖掘的应用领域。 第三章是粒计算理论。详细阐述了粒计算的基本概念、粒计算的基本问题 及相关理论、粒计算模型与方法、粒计算的应用以及粒计算的发展方向等。 第四章主要研究了基于粒计算的数据挖掘模型。通过分析理论依据,根据 数据挖据所涉及的各个功能模块建立了基于粒计算的数据挖掘模型。对模型的 一种特例,关联规则挖据进行了详细分析并给出了相关的基于粒计算的关联规 则挖掘的算法。通过应用实验分析表明:此理论模型在一定程度上扩大了粒计 算理论的应用范围,并从理论方法上丰富了数据挖掘技术。 第五章在简单回顾经典商空间理论的基础上,从论域的结构和粒化准则两 个方面对商空间理论进行了推广,应用基于粒计算的数据挖掘模型的关联规则 算法对隧道监控数据挖掘方法进行改进;并将粒计算与遗传算法结合,用于地 基改良工程中单桩极限承载力预测问题的研究,通过大型桥梁的相关系数、桩 参数和桩所在环境的土质参数等,对桩承载力进行有效的预测。 第六章对全文的工作做了总结,提出一些不足并对今后的工作做出了展望。 4 武汉理t 人学硕上论文 第2 章数据挖掘技术概述 2 1 数据挖掘的定义 由于目前关于数据挖掘( d a t a m i n i n g ) 并没有精确的定义,所以不同领域应 用研究数据挖掘的专家也都给出了各自不同的定义。f r a w l e y 瞄1 和s h a p i r o 等人 为:数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,且这些知识 是隐含的、事先未知的、潜在有用的信息。g r o s s m a n 阳1 等贝i j 认为:数据挖掘是从 数据中自动地抽取模式、关联、变化、异常和有意义的结构,数据挖掘的主要 价值在于利用数据挖掘技术改善预言模型。 从以上给出的数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据 库中发现有用而未发现的模式的技术,目前d m ,k d d 的主要研究内容包括基础 理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、 发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数 据挖掘等。数据挖掘所发现的知识最常见的有以下五类 3 。 ( 1 ) 广义知识 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征 的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同 性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多, 如数据立方体、面向属性的归约等。数据立方体还有其他一些别名,如“多维 数据库”、“实现视图、“o l a p ”等。该方法的基本思想是实现某些常用的代价 较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视 图储存在多维数据库中。既然很多聚集函数需经常重复计算,那么在多维数据 立方体中存放预先计算好的结果将能保证快速响应,并可灵活地提供不同角度 和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大s i m o nf r a s e r 大学提出的面向属性的归约方法。这种方法以类s q l 语言表示数据挖掘查询, 收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进 行数据推广,包括属性删除、概念树提升、属性闽值控制、计数及其他聚集函 数传播等。 5 武汉理工大学硕士论文 ( 2 ) 关联知识( a s s o c i a t i o n ) 它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性 之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为 著名的关联规则发现方法是r a g r a w a l 提出的a p f i o f i 算法。关联规则的发现可 分为两步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不 低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的 最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是 计算量最大的部分。 ( 3 ) 分类知识( c l a s s i f i c a t i o n c l u s t e r i n g ) 它反映同类事物共树的分类方法。它是从实例集中构造决策树,是一种有 指导的学习方法。该方法先根据训练子集( 又称为窗口) 形成决策树。如果该树不 能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程 一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是 带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习系 统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法c 4 5 和c 5 0 都是i d 3 的扩展,它们将分类领域从类别属性扩展到数值型属性。 ( 4 ) 预测型知识( p r e d i c t i o n ) 它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可 以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统 计方法、神经网络和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的 时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自 回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等, 进行时间序列的预测。由于大量的时问序列是非平稳的,其特征参数和数据分 布随着时问的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立 单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基 于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数 据时,对模型重新训练,获得新的权重参数,建立新的模型。 ( 5 ) 偏差型知识( d e v i a t i o n ) 此外,还可以发现其他类型的知识,如偏差型知识( d e v i a t i o n ) ,它是对差异 和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据 聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着 6 武汉理t 人学硕二t 论文 概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需 要。结合上面关于数据挖掘与知识发现的论述,参考图2 1 可以更好的理解数据 挖掘与知识发现的全过程。 图2 1 数据挖掘与知识发现全过程 从以上给出的数据挖掘的定义和本质可以看出,数据挖掘包含一系列旨在 从数据库中发现有用而未发现的模式的技术,与其紧密相关的则是存放数据的 数据仓库。数据挖掘的关键之一就是通过访问正确、完整和集成的数据,惟此 7 武汉理t 火学硕十论文 才能进行深层次的分析,寻求有益的信息,而这些正是数据仓库所能提供的。 如图2 2 所示,数据仓库不仅是集成数据的一种方式,而且数据仓库的联机 分析功能( o l a p ) 还为数据挖掘提供了一个极佳的操作平台;如果数据仓库与数 据挖掘能够实现有效的连接,将给数据挖掘的使用带来各种便利并提高数据挖 掘性能。 图2 2 数据仓库与数据挖掘的关系 2 2 数据仓库技术 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持 管理部门的决策过程。在一定程度上,数据仓库是一个数据库,它与组织结构 8 武汉理丁大学硕上论文 的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统 一的历史数据分析提供坚实的平台,对信息处理提供支持。数据仓库提供了联 机分析处理( o l a p ) 工具,用于各种粒度多维数据分析,有利于数据挖掘效率, 是数据挖掘的重要预处理步骤,通常数据仓库是用多维数据库结构建模1 8 】。在建 模过程中,需要了解数据仓库中关于元数据、粒度、分割、数据集市的概念: ( 1 ) 元数据 元数据其英语含义是“s t r u c t u r e dd a t aa b o u td a t a ”或“i n f o r m a t i o na b o u td a t a 。 简单的说就是“关于数据的数据 ,即关于数据的内容、质量、状况和其他特性 的信息。也可译为描述数据或诠释数据。元数据是一个很古老的概念,从早期 的地图图例、书本目录,到图书馆中的卡片分类等,都是元数据【9 1 。随着信息技 术的不断发展,对于多数据类型的海量数据,人们迫切需要一种合理的方法来 避免数据的重复性建设以及协调不同数据部门之间的资源共享。此时己逐渐认 识到元数据的重要性,所以在数据仓库中不可避免的要运用元数据的概念。 ( 2 ) 粒度 粒度是指数据仓库的数据单位中保存数据的细化程度或综合程度的级别。 越是详细的数据,粒度级别就越小;越是概括的数据,粒度级别就越大。拿商 场数据仓库的例子来说,低粒度的情况是详细记录每一种商品每一次的销售记 录数据,高粒度的情况是仅记录每种商品或每类商品每个月的销售情况【l0 1 。粒 度问题是设计数据仓库的一个非常重要的方面,它既是一个逻辑设计的问题, 也是一个物理设计的问题。之所以这么说,是因为数据仓库中粒度的大小不仅 影响数据仓库所能回答的查询类型,同时在很大程度上决定了存放在数据仓库 中的数据量的大小和查询的效率。 在进行数据仓库设计时,必须在数据仓库数据量的大小与所能做的查询的 详细程度之间做出权衡。确定粒度的大小的一般考虑原则是:如果数据仓库的 空间很有限的话,为了节省存储空间,宜采用高粒度级别表示数据;如果追求 数据仓库能够回答的问题类型的能力,要求能够回答非常具体的问题,那么使 用较低的数据粒度级别;如果想要减轻处理器的负担,提高查询性能,则采用 较高的数据粒度级别:如果没有存储空间的限制,则可以在一个数据仓库中采 用多重粒度级别,既存储低粒度级别数据,也存储高粒度级别的数据,以同时 获得高的查询效率和查询能力。 ( 3 ) 分割 9 武汉理工大学硕l :论文 分割是进行数据仓库设计时要处理的另一个主要的设计问题。数据分割是 把大的数据集划分成多个较小的数据集,并分散存储到不同的物理单元,使它 们能独立地被处理。对于数据仓库中基于时间、地理位置、事件属性、商品性 质等这类复杂数据进行有效的分割便于数据的管理,并可以提高数据访问的效 率。 ( 4 ) 数据集市 数据集市在数据仓库中是一个非常重要的概念。一种比较常见的误解是认 为它与数据仓库的差别只是数据量的大小而己。事实上,数据仓库是企业级的, 能为整个企业各个部门的运行提供决策支持手段;而数据集市是部门级的,一 般只能为某个局部范围内的管理人员服务,有些供应商也称为“部门级数据仓 库 。 2 3 数据挖掘的任务 数据挖掘的任务,主要是从数据信息源中发现有用的并且用户能够理解的 模式。模式按功能可以分为预测型( p r e d i c t i v e ) s 1 描述型( d e s c r i p t i v e ) 模式,预测 型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使 用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一 种描述,或者根据数据的相似性把数据分组。按实际作用可以分为:分类模式、 关联模式、序列模式、聚类模式、预测模式、偏差检测。 分类模式和回归模式是使用最普遍的模式。分类模式、回归模式、时间序 列模式也被认为足受监督知识,因为在建立模式前数据的结果是己知的,可以 直接用来检测模式的准确性,模式的产生是在受监督的情况下进行的。一般在 建立这些模式时,使用一部分数据作为样本,用另一部分数据来检验、校正模 式。聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前结果 是未知的,模式的产生不受任何监督。 2 4 数据挖掘的过程 数据库中的知识发现,应该是一个完整的过程,该过程从大型数据库中挖 掘先前未知的、有效的和有实用价值的信息或模式,使用这些信息能够做出很 l o 武汉理t 大学硕十论文 好的决策。数据库中的知识发现过程【12 】主要有以下几个步骤组成: ( 1 ) 数据清理:为未知数据项赋值和消除噪音数据或不一致数据; ( 2 ) 数据集成:把多种数据源组合在一起; ( 3 ) 数据选择:从数据库中检索与分析感兴趣或与分析任务相关的数据; ( 4 ) 数据转换:将数据变换或统一成适合挖掘的形式; ( 5 ) 数据挖掘:使用智能方法提取数据模式; ( 6 ) 模式评估:根据某种兴趣度t ,识别表示知识的真j 下有趣的模式; ( 7 ) 知识表示:使用可视化技术向用户展示挖掘出的知识。 从这里可以看出,数据挖掘只是数据库中知识发现的一个步骤。然而,在 产业界、媒体和数据库研究领域,术语“数据挖掘 比“数据库中的知识发现 更为流行。因而,作者认为,应该从广义和狭义上去理解数据挖掘的概念。所 谓广义上的数据挖掘是指包含了一系列的非平凡过程的知识发现,数据源不仅 仅是数据库,还包括数据仓库、w e b 和其它信息库;所谓狭义上的数据挖掘就是 知识发现的一个具体步骤,指的是采用智能挖掘方法,比如神经网络、r o u g h 集或遗传算法等,挖掘有趣模式的子过程,它是广义数据挖掘中的一部分。而 通常所谈论的数据挖掘指的是广义的数据挖掘,只有涉及到具体的挖掘算法时 才提及狭义的数据挖掘。 2 5 数据挖掘采用的技术及分析方法 随着各类智能方法研究的不断深入,将各类智能方法融入到数据挖掘中,从 而更新数据挖掘的技术及其分析方法。目前产生了许多针对各类不同挖掘目的 及不同数据类型的方法。比如决策树方法、神经网络网络、遗传算法( g a ) 、支 持向量机、可视化技术等等。下面分别进行简要介绍。 2 5 1 神经网络方法 神经网络技术是属于软计算( s o f tc o m p u t i n g ) 领域内一种重要方法,它是多 年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。 在数据挖掘的应用方面,当需要从复杂或不精确数据中导出概念和确定比较困 难时,利用神经网络技术就会特别有效。 武汉理工大学硕士论文 神经网络是模拟人类大脑的结构和功能,由若干简单神经元按一定规则连 接构成的网络系统。它能够采用某种学习算法从训练样本中学习,并将获取的 知识存储在网络各单元之问的连接权重中。神经网络由于具有如此良好的非线 性映射能力和对任意函数的准确逼近能力,用于分类问题往往能获得很高的分 类精度,因而被公认为分类性能最好的分类方法之一。神经网络具有优良的鲁 棒性在噪声环境下也能很好的完成分类任务。随着大量神经网络规则抽取算法 被陆续提出,对不同的算法进行归类不仅有助于该领域积累的知识的整理,还 有助于对规则抽取算法的系统化分析以及对算法设计思想的全面研究】。 经过训练后的神经网络可以具有某种专门知识的“专家系统【5 6 j ,因此可以 像人一样从经验中学习。比如运用神经网络技术对桥梁承载能力状态进行评估 【1 ,通过建立一套基于监测信息输入的模糊神经网络推理系统,利用模糊规则 生成规则库作为神经网络训练和学习的样本,这种智能评估技术进行承载能力 状态评估的可行性和实用性已经得到肯定。 随着对神经网络不断深入研究,目前神经网络已有多种结构,但最常用的 是多层b p 模型及其与其他方法融合而成的模型。它们已广泛的应用于各种数据 挖掘工具和软件中。在金融行业、银行信用卡和保险行业,预测贷款趋势,优 化存款策略,用基于神经网络的数据挖掘技术将市场分成有意义的群组和部门, 从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的 市场运动。为了保证金融业务最大的利润和最小的风险,对金融事务及其账户 进行科学有效的分析和归类以及信用评估监测都是十分必要的。 2 5 2 决策树方法 利用信息论中的信息增益原理寻找数据库中具有最大信息t 的字段,建立决 策树的一个结点,再根据字段的不同取值建立树的分枝,在每个分枝子集中重 复建立树的下层结点和分枝的过程,即可建立决策树。国际上最有影响和最早 决策树算法是q u l u l a n 研制的i d 3 方法,数据库越大它的效果越好,但这种方仅 限于分类任务。 2 5 3 遗传算法 遗传算法是基于进化理论,并采用遗传结合、遗传变异以及自然选择等设 1 2 武汉理工大学硕一i 二论文 计法的优化技术,这种算法可以起到产生优良后代的作用。它是解决各种组合 优化问题的强有力的手段。这种方法的不足之处是:这种问题的生成方式使估 计所得解答的统计意义的任何一种机会不再存在。另外一方面,只有专业人员 才能提出染色体选择的准则和有效地进行问题描述与生成。在系统中包含遗传 算法的有美国的g e n eh u n t e r 。目前,遗传算法已在优化计算和分类机器学方面 显示了明显的优势。 比如基于g a b p 神经网络的单桩承载力预测【5 5 】方法,就是根据b p 神经网 络的主要特点是仅通过具有简单处理能力的神经元的复合作用使网络具有复杂 的非线性映射能力。但它也存在一些不足,如b p 算法容易陷入局部极小值而不 能得到最优解等,而遗传算法( g a ) 最大的优点就是具有很好的全局搜索能力。 使用遗传算法对b p 网的权值和阈值进行优化降低了陷入局部极小的风险并能 够使b p 网络取得很高的收敛精度,将遗传算法与b p 人工神经网络模型相结 合,用于地基改良工程中单桩极限承载力预测问题的研究,通过预测数据和实 测数据的比较证明该模型有很高的预测精度,该基于g a b p 神经网络的模型对 于复合地基工程的设计有很好的参考价值,是计算机智能方法在结构工程中有 益的尝试。 2 5 4 模糊集方法 模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,模糊性就 越强。模糊理论能够直观高效地表征和处理领域专家的经验和知识,其推理方 法类似于人类的思维方法是处理不确定性或非线性问题的有利工具,且有较强 的解释推理功能。利用模糊集理论对实际问题进行模糊评判、模糊决策、模糊 模式识别和模糊聚类分析。 比如运用模糊神经网路推理方法【1 3 】对桥梁承载能力状态进行评估,依据模 糊推理规则建立起监测信息到承载能力状态评估之间的非线性映射关系。由于 模糊规则的产生和推理都是一种函数映射关系,因此可以用神经网络替代一般 的基于规则适应度计算的模糊推理。反过来,经过桥梁领域专家综合的模糊规 则库可作为充足的网络学习样本,这样的推理网络不仅保持着模糊系统的知识 表达和推理能力,同时可以进行学习、储存和并行处理,提高了整个评估的效 果。 武汉理t 大学硕士论文 2 5 5 可视化技术 科学计算可视化是把数值计算或实验获得的大量数据按照其规律进行组 合,用图像的方式来展现数据所表现的内容及相互关系。科学计算可视化的基 本思路就是将科学计算中从建立计算模型到计算结果均采用图形的输入和输出 来实现,将复杂的数据计算和数据处理推向后台,用户主要和图形打交道。用 户通过使用多媒体技术在屏幕上作图和修改图形,形成计算模型后,自动生成 后台的输入文件,用户可以通过交互方式获取中间结果和图形仿真以了解计算 过程,干预和引导计算并最终获得计算结果的图形、颜色、静态和动态画面, 使研究者了解全部过程和发展趋势。 科学计算可视化利用现代计算机强大的图形功能把科学计算中产生的数字 信息转变为直观的、以图像或图形信息表示的、随时间和空间变化的物理现象 或物理量,如使用交互网格生成的有限元模型,结构受荷载作用过程中变形图 上位移变化等。其实质上是科学研究过程中关于计算机辅助后置数据处理部分, 其目的是为科学家提供一种可视的分析手段。 通常,研究一种物理现象时首先要建立一个物理模型( 物理定律) ,然后将转 换为数学模型( 物理定律的数学表达式) ,据此提出计算模型送计算机计算模拟, 模拟结果数据经可视化处理转化成为可视图形( 图像) 信息提供给科学家作为分 析研究,验证物理模型的正确性,总结出物理现象的内在规律。2 0 0 1 钟珞1 1 4 j 等 人提出了结构动态分析可视化思路,即根据给出的三维建模数据和o p e n g l 绘 制引擎通过v i s u a lc + + 6 0 编程实现地震状态下结构地基相互作用的动态过程, 为定量进行结构动态分析提供可视化工具。为模拟并再现结构的动态变化历程, 也为复杂的算法,例如地震中结构断裂、土层错位、房屋倒塌等真实模型的动 态模拟,提供了可视化的分析基础。用直观图形将信息模式、数据的关联或趋 势呈现给决策者,使用户能交互地分析数据关系,可视化技术将人的观察力和 智能融入数据挖掘系统,极大地改善了系统挖掘的速度和深度。 2 5 6 支持向量机 在数据库字段项之问存在两种关系: 关系) 和相关关系( 不能用函数公式表示, 1 4 函数关系( 能用函数公式表示的确定性 但仍是相关确定关系1 。对它们的分析 武汉理t 大学硕 :论文 主要采用回归分析、相关分析和主成分分析等。 支持向量机( s v m ) 建立在统计学理论的v c 维概念以及结构风险最小化 原理的基础之上,它依据有限样本信息在模型的复杂度和经验风险之间进行折 衷,以获得较好的推广性能。支持向量机学习方法优点主要表现: ( 1 ) 它是专门针对有限样本情况的学习机器,实现的是结构风险最小化,是 现有信息下的最优解而不是样本数趋于无穷的最优解; ( 2 ) 它最终解决的是一个凸二次规划问题,从理论上说,得到的将是全局最 优解,解决了在神经网络方法中无法避免的局部极值问题; ( 3 ) 分类器的泛化能力与输入特征矢量的维数无关,克服了经典分类器存在 的“维数灾难”问题。 支持向量机已表现出很多优于已有方法的性能,它能非常成功地处理回归 问题( 时间序列分析) 和模式识别( 分类问题、判别分析) 等诸多问题,并可推广于 预测和综合评价等领域。在支持向量分类器中,不同的核函数以及参数选择对 于分类器性能具有很大的影响【1 5 l 。因此根据不同的领域样本信息得到相应的自 适应最优核函数就成为了人们十分关心的问题。 2 6 本章小结 随着数据挖掘技术的不断发展,在各个领域中都广泛使用了数据挖掘,比 如银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、 软件开发、运输等各个企事业单位及国防科研。 比如在客户关系管理方面,运用数据挖掘可以找出产品使用模式或协助了解 客户行为,如正确时间销售( r i g h t t i m em a r k e t i n g ) 就是基于顾客生活周期模型 即时序模型来实施的;在过程控制质量监督保证方面,数据挖掘可以协助管理大 数量变量之间的相互作用,数据挖掘能自动发现出某些不正常的数据分布,暴 露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注 意到问题发生范围和采取改正措施【l6 1 ;在金融领域,可以运用基于神经网络或遗 传算法等智能方法预测贷款、股票、汇率等的趋势,优化存款策略保证金融业 务最大的利润和最小的风险,对金融事务及其账户进行科学有效的分析和归类 以及信用评估监测都是十分必要的;在桥梁、混凝土建筑等大规模工程上,可 以运用基于智能方法的评估技术进行智能评估对工程的设计、可靠性与实用性 武汉理t 大学硕士论文 都有一定的指导意义;在军事方面,使用数据挖掘进行军事信息系统中的目标 特征提取和态势关联规则挖掘等。 1 6 武汉理t 大学硕i :论文 第3 章粒计算理论 3 1 粒计算的基本概念 “人类智能的特点就是人们能从极不相同的粒度上观察和分析同一问题。人 们不仅能在不同的粒度世界上进行问题求解,而且能够很快地从一个粒度跳到 另一个粒度的世界,往返自如,毫无困难。 这种处理不同粒度世界的能力正是 人类问题求解的强有力的表现。由于观察问题的角度和获取对象的特征信息不 同,对复杂对象可按分析问题的需求,将对象简练成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年内蒙古呼伦贝尔农垦集团有限公司招聘考试笔试试卷含答案附答案详解(模拟题)
- 2025公益性岗位试题及答案解析
- 2025年工业互联网平台流量整形技术产业政策与市场前景分析
- 2025年新能源汽车电池回收利用技术市场前景与发展前景报告
- 2025年新能源物流车推广应用与充电桩建设成本优化策略与绿色物流成本控制报告001
- 合肥市经济开发区产业结构优化路径与策略研究
- 量子通信(第二版) 课件汇 第11-24讲 QKD原理与实现(I)-量子通信网络-拓扑与路由、复习
- 2025年教师招聘之《小学教师招聘》题库综合试卷带答案详解(巩固)
- 2025年教师招聘之《幼儿教师招聘》通关练习题和答案及参考答案详解(精练)
- 基于2025年智能制造产业孵化基地建设的产业科技创新体系建设建议
- 2025保密教育线上培训考试题库(含答案)
- 护栏供应及安装合同范本
- 2025宁波宁海县国有企业招聘52人考试参考试题及答案解析
- 2025年本科院校团委笔试备考手册
- GB/T 45940-2025网络安全技术网络安全运维实施指南
- 2024年仙桃市高新技术产业投资有限公司招聘笔试真题
- 敦煌课件讲解稿子
- 2025年环境工程师初级职称考试试题及答案解析
- 眼科特检基础知识培训课件
- 统编版高中思想政治必修1第一课社会主义从空想到科学、从理论到实践的发展1.2科学社会主义的理论与实践 教学课件
- 摄影剪辑基本知识培训课件
评论
0/150
提交评论