(计算机应用技术专业论文)模糊关联规则的数据挖掘算法研究.pdf_第1页
(计算机应用技术专业论文)模糊关联规则的数据挖掘算法研究.pdf_第2页
(计算机应用技术专业论文)模糊关联规则的数据挖掘算法研究.pdf_第3页
(计算机应用技术专业论文)模糊关联规则的数据挖掘算法研究.pdf_第4页
(计算机应用技术专业论文)模糊关联规则的数据挖掘算法研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 学科专业:计算机应用技术 指导老师:张为群教授 研究方向:人工智能应用 研究生:黄智兴( 9 7 12 3 ) f 数据挖掘和模糊数学是两门重要的现代计算机技术。 数据挖掘,也称数据库中的知识发现,是一个从大量数据中提取出可信的、 新颖的、有效的并能被人理解的模式的多阶段的高级处理过程;而模糊数学白 1 9 6 5 年提出以来,模糊技术在地铁机车、机器人、过程控制、故障诊断、交通 管理、医疗诊断、声音识别、图像处理、市场预测等领域普遍应用。 模糊数据挖掘技术是在利用原有数据挖掘技术的同时,与模糊理论相结 合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理 解。由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与 数据挖掘技术的结合成为数据挖掘技术发展的必然,将模糊数学与数据挖掘技 术相结合是一项有意义的工作。广7 作者首先总结了模糊数学和数据挖掘技术相结合的各种方法,并着重研究 模糊关联规则的数据挖掘的方法,并提出了对布尔型关联规则、数值型关联规 则、周期型关联规则模糊化的方法,提出了面向集合的通用的模糊数据挖掘算 法f u z z y s e t m ,并用实验证明模糊数据挖掘的有效性。通过对以上规则挖掘方 一法的模糊化,形成模糊数据挖掘的一般方法。文章结构如下: 第一章简要介绍了数据挖掘的意义、兰种常见的数据挖掘处理模型及数 据挖掘的特点。 第二章介绍模糊数学与数据挖掘结合的意义,总结了模糊数据挖掘主要 方法,如属性值的模糊聚类、抽象概念的形成、神经网络的利用、规则的事后 分析等。 第三章介绍从几何的角度看关联规则,并利用模糊聚类的方法发现一般 化的模糊关联规则。 第四章提出布尔型关联规则和数值关联规则的模糊化方法,提出面向集 合的模糊数据挖掘算法f u z z y s e t m ,并将此方法应用于g a r i c 神经网络的分 析之中。 第五章提出了周期型关联规则的模糊化方泄、,通过与原有周期型关联规 则的结合,发现模糊周期型关联规则的方法,总结发现模糊关联规则的一般方 r 士 压。 、 第六章结束语? ) 、,、, 1 , 关键字:模糊数据挖掘。布尔型关联规则。数值型关联规则、周期型关联规则7 聚类隶属度支持度自信度事务项目模糊布尔型关联规则 模糊数值型关联规则模糊周期型关联规则 d a t a m i n i n ga l g o r i t h m r e s e a r c ho n f u z z y a s s o c i a t i o nr u l e a b s t r a c t d a t a m i n i n ga n df u z z ym a t h e m a t i c sa r et w oo f t h ei m p o r t a n tm o d e m c o m p u t e r t e c h n o l o g i e s d a t a m i n i n g a l s ok n o w n a sk n o w l e d g ed i s c o v e r yi nd a t a b a s e i sa na d v a n c e d m u l t i p h a s e dp r o c e d u r e o ft h e d i s c o v e r y o fb e l i e v a b l e ,n o v i c e ,e f f e c t i v ea n d u n d e r s t a n d a b l em o d e sh i d i n gi nag r e a ta m o u n to fd a t a s i n c et h ef o u n d i n go ff u z z y m a t h e m a t i c si n19 6 5 f u z z yt e c h n o l o g i e sh a v eb e e nw i d e l ya p p l i e dt ov a r i o u sf i e l d s s u c ha ss u b w a yc o n t r o l ,r o b o t s ,m e d i c a ld i a g n o s i s ,d e f e c td i a g n o s i s ,p r o c e s sc o n t r o l , t r a f f i cm a n a g e m e n t ,i m a g e p r o c e s s ,s o u n dr e c o g n i t i o n ,m a r k e tp r e d i c t i o na n d o t h e r s f u z z y d a t am i n i n g t e c h n o l o g ya i m sa td i s c o 、( e r i n gm o r eg e n e r a lk n o w l e d g ei n e n o r m o u sd a t a b a s e ,t h r o u g ht h ec o m b i n a t i o no ff u z z yt h e o r i e sa n dt h ee x i s t i n gd a t a m i n i n gt e c h n o l o g i e s i t i s e x p e c t e d t oo f f e rm o r em i n i n gi n f o r m a t i o n e a s i l y u n d e r s t a n d a b l et od a t au s e r s d u et ot h ef u z z ye x p r e s s i o no fd a t ai nt h er e a lw o r l d t h ec o m b i n a t i o no fd a t am i n i n g t e c h n i q u ea n df u z z y m a t h e m a t i c a lt h e o r i e sb e c o m e s u n a v o i d a b l e ,a n dt h ec o m b i n a t i o ni sc e r t a i n l yav a l u a b l eo n e t h i sd i s s e r t a t i o nf i r s ti n t r o d u c e sv a r i o u sm e t h o d so ft h ec o m b i n a t i o no fd a t a m i n i n gt e c h n i q u ea n df u z z ym a t h e m a t i c a lt h e o r i e s i ts h o w ss p e c i a l a t t e n t i o nt o d a t a m i n gm e t h o d so ff u z z ya s s o c i a t i o nr u l e ,a n dp r o p o s e st h e f u z z i f i c a t i o no f b o o l e a na s s o c i a t i o nr u l e ,n u m e r i ca s s o c i a t i o nr u l e ,c i r c u l a ra s s o c i a t i o nr u l e i t a l s op r o p o s e san e w f u z z yd a t am i n i n ga l g o r i t h m ,d e f i n e da sf u z z y s e t m ,w h i c hi sa g e n e r a l m e t h o do r i e n t e dt o w a r ds e t s t h ea u t h o ra l s ot r i e st o p r o v i d e s o m e e x p e r i m e n t s t oc h e c k 廿l ee f f e c t i v e n e s so ft h ea l g o r i t h m t h r o u g ht h ef u z z i f i c a t i o no f t h e s ed a t am i n i n gr u l e s ,t h ed i s s e r t a t i o ne x p e c t st oc o n s t r u c tt h eg e n e r a lm e t h o d d e a l i n gw i t ht h ep r o b l e m s o ff u z z yd a t am i n i n g t h ep a p e ri sc o n s i s t e do ff i v e c h a p t e r s : c h a p t e ro n eb r i e f l yi n t r o d u c e st h es i g n i f i c a n c eo f d a t am i n i n g ,t h r e ec o m m o n d a t a m i n i n gp r o c e s sm o d e s ,s o m e c h a r a c t e r so fd a t a m i n i n g c h a p t e r t 1 w 0i l l u s t r a t e st h e s i g n i f i c a n c e o ft h ec o m b i n a t i o no f f u z z y m a t h e m a t i c sa n dd a t am i n i n g i ta l s os u m su pt h ep r i n c i p a lm e t h o d so ff u z z yd a t a m i n i n gw h i c ha r ee x e m p l i f i e db ya t t r i b u t e v a l u e f u z z yc l u s t e r , t h e f o r m a t i o no f a b s t r a c tc o n c e p t ,t h ea p p l i c a t i o no fn e u r a ln e t w o r k ,p o s t a n a l y s i so f r u l e s ,e t c c h a p t e rt i l r e e i sd e v o t e dt ot h ec o n s i d e r a t i o no fa s s o c i a t i o nr u l e st h r o u g h g e o m e t l i c a lv i e w i ta i m sa td i s c o v e r i n g t h eg e n e l a lr u l e so f f u z z ya s s o c i a t i o n r u l e s c h a t h t e l f o u rp r o p o s e st h em e t h o d s0 ft h ef h z z i f i c a t j o no fb o o l e a na s s o c i a t i o n r u l ea l l cn u m e r i ca s s o c i a t i o nr u l e ,a n dan e w f u z z yd a t am i n i n ga l g o r i t h m ,d e f i n e d a s f u z z y s e t m ,w h i c hi s ag e n e r a lm e t h o do r i e n t e dt o w a r ds e t s t h e c h a p t e ra l s o a l t e m d t st oa p p l yt h i sm e t h o dt ot h e a n a l y s i so fg a r i c n e u r a ln e t w o r k c h a p t e rf i v ep r o p o s e st h ef u z z i f i c a t i o nm e t h o do f c i r c u l a ra s s o c i a t i o nr u l e b yt h em o d i f i c a t i o no f t h ee x i s t i n gc i r c u l a ra s s o c i a t i o nr u l e ,i tt r i e st od i s c o v e rt h e f u z z i f i c a t i o nm e t h o do fc i r c u l a ra s s o c i a t i o nr u l e t h i sc h a p t e ri sa l s oe x p e c t e dt o s u m u p t h eg e n e r a lw a y so f f u z z ya s s o c i a t i o nr u l e s c h a p t e r s i xs u m m a r ya n dc o n c l u s i o n k e y w o r d s :f u z z yd a t am i n i n g , b o o l e a na s s o c i a t i o nr u l e ,n u m e r i ca s s o c i a t i o n r u l e ,c i r c u l a r a s s o c i a t i o n r u l e ,c l u s t e r ,m e m b e r s h i p ,s u p p o r t , c o n f i d e n c e ,t r a n s a c t i o n ,i t e m ,f u z z yb o o l e a na s s o c i a t i o nr u l e ,f u z z y n u m e r i ca s s o c i a t i o n r u l e ,f u z z yc i r c u l a ra s s o c i a t i o nr u l e 1 1 第一章k d d 综述 1 概述 数据库中的知识发现0 0 ) dk n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 是一个从大 量数据中提取出可信的、新颖的、有效的并能被人理解的模式的多阶段的高级 处理过程。 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储 的数据量急剧增大,可是目前用于对这些数据进行分析处理的工具却很少。在 大量的数据背后隐藏着许多重要信息,但由于人们目前所使用工具的局限性而 无法将其挖掘出来,而这些重要信息可以很好地支持人们的决策。目前数据库 系统所能做到的只是对数据库中已有的数据进行存取,人们通过这些数据所获 得的信息量仅仅是整个数据库所包含的信息量的一部分,隐藏在这些数据之后 的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这 些信息在决策生成的过程中具有重要的参考价值。 在数据库技术飞速发展的同时,人工智能领域的一个重要分支机器学习的 研究也取得很大进展。自5 0 年代开始机器学习的研究以来,在不同时期的研 究途径和目的也不尽相同,一般大致可分为三个阶段,其研究内容分别为:神 经网络模型和决策理论、概念符号获取及知识加强和论域专用学习。根据人类 学习的不同模式人们提出了很多机器学习方法,如:实例学习、观察和发现学 习、神经网络和遗传算法等等。其中某些常用且较成熟的算法已被人们运用于 实际的应用系统及智能计算机的设计和实现中。 正是由于数据库技术和机器学习技术的发展,也是为了满足人们实际工作 中的需要,数据库中的知识发现k d d 技术逐渐发展起来。k d d 也有人称之为 数据挖掘( d a t am i n i n g ) ,实际两者是有区别的,这种区别下面我们可以看到, 但一般可以不加区别地使用两者。 2r o d 定义 从开始到现在,人们给k d d 下过很多定义。随着k d d 研究的不断深入, 人们对k d d 的理解越来越全面,对k d d 的定义也不断修改,下面是对k d d 的比较公认的一个定义: k d d 是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式 的多阶段处理过程,这种处理过程是一种高级的处理过程。 f 面我们对这个定义作详细的解释: 数据:数据是指一个有关事实f 的集合( 如学生档案数据库中有关学生基 第一章k d d 综述 本情况的符条汜录) ,它是用来描述事物有关方而的信息,一般来说这些数据 都是7 f :确尢i 冀的。 模式:x , l 于集合f 中的数据,我们可以用语苦l 来捕述其c f 一数据的特性。 表达式ec ,e 所描述的数据是集合f 的一个子集r 。只有当表达式e 比列举 所有f 中元素的描述方法更为简单时,我们才可称之为模式。如:“如果成绩 在8 1 9 0 之间,则成绩优良”可称为一个模式,而“如果成绩为8 1 、8 2 、8 3 、8 4 、 8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为一个模式。 处理过程:k d d 是一个多步骤的处理过程,包括数据预处理、模式提取、 知识评估及过程优化。我们说这个过程是非繁琐的,主要是指这个处理过程的 大部分阶段是系统自动进行的而无需人工干涉。 可信:通过k d d 从当前数据所发现的模式必须有一定的正确程度,否则 k d d 就毫无作用。可以通过新增数据来检验模式的正确性,我们用c 表示模式 e 的可信度 c = c ( e f 1 其中e cl ,e 所描述的数据集合rc f 。 新颖:经过k d d 提取出的模式必须是新颖的,至少对系统来说应该如此。 模式是否新颖可以通过两个途径来衡量:其一是得到的数据,通过对比当前得 到的数据和以前的数据或期望得到的数据之间的比较来判断该模式的新颖程 度;其二是通过其内部所包含的知识,通过对比发现的模式与已有的模式的关 系来判断。通常我们可以用一个函数来表示模式的新颖程度n ( e ,f ) ,该函数的 返回值是逻辑值或是对模式e 的新颖程度的一个判断数值。 潜在作用:提取出的模式应该是有意义的,这可以通过某些函数的值来衡 量。用“表示模式e 的有作用程度,“:u ( e ,f ) 。 可被人理解:k d d 的一个目标就是将数据库中隐含的模式以容易被人理解 的形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。当然一个 模式是否容易被人理解,这本身就很难衡量,比较常用的方法是对其简单程度 进行衡量。我们假定模式e 的简单度( 可理解度) s 可用函数s ( e ,f ) 来衡量。 上面介绍的各种度量函数都只是从不同角度对所发现的模式进行评价,一 般为方便起见,往往采用权值来对所发现的模式进行综合评判。在某些k d d 系统中,利用函数来求得模式e 的权值i ;i ( g ,f ,c ,n ,u ,s ) ;而在其他一些系统 中,通过对求得的模式的不同排序来表现模式的权值大小。 3 k d d 处理过程模型 第一章k d d 综述 3 1 多处理阶段过程模型一 多处理阶段模型将数据库中的知识发现看做是一个多阶段的处理过程,在 整个知识发现的过程中包括很多处理阶段。这里我们主要介绍两种而向多阶段 处理过程的k d d 处理过程模型。一是u s a m a m f a y y a d 等人给出的处理模馊。 在此处理模型中,k d d 处理过程共分为九个处理阶段,这九个处理阶段 分别是数据准备、数据选择、数据预处理、数据缩减、k d d 目标确定、挖掘算 法确定、数据挖掘、模式解释及知识评价。 阶段1数据准备了解k d d 相关领域的有关情况,熟悉有关的背景知识, 并弄清楚用户的要求。 阶段2数据选择根据用户的要求从数据库中提取与k d d 相关的数据,k d d 将主要从这些数据中进行知识提取,在此过程中,会利用一些数据 库操作对数据进行处理。 阶段3数据预处理主要是对阶段2 产生的数据进行再加工,检查数据的完 整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据 可以利用统计方法进行填补。 阶段4 阶段5 阶段6 阶段7 阶段8 阶段9 数据缩减对经过预处理的数据,根据知识发现的任务对数据进行再 处理,主要通过投影或数据库中的其他操作减少数据量。 确定k d d 的目标根据用户的要求,确定k d d 是发现何种类型的知 识,因为对k d d 的不同要求会在具体的知识发现过程中采用不同的 知识发现算法。 确定知识发现算法根据阶段5 所确定的任务,选择合适的知识发现 算法,这包括选取合适的模型和参数,并使得知识发现算法与整个 k d d 的评判标准相一致。 数据挖掘( d a t am i n i n g ) 运用选定的知识发现算法,从数据中提取出 用户所需要的知识,这些知识可以用一种特定的方式表示或使用 些常用的表示方式,如产生式规则等等。 模式解释对发现的模式进行解释,在此过程中,为了取得更为有效 的知识,可能会返回前面处理步骤中的某些步以反复提取,从而提 取出更有效的知识。 知识评价将发现的知识以用户能了解的方式呈现给用户。这期间也 包含对知识的一致性的检查,以确信本次发现的知识不与以前发现 的知识相抵触。 在上述的每个处理阶段k d d 系统会提供处理工具完成相应的工作。在对 第一章k d d 综述 挖掘的知识进行评测后,根据结果可以决定是否重新进行某些处理过程,在处 理的任意阶段都可以返回以前的阶段进行再处理。 3 2 多处理阶段过程模型二 下面我们介绍的数据挖掘处理过程模型是g e o r g eh j o h n 给出的,虽然在 某些地方与上面给出的处理模型有一些区别,但这种区别主要表现在对整个处 理过程的组织和表达方式上,在内容上两者并没有非常本质的区别。 这种模型强调由数据挖掘人员和领域专家共同参与k d d 的全过程。领域 专家对该领域内需要解决的问题非常清楚,在问题的定义阶段由领域专家向数 据挖掘人员解释,数据挖掘人员将数据挖掘采用的技术及能解决问题的种类介 绍给领域专家。双方经过互相了解,对要解决的问题有一致的处理意见,包括 问题的定义及数据的处理方式。 在数据挖掘人员得到准确的问题定义和分析后,开始收集需要使用的数 据,进行再加工以使得数据更适合后面的挖掘算法使用。根据解决问题的需要 选择合适的挖掘算法。提取出来的知识需要向领域专家进行解释,以对知识及 整个过程进行评价。 下面对该模型中的各个处理阶段进行介绍。 阶段1问题的理解和定义数据挖掘人员与领域专家合作,对问题进行深入 的分析,以确定可能的解决途径和对学习结果的评测方法。 阶段2相关数据收集和提取根据问题的定义收集有关的数据。在数据提取 过程中,可以利用数据库的查询功能以加快数据的提取速度。 阶段3数据清理了解数据库中宇段的含义及其与其他字段的关系。对提取 出的数据进行合法性检查并清理含有错误的数据。 阶段4数据工程对数据进行再加工,主要是冗余属性剔除、从大量数据中 选择具有代表性的数据以减少学习量以及对数据的表述方式进行转 换以适于学习算法等。 阶段5算法选择根据数据和所要解决的问题选择合适的知识发现算法,并 决定如何在这些数据上使用该算法。 阶段6运行数据挖掘算法根据选定的知识发现算法对经过处理后的数据进 行模式提取,即数据挖掘。 阶段7结果的评价对学习结果的评价依赖于需要解决的问题,由领域专家 对发现的模式的新颖性和有效性进行评价。 阶段8优化根据对结果的评价可能需要对处理过程的某些阶段进行优化。 在此过程中,领域专家的参与非常重要,可以根据专业知识给出很 第一章k d d 综述 好的改进意见。优化包括对问题的再定义及相关数据的进一步处理。 阶段9 结果的使用在实际工作中应用这些知识,为决策提供支持。如根据 学习得到的知识可以设置某些触发器,当满足条件时进行特殊处理。 上面给出的处理过程模型主要强调k d d 需要领域专家的参与。由领域的 专业知识指导数据库中的知识发现的各个阶段,并对发现知识进行评价。这种 模型主要是根据实际应用的需要而提出的。 3 3 以用户为中心的处理模型 b r a c h m a n & a n a n d 从用户的角度对k d d 处理过程进行了分析。他们认 为数据库中的知识发现应该更着重于对用户进行知识发现的整个过程的支持, 而不是仅仅限于在数据挖掘的一个阶段上。通过对很多k d d 用户在实际工作 中遇到的问题的了解,他们发现用户的很大一部分工作量是与数据库的交互 上。所以他们在开发数据挖掘系统i m a c s ( i n t e r a c t i v em a r k e t i n ga n a l y s i sa n d c l a s s i f i c a t i o ns y s t e m ) 时特别强调对用户与数据库交互的支持。 该模型特别注重对用户与数据库交互的支持,用户根据数据库中的数据, 提出一种假设模型,然后选择有关数据进行知识的挖掘,并不断对模型的数据 进行调整优化。整个处理过程分为下面一些步骤: 阶段1任务定义通过与用户或用户集体的多次交流,确切了解需要处理的 任务。任务定义是为了明确需要发现的知识的类别及相关数据。 阶段2数据发现了解任务所涉及的原始数据的数据结构及数据所代表的意 义,并从数据库中提取相关数据。 阶段3数据清理对用户的数据进行清理以使其适用于后续的数据处理。这 需要用户的背景知识,同时也应该根据实际的任务确定清理规则。 阶段4模型的确定通过对数据的分析选择一个初始的模型。模型定义一般 分为三个步骤:数据分隔,模型选择和参数选择。 阶段5数据分析包括四个处理阶段:对选中的模型进行详细定义,确定模 型的类型及有关属性;通过对相关数据的计算,计算模型的有关参 数,得到模型的各属性值;通过测试数据对得到的模型进行测试和 评价;根据评价结果对模型进行优化。 阶段6输出结果生成数据分析的结果一般都比较复杂,很难被人理解,将 结果以文档或图表形式表现出来则易于被人接受。 该处理过程模型以用户为中心,通过对用户在进行数据挖掘过程时的工作 方式的分析,在设计k d d 系统时更注重于对用户的整个数据挖掘的全过程提 供支持。 第一章k d d 综述 4k d d 的特点 由以上我们可以看出,k d d 就是利用机器学习的方法从数据库中提取有 价值知识的过程,是数据库技术和机器学习两个学科的交叉学科。数据库技术 侧重于对数据存储处理的高效率方法的研究,而机器学习则侧重于设计新的方 法从数据中提取知识。k d d 利用数据库技术对数据进行前端处理,而利用机器 学习方法则从处理后的数据中提取有用的知识。k d d 与其他学科也有很强的联 系,如统计学、数学和可视化技术等等。 既然k d d 和机器学习都是从数据中提取知识,那么两者有什么区别不同 呢? k d d 是从现实世界中存在的一些具体数据中提取知识,这些数据在k d d 出现之前早已存在;而机器学习所使用的数据是专门为机器学习而特别准备的 数据,这些数据在现实世界中也许毫无意义。由于k d d 使用的数据来自于实 际的数据库,所要处理的数据量可能很大,因此k d d 中的学习算法的效率和 可扩充性就显的尤为重要;此外,k d d 所处理的数据由于来自于现实世界,数 据的完整性、一致性和正确性都很难保证,如何将这些数据加工成学习算法可 以接收的数据也需要进行深入的研究;再者,k d d 可以利用目前数据库技术所 取得的研究成果来加快学习过程,提高学习的效率。最后,由于k d d 处理的 数据来自于实际的数据库,而与这些数据库数据有关的还有其他一些背景知 识,这些背景知识的合理运用也会提高学习算法的效率。 在日常的数据库操作中,人们经常使用的是从数据库中抽取数据以生成一 定格式的报表,那么k d d 与数据库报表工具有什么区别呢? 数据库报表制作 工具是将数据库中的某些数据抽取出来,经过一些数学运算,最终以特定的格 式呈现给用户,而k d d 则是对数据背后隐藏的特征和趋势进行分析,最终给 出关于数据的总体特征和发展趋势。报表工具也许能制作出满足下列要求的表 格:上学期考试未通过及成绩优秀的学生的有关情况;但它不能回答下述问题: 考试未通过及成绩优秀的学生在某些方面有些什么不同的特征? 而k d d 就可 以回答上述问题。 第= 章模糊数据挖掘及其主要技术 第二章模糊数据挖掘及其主要技术 1 数据挖掘与模糊数学 1 1 模糊数学概述 模糊数学诞生于1 9 6 5 年,它的创始人是美国的自动控制专家l a z a d e h 教 授,他首先提出用隶属函数( m e m b e r s h i pf u n c t i o n ) 来描述模糊概念,创立了 模糊集合理论,为模糊数学奠定了基础。他还提出了著名的复杂性与精确性的 “不相容原理”( 又叫作“互克性原理”) ,即:“随着系统复杂性的增加,我们 对其特征作出精确而有意义的描述的能力会随之降低,直到达到一个阀值,一 旦超过它,精确和有意义二者将会相互排斥”。这就是说,事物越复杂,人们 对它的认识也就越模糊,也就越需要模糊数学。 不相容原理深刻地阐明了模糊数学产生和发展的必然性,也为三十多年来 模糊数学的发展历史所证实。1 9 7 4 年,印度裔的英国学者e h m a n d a n i 首先将 模糊理论用于锅炉和蒸汽机的控制,并在实验室内作了成功的实验,这不仅验 证了模糊理论的有效性,也开创了模糊控制这一新领域。1 9 8 4 年,国际模糊系 统联合会( i f s a ) 成立,并于1 9 8 5 年召开了首届年会。8 0 年代后期以来,在 日本采用模糊控制技术的家电产品大量上市,模糊技术在地铁机车、机器人、 过程控制、故障诊断、交通管理、医疗诊断、声音识别、图像处理、市场预测 等领域普遍应用,掀起了一股模糊热。 如今,信息科学技术飞速发展,网络化、智能化、综合化成为时代的特征, 为模糊理论的发展和应用提供了更广阔的需求。 模糊数据挖掘技术是在利用原有数据挖掘技术的同时,与模糊理论相结 合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理 :解。 由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与 数据挖掘技术的结合成为数据挖掘技术发展的必然,将模糊数学与数据挖掘技 术相结合是一项非常有意义的工作。以下将对模糊数据挖掘的主要技术作分别 的介绍: 第= 章模糊数据挖掘及其主要技术 2 模糊数据挖掘的主要技术 2 1 属性值的模糊聚类 从大量数据中采掘知识,在某种意义上可以认为是通过归纳和抽象不断减 少数据量,而使得数据中包含的主要语义或本质性的意义并没有丢失。即人们 、v 设法去找到近似的模糊的等价变换t ,使得t ( d ) 和d 具有近似的意义。 根据上述观点,将关系数据库中的属性值进行某种模糊聚类,使得原来精 确的值用模糊值来替换。一般经过这种替换之后,由于模糊值的个数要比精确 值的个数少得多,从而使得很多原不相同的元组就变成了相同的元组,在消去 相同的元组之后,将大大减少数据库关系中的元组数目,使关系大为减少。 模糊数学已有很多聚类的方法可用,最简单的方法是按“最大隶属度原则” 聚类。即把一些用语言值表达的模糊值用定义在相应论域上的隶属函数表示, 例如形容年龄大小的几个语言值可用定义在岁数集合上的隶属函数来分别表 示,于是任一岁数代入五个隶属函数后即可得到五个隶属函数值,这种方法就 取其中最大者为该岁数相应的年龄档。 2 2 抽象概念的形成 在对关系数据库中的关系作上述属性值的模糊聚类之后,就得到了一个具 有模糊值的一些关系构成的数据库。在此基础上就可采用涉及多个属性的分类 来形成一些新的概念。 例如1 7 1 :在一个关于旧社会农村调查的数据库中具有土地占有量和雇工数目 ( 正数表示雇工,负数表示被雇工) 等属性,我们就可以用涉及这两个属性的 一个逻辑条件,( 一般是可以一个逻辑表达式) 来将农户分类, 比如把满足 ( “土地占有量”= 大) 并且( “雇工数”= 大) 者成为“地主”;把满足 ( “土地占有量”= 无) 并且( “雇工数”= 负数) 者成为“雇农”等等,“地主”和“雇农”等是新属性“成分”的属性值。 于是,对于并不需要具体知道“土地占有量”等实际数据的人来说。通过 上述分类在关系又中有把多个属性压缩成了一个属性,相当于又进行了依次归 纳和抽象,在分类过程中生成了一些诸如“地主”和“雇农”等概念,并且产 生了更抽象的属性“成分”。 第- 二章模糊数据挖掘及其主要i 术 2 2 2 通过属性值的模糊分割形成概念 通过将多个属性值模糊分割之后形成的矩阵或立方阵来表示模糊概念也是 一种好方法。就以对两个属性值分割后构成的矩阵为例来说明这种方法。设属 性4 和b 的值域分别被分割为若干模糊区间: a = 爿,a z ,爿。) ,b = b i ,b 2 ,b 。) 构成了矩阵: 爿,彳, 彳。 b , c 【c ,2 c | , b 2 c 2 fc 2 2 c 2 , b 脚c m ic 卅,c 卅。 其中c o ( j _ 1 ,2 ,n ;j = 1 ,2 ,m ) 表示当属性a 的取值为a ,属性b 的取值为e 时所代表的概念,当属。l 生x f qa i 或弓为模糊时,概念c j 也是模糊的。 2 3 模糊映象关系的获取 模糊映象关系指在一个或多个属性和其它多个( 也可以是一个) 属性之间 存在的一种模糊函数依赖关系。这种依赖关系是统计意义下的依赖关系,即对 关系中的大多数元组而言这种依赖关系存在,但并不排除有少数元组其属性值 间不存在这种依赖关系。 若把模糊规则的前提视为“自变量”,把结论视为“因变量”,就可把模糊 规则认为是这种模糊映象关系的特例。所以这种模糊关系的采掘就可以认为是 对模糊规则的发现。 从模糊关系型数据库中发现这种隐含的模糊依赖关系可采取模糊拟合方法或模 糊函数逼近的方法等来解决。 在第三章中,我们将从几何的概念上来分析这种依赖关系,并将发现这种 关系的方法同一般的数据挖掘方法相结合。 2 4 模糊规律的发现 在此,规律被定义为具有参量普遍性的规则或更一般的依赖关系,取值的 参量可以是时间、空间位置或其它参变量。设a 。,a :,a 。和b 都是关系中的若 干个属性,则一条规则可表示为 矿( 一l = a 1 ) a n d ( a 2 = a 2 ) a n d a n d ( a 。= 口。) t h e n ( b = 6 ) 不妨把推理视为一种计算,把b 的值】,视为z ,的函数: y = r ( x ,x ,j 。) 第二章模糊数据挖掘及其王要技术 要求该函数r 统计的满足: b = r ( a l ,a 2 ,一,a 。) 于是,一条规律可表示为: y ( 见,p 2 ,p 。) = r ( x 1 ,x 2 ,x 。,p 】,p 2 ,p 。) 当固定一组参数值时,就得到了一条具体的规则。 规律的发现可认为是以一个大量的规则构成的集合作为知识发现的“本 源”,以发现规律为“目标”的更高以层的知识发现过程。但从知识发现的方 法而言,原则上可以采用类似规则发现的方法来发现规律,但在具体操作中自 然有许多问题需要研究。 在第四章,我们将模糊概念引入关联规则发掘算法中,并提出面向集合的 模糊关联规则挖掘算法,以期发现数据之间的关系的模糊关系。 2 5 神经网络的应用 在数据挖掘的研究中,利用各种类型的网络进行挖掘是一个十分重要的方 面。 目前,模糊逻辑已得到了广泛的应用,尤其在控制方面,模糊逻辑取得了 有目共睹的成就。模糊控制的关键就是对模糊规则的提取,而实现模糊规则的 自动生成则是模糊控制得以进一步推广的关键。 模糊规则的自动生成要求规则的生成系统具有学习能力,能去伪存真、去 粗存精。神经网络具有自学习、自组织、自调整和自适应的能力。 2 5 1 利用一般的神经网络 神经网络的一个重要特点就是能够通过学习不断完善自己,使自己越来越 符合环境的需要,在利用神经网络发现模糊规则的算法中,由美国的b k o s k o 首先提出的d c l ( d i f f e r e n t i a lc o m p e t i t i v el e a r n i n g ) 算法,从数据中自动提取模糊 控制规则,并做了有趣的“倒车”实验,它是大家经常引用的算法。d c l 是一 种无教师的学习方法,可对数据进行聚类分析,用途十分广泛。 - 2 5 2 利用模糊神经网络 将模糊逻辑和神经网络相结合的模糊神经网络,应该更适合于模糊规则的 自动生成。目前,不少文章都提出各自的模糊神经网络模型,如文献【3 】【4 】【5 】。由 于目前比较成功的神经网络学习算法是b p 算法,因而各种模糊神经网络的学 习算法都是基于b p 算法的。其方法一般为1 4 】: 训练数据预处理:去掉冗余重复的数据,保留典型的数据。这一方法使数 据量减少,提高训练的效率,方便基于k - n e a r e s t - n e i g h b o r 概念的方法可行。 第二章模糊数据挖掘及其主要技术 形成初始的划分:确定控制曲面的关键点,去掉伪极值点和无用的极值点,得 到由关键点形成的初始分区。 构造模糊神经网络:采用四层或五层典型的模糊神经网络结构,包含输入 层、模糊化层、规则层、( 解模糊层) 、输出层。 神经网络训练:采用b p 学习算法,形成最终的规则。 2 6 规则的事后分析 随着数据挖掘技术的不断发展和完善,人们可以从数据库中发现各种各样 的规则或结果,在这些规则中,有的规则条件相似,有的规则结论相似,有的 规则条件相似而结论相互矛盾,而有的规则与其他规则没有任何关系等各种情 况。新的规则如何加入到旧的规则库中,旧规则库中的无用规则如何更新,都 涉及到如何评价这些规则或结论,而由于每条规则的条件和结论取值可能存在 与其他规则的不同,因此利用模糊技术,进行规则之间相似度的模糊匹配,成 为规则事后分析的一项重要依据。 在文献【8 】中,将两条规则的匹配情况分为四种情况: ( 1 )条件与结论都相似;( 相似) ( 2 )条件相同而结论不同;( 不同) ( 3 )结论相同但条件中存在属性值明显不一;( 不同) ( 4 ) 结论相同但条件包含的属性各不相同。( 不同) 如原有规则a i 0 ,当至少有一个变量不为零 3 ) f ( a 1 ,口2 ,吼) f ( 0 1 ,一,o ,a f ,0 ,o ) ,i = 1 , 2 ,k 由于定义的不同,可以有许多不同方式的合并操作,下面我们给出两种特殊合并操作 定义4 :合并度量( m a x ) d ( t 。,2 ) = m a x ( d , ( 6 s i 】,2 墨】) ,皿( ,l 瓯】,:溉】) ) 定义5 :合并度量( m u l ) d ( o r :) :压而面丽矿i 五而两丽 第三章模糊关联规则与聚类 为了方便给出以后的定义,我们先定义以下概念: 定义6 :x 上有定义的 设r ( x 。,x :,x 。) ,且x ,有值域d o m ( a ,) ,i = 1 , 2 ,”并且,x r 。向量 f = ( q ,口:,) 是x 上有定义的,当每一个属性z 。x ,f 工, 不是没有定义。 另外,我们把点p 和点p 的邻居组成的集合用占( p ) 表示,不同的度量形式定义 了不同的邻居。设r 是一个关系模式,子模式x 冬r ,r 是r 上的一个实例,向 量“,d 是定义在子空间x 上的度量,设常数c 0 ,则岛【硼的邻居定义为: t x id ( f 【x 】,t o i x ) 0 , 8 , o , a o , o 模糊 关联规则“x 】j t o 【y 】成立,当满足以下四个条件: 1 ( z 上的聚类条件) f ( s l 【朋) 以,这里墨= r l f 【工】n x ( t 。瞄】) ) 2 ( y 上的聚类条件) f ( s :【y 】) 田,这里s := f l t 1 qn x ( t 。吲) ) 3 ( 支持度条件) ,l 。= f 瞄】 ( r 【j 】) f 【】,】 r y o 【y 】) h 口 4 ( 自信度条件) 啊加:,这里一:= 、t x e ( f 0 【z 】) ) | 与定义1 相比,头两个条件意图是保证规则的条件和结论有足够大的密度, 而后两个条件只是在邻居的概念上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论