




已阅读5页,还剩46页未读, 继续免费阅读
(计算机软件与理论专业论文)基于云模型的关联规则的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东师范大学硕士学位论文 基于云模型的关联规则的研究 摘要 云理论是以研究定性定量间的不确定性转换为基础的系统处理不确定性问 题的一种新理论,包括云模型、虚云,云运算、云变换、不确定性推理等内容。 云模型是语言值描述的某个定性概念与其数值表示之间的不确定性转换模型,它 将定性概念表达以及定性定量闻转换的模糊性和随机性集成到一起,是云理论的 基础。将数量型属性转换为布尔型属性是数量型属性关联规则采掘的主要方法, 传统的划分方法由于不能反映数据间的实际分布规律或者是划分的边界过硬,使 得最终都不能得到令人容易理解的关联知识,提出了一种基于云模型的新划分方 法一云变换,可以有效地根据数据的实际分布将数量型属性的定义域划分为多个 ,基于云的定性概念,这种划分摒弃了以前的硬划分,使得到的结果除了保留传统 硬划分所具有的优点以外,也更加符合实际的数据分布和人的思维方式,从而最 终得到概括的、易理解的、有效的关联规则。 为了发现强关联规则,在较高的概念层上泛化了属性值,同时允许相邻属性 值或语言项问有重叠基于云模型的软划分比较接近人的思维,使发现的知识具 有稳健性。将基于云模型的概念划分方法与a p r i o r i 算法结合起来初步显示了云 模型在关联规则挖掘的有效性云关联规则提取就是产生置信度与支持度分别大 于用户定义最小值的所有关联规则。所做主要工作如下: l 、对现存关联规则挖掘中存在的问题进行分析,特别是对数量型属性定义 域的划分问题进行分析。数量型属性关联规则的挖掘方法是将数量型属性的定义 域通过区间划分的方法转换为布尔型屑性,然后再利用布尔型关联规则的挖掘算 法进行挖掘。但这样会带来一个明显的问题,即数量型属性的定义域该如何划分 2 、对云模型进行研究,用软件方法实现了云发生器,包括正向云发生器和 逆向云发生器,正向云发生器的核心技术是用中心极限定理生成正态随机数;并 且对随机数产生的原理进行了阐述。正向云发生器可以将定性语言转化为定量数 据,可以将语言量化;逆向云模型实现数值和语言值之间的随时转换,把逆向云 发生器运用到数据开采中 3 、提出了基于云模型的关联规则算法云模型应用到关联规则的挖掘中, 实现了概念的软划分,更符合人的思维方式。云变换的实质是采用云模型来拟合 空间数据分布的概率密度函数,即计算原子概念的云模型的数字特征值。 4 、利用正态云模型来对数量属性定义域进行划分,并且利用云关联规则的 山东师范大学硕士学位论文 进行挖掘,根据挖掘出的关联规则进行预测。 关键字:关联规则;云模型;云交换:云关联规则;云发生器 分类号:t p 3 9 1 1 山东师范大学硕士学位论文 r e s e a r c ho na s s o c i a t i o nr u l e sm i n i n gb a s e do nc l o u dm o d e l c l o u dt h e o r yi sat h e o r yd e a l i n gw i t hu n c e r t a i n t y , i n c l u d i n gc l o u dm o d e l , v i r t u a l c l o u d , c l o u do p e r a t i o n s ,c l o u dt r a n s f o r m , u n c e r t a i n t yr e a s o n i n g ,e t c c l o u dm o d e li sa m o d e lo ft h el m c e r t a i nt r a n s i t i o nb e t w e e nal i n g u i s t i ct e r mo faq u a l i t a t i v ec o n c e p t a n d 瓶n u m e r i c a lr e p r e s e n t a t i o n c l o u dm o d e li st h eb a s i so fc l o u dt h e o r y , i t i n t e g r a t e st h e 矗正咖s sa n dr a n d o m n e s so fc o n c e p tr e p r e s e n t a t i o na n dt h eu n c e r t a i n t r a n s i t i o nb e f w e e nq u a l i t a t i v e sa n dq u a n t i t a t i v e s c o n v e r t i n gq u a n t i t a t i v ea t t r i b u t e s i n t ob o o l e a na t t r i b u t e si st h eg e n e r a lw a yf o rm i n i n gq u a n t i t a t i v ea s s o c i a t i o nr u l e s t r a d i t i o n a lm e t h o dc a l ln o tg e tt h ee a s yt ou n d e r s t a n dk n o w l e d g eb e c a u s ei tc a nn o t r e f l e c tt h ea c t u a ld a t ad i s t r i b u t i o no rt h ep a r t i t i o ni st o os h a l p an e wm e t h o d - - c l o u d t r a n s f o r m , w h i c hu s e sm a n yc o n c e p t sr e p r e s e n t e db yc l o u dm o d e lt of i tt h er e a l d i s t r i b u t i o no fd a t a _ _ i si n u l u c e d 1 1 l i sm e t h o d 啪r e f l e c tt h ed i s t r i b u t i o no fd a t ai n t h a td o m a i nw h i l ek e e p i n gt h es o f tb o u n d a r i e s t h e r e f o r e , t h ed i s c o w r e da s s o c i a t i o n r u l e sa 糟a l s oe a s yt ou n d e r s t a n d i no r d e rt od i s c o v e rs t r o n ga s s o c i a t i o nr u l e s , a t t r i b u t ev a l u e sa r eg e n c r a l i z o da t h i g h e rc o n c e p tl e ve l s ,a l l o w i n go v e r l a p p i n gb e t w e f f nn e i g h b o ra t t r i b u t ev a l u e so r l i n g u i s t i ct e r m s a n dt h i sk i n do fs o f tp a r t i t i o n i n gc a nm i m i ch u m a nb e i n g st h i n k i n g 。 w h i l em a k i n gt h ed i s c o v e r e dk n o w l e d g er o b u s t c o m b i n i n gc o n c e l xp a r t i t i o nb a s e d o nc l o u dm o d e l sa n da p f i o f i a l g o r i t h m , w h i c h c a ns h o wt h ev a l i d i t yo fc l o u d a s s o c i a t i o nr u l e s a s s o c i a :c i o nr u l e sb a s e do nc l o u dm o d e l sc a nl n i n ea s s o c i a t i o nr u l e s , w h o s ec o n f i d c n c ea n ds u p p o r tw e r eg r e a t e rt h a nt h eu s e r - d e f i n e dm i n i m u l nv a l u e 1 1 砖m a i nr e s e a r c hw o r ka n da c h i e v e m e n t sa 糟a sf o l l o w s : la n a l y z i n gt h em j n i n ga s s o c i a t i o nr u l e sf o rt h em o m c l l t ,e s p e c i a l l yt h ec o n c e p t p a r t i t i o no fq u a n t i t a t i v ea t t r i b u t e s mm i n i n ga s s o c i a t i o nr u l e so fq u a n t i t a t i v e a t t r i b u t e st r a n s f o r mt h ed o m a i no fq u a n t i t a t i v ea t t r i b u t e st h r o u g ht h es c a 【0 rd i v i s i o n m e t h o di n t ot h eb o o l e a na t t r i b u t e s ,t h e nu s i n gb o o l e a nm 汹a s s o c i a t i o nr u l e s b u ti t i s o b v i o u s t h a t h o w t o d i v i d e t h e d o m a i n o f q u a n t i t a t i v e a t t r i b u t e s 2t h ec l o u dg e n e r a t o r sa d o v d o p e db ym a t l a b , i n c l u d i n gn o r m a lc l o u dg e n e r a t o r a n db a c k w a r dc l o u dg c n c r a t o nt h ek e yt c c h n o l o g yo fn o r m a lc l o u dg e n e r a t o ri s n o r m a lr a n d o md a t aw h i c hi s p r o d u c e db yc e n t r a l l i m i tt h e o r e m t h e n , i t d 舡n o n s t r a t e st h ep r i n c i p l eo fp r o d u c i n gr a n d o md a m n o r m a lc l o u dg e n e r a t o rc a l l 山东师范大学硕士学位论文 w a n s l a t eq u a l i t a t i v el a n g u a g ei n t oq u a n t i t a t i v ed a t ab a c k w a r dc l o u dg e n e r a t o rc a n c o n v e r tq u a n t i t a t i v ed a t ai n t oq u a l i t a t i v el a n g u a g ea ta n yt i m e ,s ow h i c hi sa p p l i e di n m i n i n g 3a na l g o r i t h mo fa s s o c i a t i o nr u l e sb a s e do nc l o u dm o d e l si sg i v e n t h i sm e t h o d c a nw e l ls o f t e nt h ed o m a i np a r t i t i o nb o 瑚d a r y , s ot h ec l o u da s s o c i a t i o nr u l e sc a nb e e a s i l yu n d e r s t o o d c l o u dw a n s f o r mi su s e dt of i tt h ed a t ad i s t r i b u t i o ns p a c ep r o b a b i l i t y d e n s i t yf u n c t i o nb yu s i n gc l o u dm o d e l , i na n o t h e rw o r d s ,a t o m i cc o n c e p t i s w a n s f o r m e di n t ot h ev a l u eo f c l o u dm o d e l sd i g i t a lf e a t u r e 4t h ed o m a i no fq u a n t i t a t i v ea t t r i b u t ei sd i v i d e db yu s i n gn o r m a lc l o u dm o d e l a c c o r d i n g t oa s s o c i a t i o nr u l e sb a s e do nc l o u dm o d e l s p r e d i c t i o n sa r cm a d e k e yw o r d s :a s s o c i a t i o nr u l e ;c l o u dm o d e l ;c l o u dt r a n s f o r m ;c l o u da s s o c i a t i o nr u l e s ; c l o u dg e n e r a t o r s c l a s s m c t i o nn u m b e r - t p 3 9 1 1 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得( t t :如没有其他需要特别声 明的,本栏可空) 或其他教育机构的学位或证书使用过的材料与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:副桂耙 导师签字刹勿 学位论文版权使用授权书 本学位论文作者完全了解堂控有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权堂控可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印缩印或扫描 等复制手段保存、汇编学位论文( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:列程知导师签字;浏雾 签字日期:2 0 0 7 年毕月刁日签字日期:2 0 0 7 斜月2 7 日 山东师范大学硕士学位论文 第一章绪论 1 1 研究背景 当今,数据已经成为一种重要的战略资源。而人们所面临的问题是整个世界 的信息总量以2 0 个月翻一翻的速度快速增长,也就是说,数据膨胀的速度快予 摩尔定律j 人们陷入了“数据越来越丰富,但知识越来越缺乏”的境地。对于关 联规则挖掘来说,目前人们还无法回答是否存在使用可按受内存资源一遍扫描数 据库的算法,无法解决候选频繁项集所产生的组合爆炸问题。因此,要想在整个 海量的数据库上获取精确的规则已经越来越脱离现实,在当前大规模数据库处理 的任务下,设计可扩展性好,效率高的关联规则挖掘算法是关联规则挖掘领域所 面临的一个主要挑战。决策离不开知识,从数据库中采掘知识,是解决信息爆炸 和知识贫乏的有效途径 自文献“,提出有关关联规则的采掘方法及相应算法以来,有关关联规则采掘 的研究一直是数据采掘领域的研究热点。日关联规则主要是研究数据库中各属 性之间的关联,主要是指在满足最小支持率和最小可信度的条件下,从数据库中 采掘出诸如“顾客购买牛奶一同时购买面包”这样的知识目前的研究主要集中 在对布尔型关联规则的研究上,而在实际应用中,由于许多数据库中的数据都是 数量型数据( 如i 资、年龄) ,因而数量型属性关联规则的研究逐渐成为研究的重 点,并相应地提出了一些算法其主要的思想都是将数量型属性的定义域通过区 间划分的方法转换为布尔型属性,然后再利用布尔型关联规则的采掘算法进行挖 掘。但这样会带来一个明显的问题,即数量型属性的定义域该如何划分 文献婀提出了在区间划分中很容易出现的。c a t c h - 2 2 ”问题: ( 1 ) 最小支持率问题:如果区间划分过小,会使包含此区间的规则的支持率 很低,从而会造成规则产生的数量过少。 ( 2 ) 最小信任度问题:如果区间划分过大,会使包含此区间的规则的信任度 很低,从而造成规则产生的数量过少;同时,区间划分过大,规则所包含的信息 量也会相应地减少。 即使在区间的划分上用上面的两个问题进行了平衡,但如何合理、有效地划 分属性区间,使其能够真实地反映此属性中数据在定义域中的实际分布则是挖掘 数量型属性关联规则的关键问题 1 2 国内外研究现状 对于数量型属性的定义域划分,由于数据属性的定义域是连续的,通常的方 法是将其划分成多个区间,从而把数量属性的关联规则的问题转换成布尔型关联 规则的问题进行讨论。一种方法是将属性的定义域划分成离散的、互不重叠的区 山东师范大学硕士学位论文 间”1 ,这样,此属性上的每一个元素就可以分别映射到各自的区间上由于明显 的区间划分会将某些区间附近的一些潜在元素排斥在外,从而导致一些有意义的 区间可能被忽略掉。如图1 1 将属性“年龄”划分为五个区间,由于边界划分过 硬,可能使得每一个区间的支持率都小于用户给定的最小支持率;但如果将十八 九岁以及四十一二岁的记录也考虑进来的话,2 0 至4 0 这个区间就可能变得更有 意义另一种方法是将属性的论域划分成重叠的区域( 如图l2 ) 砌,这时处于 边界附近的元素就有可能同时处于两个区闯。由于这些元素同时对两个区间都作 贡献,就有可能造成过分强调落入这些交叉区间的元素的作用,从而导致某些区 间的意义也被过分地强调了。 更 宣 2 04 06 08 0 ,年龄 图1 1 离散区间图 权 熏 2 0 4 0 6 0 图1 2 重叠区间 针对上面的硬划分出现的问题,文献0 1 提出的方法是将属性的定义域模糊 化,即将定义域划分成多个模糊集。由于模糊集可以在集合元素和非集合元素之 间提供平滑的变迁,达到软化边界的目的再以年龄属性为例,其上的一个模糊 集“2 0 至4 0 左右”就可以表示。 当年龄取值在 2 0 ,4 0 之间时,其隶属度为l ,在此区问之外的年龄值的隶 属度则在 o ,1 之间取值,离此区间越远,隶属度越小。通过这种方法虽然在一 定程度上解决了上述问题,但它仍有以下两个缺点: 1 模糊集概念虽然得到了广泛的应用,但其隶属函数的实质及具体确定方法 一直没有得到根本解决,隶属函数一旦被“硬化“成精确数值表达后,在概念定 义、不确定性推理等过程中,就不再有丝毫模糊性。 2 在上面定义的模糊集中,各元素的隶属度用 o ,1 中的一个实数来表示, 以描述它隶属于模糊集的程度。但是,用 0 ,1 之间一个精确数来客观地描述对 象的隶属度其实是很困难的。若采用统计的方法来确定隶属度,往往成本又高得 不能接受,或者根本不可能。于是为了解决实际问题,只好借助于主观地取值, 这显然因人而异。是靠不住的。 为此,许多文献提出了不同的解决方法。文献嗍提出了最为简单的方法,即 将属性区间等分。但这种方法不能反映实际的数据分布,它完全靠人为的方法进 行区间定义,因此得到的关联规则可能没有什么实际意义,而有意义的关联规则 2 山东师范大学硕士学位论文 却可能因为区间的划分不合理而无法得到文献嘲提出的方法是先将定义域分割 成非常小的区间,然后将相邻小区间( 交易数小于e , s a v e ) 逐步合并成有意义的 大区间( 交易数大于e , s a v e ) ,但由于合并方式不惟一,从而可能得到不同的划 分结果并且最终的结果仍然是一种硬划分文献“”提出了一种基于距离进行区 间划分的方法,虽然得到的结果较好,但和文献嗍一样,仍然没有摆脱硬划分的 束缚。文献“1 1 提出了在不减少信息丢失的情况下进行区间合并的方法,但由于这 种方法涉及多个属性之间的关系,因此实际可操作性较小基于云模型对数量型 属性进行划分的概念划分算法可根据数据的实际分布将其划分为多个基于云的 概念。这种划分的特点是,所得到的概念反映了此属性中数据在定义域中的实际 分布,同时,由于概念的边界是模糊的、不确定的,因而是一种软划分方法。这 样所得到的结果集更加符合人的思维,同时又保持了传统硬划分所具有的优点 1 3 本文主要工作 1 、对现存关联规则挖掘中存在的问题进行分析,特别是对数量型属性定义 域的划分问题进行分析。 2 、研究了云理论( 云发生器、云的不确定性推理等) ,并用软件的方法实现 了云发生器 3 、研究了关联规则的算法,特别是经典的a p r i o r i 算法。 4 、提出了基于云模型的关联规则算法。云模型应用到关联规则的挖掘中, 实现了概念的软划分,更符合人的思维方式。 5 、根据提取出来的云关联规则,进行预测。 1 4 本文创新点 1 、用软件的方法实现了云发生器。 2 、通过实验,形象说明,云模型通过云发生器实现定性与定量的不确定性 转化。 3 、将云模型运用到关联规则的挖掘中,并根据挖掘出来的关联规则进行预 测。 山东师范大学硕士学位论文 第二章云模型理论 云模型是中国工程院李德毅院士在传统模糊集理论和概率统计的基础上建 立起来的一种定性定量不确定性转换模型,它把不确定性概念的模糊性和随机性 有机地结合在一起,实现了不确定语言值与定量数值之间的自然转换瑚。在数域 空间中,云即不是一个确定的概率密度函数,也不是一条明晰的隶属曲线,而是 一朵可伸缩、无边沿、有弹性、近视无边、远观象云的一对多的数学映射图像。 与自然现象中的云有着相似的不确定性质,所以借用“云”来命名这个数据一概 念之间的数学转换理论。李德毅院士开展的“知识发现的机理研究”提出了能够 统一表示处理随机不定性和模糊不定性的“云模型”,并把这一创新的模型应用 于数据挖掘和知识发现等新领域,取得了出色的效果。云理论主要包括云模型、 云的不确定性推理等“”。 2 1 云模型的基本概念 2 ,l 。1 云的定义 设x 是个普通的集合,x = 扛 ,称为论域。t 是与x 相联系的语言值 关于论域x 中的模糊集合彳是指对任意元素工都存在一个有稳定倾向的随机数 i ( 功,称为x 对j 隶属度如果论域中元素是简单有序的,则x 可以看作是基 础变量;如果论域中的元素不是简单有序的,而根据某个法则厂可将x 映射到另 一个有序的论域上x 。,x 中的一个且只有一个x 和善对应,则x 为基础变量, 隶属度在x 。上的分布称为( 隶属) 云。 通过定义知道,论域上某一点的隶属度不是恒定不变的,而是始终在细微 变化着,但是这种变化不剧烈影响到隶属云的整体特征,如果没有隶属云的整体 形状和凝聚特性,单独讨论某一点的隶属度是没有意义的,我们不可能孤立地确 定一个点的隶属度。 2 1 2 云的数字特征 云的数字特征用期望e x ( e x p e c t e dv a l u e ) 、熵勘( e n t r o p y ) 和超熵 h e ( h y p e re n t r o p y ) 三个数值( 图2 1 ( a ) ) 来表征,把模糊性和随机性完全集 成到一起,构成定性和定量相互问的映射,为定性与定量相结合的信息处理提供 了有力手段,反映了定性概念的定量特性。 4 山东师范大学硕士学位论文 期望:在数域空间最能够代表定性概念j 的点或者说是这个概念量化的 最典型样本点。 熵e h :反映定性概念j 的不确定性,这种不确定性表现在三个方面。一方 面,熵反映了数域空间中可以被语言值彳接受的云滴群范围大小即模糊度,是 定性概念亦此亦彼性的度量;另一方面,熵还反映了数域空间中的云滴群能够代 表这个语言值的概率,表示代表定性概念的云滴出现的随机性;此外,熵还揭示 了模糊性和随机性的关联性,还可以用来代表一个定性概念的粒度通常,熵越 大,概念越宏观,模糊性和随机性也越大,确定性量化越难。 超熵胁:是熵的不确定度量,即熵的熵,反映了在数域空间代表该语言值 的所有点的不确定度的凝聚性,即云滴的凝聚度,超熵越大,云滴的离散度越大, 隶属度的随机性越大,云的“厚度”也越大图2 1 ( b ) 和图2 2 ( c ) 是云模型 的数字特征期望值点k 和熵西,都相同,超熵王k 不同的示意图 年 ( 毫) 云的教字特征示意图( b ) e l l - 1h e = 0 1 ( c ) e n - ii j - 0 3 图2 1 云模型的数字特征 2 1 3 云的分类 按云的产生机理和计算方向有以下分类: i 正向云 逆向云 图2 2云的分类 2 1 4 云的延伸及云运算 基本云 x 条件云 y 条件云 山东师范大学硕士学位论文 不仅可以将一维正态云模型扩展至二维和多维云模型,而且还将正态云扩 展至多种分布的云,如将r 型、三角形、梯形的隶属函数扩展至r 云( g a m m a 云) 、 三角形云、梯形云。同样也完全可以将模糊集理论中的任何隶属函数扩展为隶属 云“”下面介绍一下梯形云呻1 和虚拟云。 在描述某些概念时,有时其期望值不是一个值,而是一个区间,这时可用梯 形云来表示,比如在描述“2 0 到2 5 岁左右”这个概念时,就用梯形云来表示, 其中凰的取值就不再是一个值,而是一个区间 2 0 ,2 5 】,而相应的点h 和h e 定 义可仍与基本云相同。 虚拟云是将给定的云的数字特征进行某种运算,得到新的数字特征所构造的 云。这些给定的、用于计算虚拟云的云称为基云。而虚拟云所表达的语言值称为 虚拟语言值。虚拟云主要有浮动云、综合云、分解云、几何云等几类 云运算包括代数运算、逻辑运算、语气运算等。一般研究一维云运算。对于 二维和多维云运算,常假设各个维是独立的,而分别在各个维上实施一维云运算 云运算的结果也可以看作是一种虚拟云 2 1 5 云模型的应用 云模型的应用范围很广,目前云模型被成功地用于人工智能、跳频云发生器、 c 3 i 系统的效能评估中;已经运用于智能控制,成功地实现了对三级倒立摆的 实时动平衡转换;用于数据挖掘,用云解释空间数据挖掘的有关问题,实现了 对关联规则和预测知识的发现云方法作为知识表示和定性定量转换的有力工 具,得到广泛应用。 云模型已应用于挖掘空间广义知识和关联规则,表达发现的知识,连续数据 离散化,空间数据库的不确定性查询和推理,遥感影像的解译和识别“7 删等领 域。将云模型应用于飞行器导航系统模糊可靠性分析和故障检测,可以有效地提 高飞行器导航系统的可靠性分析将云模型引入概念树中,便于进一步丰富概念 树的基本内涵,解决模糊属性域的抽象问题,实现概念的提升、规则的提取和知 识的预测m 1 。 2 2 一维云发生器 正向云发生器和逆向云发生器是云模型中两个最重要,最关键的算法一维 云发生器主要包括一维正向云发生器、x 条件云发生器、y 条件云发生器、一维 逆向云发生器。 2 2 1 一维正向云发生器 正向云发生器是最基本的云算法,实现了语言值表达的定性信息中获得定量 数据的范围和分布规律,是表征语言原子最普遍最重要的工具,是一个前向的、 直接的过程它在表达自然语言中的基本语言值一语言原子时最为有用,因为 山东师范大学硕士学位论文 社会和自然科学的各个分支都已经证明了正态分布的普适性。给定云的三个数字 特征( ,西l ,l i e ) ,产生正态云模型的若干二维点一云滴d r o p ( x ,“) ,称为正 向云发生器( 图2 3 ) :爿 川 h e 一 图2 3 正向云发生器 一维正向云发生器算法描述 输入;表示定性概念j 的三个数字特征值厨,五h ,上如和云滴数 输出: 个云滴的定量值以及每个云滴代表概念二i 的确定度。 算法 1 生成以e h 为期望值,胁为标准差的一个正态随机数西 2 生成以点x 为期望值,e h 。为标准差的正态随机数x ; 3 令z 为定性概念j 的一次具体量化值,称为云滴; 矗 一! ! 二壁2 1 4 计算y5 p 2 ( 砌r ; 5 令y 为工属于定性概念j 的确定度; 6k ) , 完整地反映了这一次定性定量转换的全部内容; 7 重复卜6 直到产生个云滴为止 2 2 2 x 条件云和y 条件云 已知云模型( e x ,e n ,h e ) ,如果还有特定的输入x = x o 条件,则称为x 条件云 模型,记为。瓯( 如图2 4 ) ;如果特定的条件是= c t ( 力= g ( x o ) ,则称为y 条 件云模型,记为c g ,( 如图2 4 ) 。 7 山东师范大学硕士学位论文 茗 砌 胁 _ d r o p ( x ,“) e x 砌 胁 d r o p ( 毛,声) 工条件云发生器 y 条件云发生器 图2 4x 条件云发生器和y 条件云发生器 x 条件云发生器算法如下: 1 e n i t = g ( e n ,h e ) ; 生成以点知为期望值,胁为标准差的正态随机数e n ; 2 计算朋= e x p 一云雾岛,令( 五朋) 为云滴 y 条件云发生器算法如下: 1 e n , = g ( e n , h e ) o 生成以勘为期望值、胁为标准差的正态随机数e n ; 2 计算耳= e x + 周e n 。,令 ,卢) 为云滴 x 条件云发生器实际上是表达了这样一个概念:对于由戥、勘和胁表征 的一个概念而言,每一个特定的数据p 。隶属于此概念的程度x 条件云发生器的 最大特点是对于相同的输入值风都会得到不用的、有细微变化的隶属度的输出, 它正好反映了不用的人们对同一数据隶属于某概念程度大小的不同看法,使得模 糊性与随机性得到了较好地结合 2 2 3 一维逆向云发生器 逆向云发生器贝f j 是将一定数量的精确数值有效转换为恰当的定性语言值 取,e n ,上如) ,是从定量到定性的映射,是个逆向的、间接的过程。作用是从给定 数量的云滴中还原出一维云的三个数字特征及,勖,月i 。以实现从定量的数值向 定性语言值j 的转换( 图2 5 ) 3 山东师范大学硕士学位论文 d r o p ( x f ,m ) e x e n h e 图2 5 逆向云发生器 改进的一维逆向云发生器的算法描述嘲 输入:个云滴的定量值及每个云滴代表概念的确定度( x ,y ) 。 输出:这 ,个云滴表示的定性概念j 的期望值取,熵砌和超熵协 算法 蠡= 三y 毛 1 以以智。作为丘的估计值丘; 2 将y o 9 9 9 的点剔除剩下m 个云滴; 4 :根据勃= 上m 杰i - ! 现,求出勘的估计值厶; 。根据赢= 1 ;三;两,求出胁的估计值觑 云模型除了完整的形态外,还有半升云和半降云两种半云形态,其生成算法 与完整云类似。半云用来表达具有单侧特征的定性概念,例如用半升云表示4 远”, 半降云表示“近” 2 3 - - 维云发生器 在空间数据库中,很多概念是由多个密不可分的因素决定的,例如,地理位 置由经度和纬度两个值确定,彩色用红、绿、蓝三个分量确定,它们对应的论域 为二维和三维论域。沿着上面一维云模型的的思路,我们把云模型扩展至二维和 多维,使之适用于描述二维和多维语言值表示的定性概念 二维云模型是用语台值描述的某个定性概念与其二维数值表示之间的不确 定性转换模型。设u 是一个二维论域u = 亿力) ,r 是与u 相联系的语言值。u 9 山东师范大学硬士学位论文 中的元素0 ,y ) 对于丁所表达的定性概念的隶属度c r o ,力是一个具有稳定倾向 的随机数,隶属度在论域上的分布称为隶属云,简称为二维云。 c r 力在【o ,l 】中取值,二维云是从二维论域u 到区间【o ,1 】的映射,即; g 似力:( ,哼【o ,l 】 v ( x ,力e u( 毛j ,) c r ( 力 二维云的概念可以绘成三维图形,二维云是一维云的自然扩展。设二维论域 的两维之间不相关,二维正态云可以用六个数字特征量来描述: ( e x , e m c , h x , 毋,e n y ,n y ) 。其中及和毋为期望值,e n x 和e n y 为熵,胁和缈为 超熵 ( e x ,e y ) 是二维云表示的定性概念的在论域中的中心值,是最能代表这个二 维概念的值。e n x 和e n y 是概念的模糊测度,它们反映了该语言值对二维数值的 可覆盖程度。- x 和h y 分别是e n x 和e n y 的熵,反映了云滴的离散程度。 二维正态云的数学期望曲面( m a t h e m a t i c a le x p e c t e ds u r f a c e - - - 狐s ) 方程 为: m e s a ( x 咖“p e - 三岛笋一芦, 肥s 向x - y 平面的投影为一个椭圆面( 如果e n x 与e n y 相等则是圆面) 当椭 圆的两个轴与工和y 轴不平行时,需要增加一个数字特征量e 来描述二维云,它 是对应轴之问的夹角。这个云看作是旋转云,而未旋转的云看作是标准云如果 ,y ,m ) 是一个二维标准云的云滴, 。,y j ,鸬) 是旋转云的云漓,则 t , y t ) 由 下式计算: 一= ( t e x ) c o s e 一一e y ) s i n 口+ 凰 y 江b i - e x ) s i n 8 + b l e y ) c m e + e y 把正态云模型进一步推广至多维,设某个论域具有互不相关的m 个维,则m 维正态云由3 用个数字特征量来描述:( e x l ,e n l ,h e l ,e x 2 ,e n 2 ,h e 2 ,e x m ,h e m ) 其中e o c l e x 2 ,e x m 为期望值,e n l ,e n 2 ,e n m 为熵,是定性概念对以维数值的 1 0 山东师范大学硕士学位论文 可覆盖测度,h e l ,h e 2 , ,h e m 为超熵,反映云滴的离散程度多维正态云的数 学期望超曲面( m a t h e m a t i c a le x p e c t e dh y p e rs u r f a c e - - - m e h s ) 为: m e h s a ( x l , x 2 ,棚) = 唧卜i 1 善m 睁 t l d h | 2 3 1 二维正态云发生器 给定组数字特征量( e x , e n x , h x ,e y , z 砂,h y ) ,二维正向正态云发生器可以产 生任意多个云滴“,j ,鸬) ,其中“,) ,) 服从二维正态分布,z 。服从一维概率 分布 e ye n y 缈 凰 e n x 胁 d r o p “,只,1 ) 图2 6 二维正向正态云发生器 二维正向正态云发生器的算法如下; 1 ,咒) = g ( e x ,e n x , 毋,圳 生成以( 点k ,聊为期望值、e n x , e n y 为标准差的二维正态随机数瓴,y ) 具 体实现方法是先产生两个一维标准正态随机数t o 和f l ,计算 而= e n x + t o + e x ,为符合要求的二维正态随机数。 2 ( e n x i ,e n y f ) = g ( e n x ,l - i x ,e n y ,母) 生成以( e n x ,西) 为期望值、( 胁,王劬为标准差的二维正态随机数 ( e n x f ,e n y ) 3 计算朋= e x p - 三 垒笔笋 ,令阮,只,“) 为云滴。 2 3 2 二维x 条件云和y 条件云 既 西何 9 : ( x , 山东师范大学硕士学位论文 二维云可以根据不同的条件来生成,在给定论域中特定的数值力的条件 下的云发生器称为二维j 条件云发生器,给定特定的隶属度值的条件下的云 发生器称为二维】,条件云发生器。二维z 条件云发生器生成的云滴位于同一条竖 直线上,横坐标数值均为佤力,纵坐标隶属度值呈概率分布。二维r 条件云发 生器生成的云滴构成一个以( 如助为中心的随机椭圆环,环的高度即为隶属度 s ,云滴在论域中的二维坐标数值呈二维概率分布。 印e n y 母 腺件云发生器 缈 e x 瓴,m ,“) h x 。_ j y 条件云发生器 q t ,y ,弘i ) 图2 7 二维x 条件云发生器和二维y 条件云发生器 二维z 条件云发生器的算法如下: 1 ( 腑,聊f ) = g ( e x , i - i x ,e r 纱h y ) 生成以( e m c , e m 2 ) 为期望值、( h x , h y ) 为标准差的二维正态随机数 ( 胁j ,e 1 ) 2 计算肼= 卅争簪+ 铮似川为黼 二维y 条件云发生器的算法如下: i ( e n x f ,e i ) = g ( e m c , i - i x ,e y h y ) 生成以( 西e 7 ) 为期望值、( 如场,) 为标准差的二维正态随机数 ( 西掰;,e ,) ,2x ,= c ,( 及一= 忑i i 丽西哦,e x + - 2 n - - - 丽e n x i 生成均匀随机数而 山东师范大学硕士学位论文 s 岍晰争等+ 簪膊到 m = e y 由于西硝。,e n y ,为随机数,因此计算出的m 也为随机数。令( 而,乃,麒) 为云 滴。 2 3 3 - - 维逆向云发生器 二维逆向云发生器从给定符合二维正态云分布规律的一组云滴“,乃,朋) , 产生云所描述的二维定性概念的六个数字特征值( e x , e n x , h x ,e y ,e n y ,h y ) d r o p o l ,m ,) e ye n y 脚 图2 8 - - 维逆向云发生器 丘 e m c m 二维逆向云发生器算法如下: l e x = m e a n ( x j ) ,砂= m e a n ( y i ) 2 e n x = s t d e v ( x , ) , e n y = s t d e v o , , 1 3 从样本中选取y = e y 的云滴( x j ,乃,一) ,计算d ,; 胁= s t d e v ( e n x ) - 4 从样本中选取x = 戤的云滴( 以,y k ,肌) ,计算e n y 七; 毋= s t d e v ( e n y k ) 算法中第( 3 ) ,( 4 ) 两步,分别从样本中选取坐标值等于期望值的样本子集, 目的是为了将h x ,h y 分开计算,具体编程实现时,可以取坐标值与期望值相差 很小的子集。由此也可以看出,二维逆向发生器需要很多的云滴样本 ” 脬脬 山东师范大学磺士学位论文 2 4 一维云发生器的软件实现 云发生器可以用软件嗌1 ,也可以用硬件实现。本文用软件的方法实现云发生 器,随机数的产生采用中心极限定理,语言采用的是m a l l l a b 口捌m a t l a b 是美国 m a t h w o r k s 公司推出的一种以矩阵为基本编程单位的高效数值计算语言,具有强 大的矩阵计算和数据可视能力,可以实现数据分析、优化,同时还可以实现二维 图形绘制和科学计算可视化。 2 4 1 随机数生成的原理 生成正态随机数的基本方法哺1 :( 1 ) 产生均匀分布的随机数 ( 2 ) 令 x = f - 1 g ) 生成均匀分布随机数的方法是同余法,其递推公式为 而- - ( 拼l - i + c ) m o d m ,给定初值而后,可以迭代出均匀随机数而,工,工。 对它们进行标准化,即可得到均匀分布的随机数 ;正态分布密度函数为 八曲= 去斗圭( 剖2l c 叫删,热为期望戗确拖 分布函数醐功;去l e x p l 睁 2b ,f 黼硼溅帅厶极 限定理,有型; 仃 ,当一= 1 2 时,可达到较好精度,故 工= i - 6l o + f l ,该x 就是基于均匀分布随机数的服从正态分布的随机数。 州 m a t l a b 中函数n o n n r n d 的功能是生成服从正态分布的随机数,用到的原理就是 上述随机数产生的原理。 2 4 2 一维云发生器的实验 用云发生器实现并解释定性概念“青年”。由于社会和自然科学中的大量模 糊概念,其期望曲线都近似服从正态或半正态分布,因而正态云是表征语言原子 最重要、最有力的工具,比如青年、工资高等语言原子用云都可以很好的描述, 而云的数字特征,则反映了定性知识的定量特性。简单的说,一个正态云只需要 用三个数字特征值凰,e n ,h e 就可以完整地表征出来 对于模糊集合j 而言,重要的是云的形状所反映出的整体特性,以及使用时 隶属度所里现的规律性。我们用云表示定性概念“青年”,给定“青年”的数字 山东师范大学礤士学位论文 特征为e x = 2 5 ,e n = 3 ,h e = o 1 ,通过正向云发生器,得到如图2 9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025内蒙古鑫和资源投资集团有限责任公司招聘26名模拟试卷及答案详解(易错题)
- Histone-H3-1-21-Gly-Gly-Lys-biotinyl-amide-TFA-生命科学试剂-MCE
- Hedgehog-IN-11-生命科学试剂-MCE
- 2025内蒙古自治区农牧业科学院纳入总量管理控制数招聘模拟试卷附答案详解(黄金题型)
- Go-6983-Standard-生命科学试剂-MCE
- 紧急救援行业报告及市场前景
- 2025江西人力诚聘派驻江西江铜华东铜箔有限公司劳务派遣人员14人考前自测高频考点模拟试题及答案详解一套
- 2025广东揭阳市普宁市公安局招聘警务辅助人员80人考前自测高频考点模拟试题及答案详解(全优)
- 桩基钻芯取样专业合同7篇
- 公共服务品质保障承诺书3篇范文
- 2022版义务教育《体育与健康课程标准》测试题-含答案
- GB/T 8167-1987包装用缓冲材料动态压缩试验方法
- GB/T 34903.2-2017石油、石化与天然气工业与油气开采相关介质接触的非金属材料第2部分:弹性体
- 覆岩离层注浆减沉技术研究的新进展课件
- 折纸校本课程纲要
- 北师大版五年级数学上册练习四
- 新汉语水平考试 HSK(四级)
- 职业院校人才培养工作状态数据采集与管理制度
- T∕CGMA 033001-2018 压缩空气站能效分级指南
- 诊断学基础知识常见症状ppt课件
- 外研版六年级上册英语学案
评论
0/150
提交评论