模糊数学在数据挖掘中的应用研究_第1页
模糊数学在数据挖掘中的应用研究_第2页
模糊数学在数据挖掘中的应用研究_第3页
模糊数学在数据挖掘中的应用研究_第4页
模糊数学在数据挖掘中的应用研究_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模糊数学在数据挖掘中的应用研究(中国石油大学(华东)计算机与通信工程学院)一、模糊数学基本概念1.模糊集(Fuzzy set)定义1 设X是论域,称映射A:X0,1为X上的模糊集合(Fuzzy set)简称F集,记为A。称A(x)为元素x相对于F集的隶属度。称A()为F集A的隶属函数。(1)模糊集合的表示:,称为元素属于模糊集的隶属度;则模糊集可以表示为:,或,。(2)模糊集合的运算:,并集:,交集:,补集:,包含:。2.幂集定义2 称论域X上的F集的全体集合为X上的F-幂集。3.模糊集的-截集定义3已知U上模糊子集对,则称为模糊集的-截集;称为模糊集的-强截集;称为、的置信水平或阈值。4.

2、三角范数、反三角范数定义4称二元函数T:0,1*0,10,1为三角模或三角范数,简称T-范数,满足以下条件:若a,b,c,d0,1,有:交换律:T(a,b)=T(b,a)结合律:T(T(a,b),c)=T(a,T(b,c)单调性:ac,bd时,T(a,b) T(c,d)边界条件:T(a,1)=a,T(0,a)=0定义5称二元函数S:0,1*0,10,1为反三角范数,简称S-范数,满足以下条件:若a,b,c,d0,1,有:交换律:S(a,b)=S(b,a)结合律:S(S(a,b),c)=S(a,S(b,c) 单调性:ac,bd时,S(a,b)S(c,d) 边界条件:S(a,1)=1,S(0,a)

3、=a注:三角范数T与反三角范数S关于余运算c对偶二、模糊数学的基本定理1. 模糊截积定义6已知U上模糊子集,对,也是U上模糊集,其隶属函数为:;称为为与的模糊截积。2. 分解定理1已知模糊子集,则。推论1:对。3. 分解定理2已知模糊子集,则。推论2:对。三、模糊关系1.模糊关系与模糊关系的合成(1)模糊关系定义7从U到V 上的一个模糊关系:,表示具有的关系程度,。(满足01)称为U到V 上的一个模糊关系的模糊矩阵。模糊关系性质:xU,有R(x, x) = 0,则R满足反自反性;x,yU,xy,有R(x, y)= R(y, x),则R具有对称性;x,yU,有R(x, y)=R(y, x) =

4、0,则R具有反对称性;(x,y),(x,z),(y,z) UV,有R(x, z)(R(x,y)R(y, z),则R满足传递性。1)F相似关系:设R是论域UV上的模糊关系,若R满足自反性和对称性,称R为模糊相似关系。2)F等价关系:若R满足自反性、对称性和传递性,称R为模糊等价关系。(2 )F集的内积与外积定义8 设论域为X,A,BF(X),称为F集A与B的内积;称为F集A与B的外积。(3 )格贴近度定义9 设论域为X,A,BF(X),称(AB) ()()为格贴近度。2.模糊等价矩阵及其矩阵定义10设方阵为以模糊矩阵,若满足=则称为模糊等价矩阵。模糊等价矩阵可以反映模糊分类关系的传递性,即描述诸

5、如“甲像乙,乙像丙,则甲像丙”这样的关系。设为一个模糊等价阵,01为一个给定的数,令 则称矩阵为的截阵。例如,为一个模糊等价阵,取0.4,则=;若取,则=。四、模糊聚类分析模糊划分的概念最早由Ruspini提出,利用这一概念人们提出了多种聚类方法,比较典型的有:基于相似性关系和模糊关系的方法(包括聚合法和分裂法),基于模糊等价关系的传递闭包方法、基于模糊图论最大树方法,以及基于数据集的凸分解、动态规划和难以辨识关系等方法. 然而由于上述方法不适用于大数据量情况,难以满足实时性要求高的场合,因此其实际的应用不够广泛,故在该方面的研究也就逐步减少了. 实际中受到普遍欢迎的是基于目标函数的方法,该方

6、法设计简单、解决问题的范围广,最终还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现. 因此,随着计算机的应用和发展,该类方法成为聚类研究的热点。1.模糊聚类分析的基本过程(1)计算样本或变量间的相似系数,建立模糊相似矩阵;(2)利用模糊运算对相似矩阵进行一系列的合成改造,生成模糊等价矩阵;(3)最后根据不同的截取水平对模糊等价矩阵进行截取分类。 2.聚类分析的基本思想用相似性尺度来衡量事物之间的亲疏程度,并以此来实现分类模糊聚类分析的实质则是根据研究对象本身的属性来构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系模糊聚类分析是基于模糊等价关系进行的,其主要步骤为

7、:(1)确定分类对象,抽取因素数据;(2)建立原始矩阵;(3)数据标准化:对数据进行标准化变化,将数据压缩到0,1之间;(4)建立模糊相似矩阵:模糊相似关系的建立,关于各分类对象之间相似性统计量rij的计算,除了采用夹角余弦公式和相似系数计算公式。还有其他一些公式,根据实际情况进行自行设计或参考相应的公式。(5)聚类;(6)确定最佳阈值。3.模糊聚类方法模糊聚类法和一般的聚类方法相似,先将数据进行标准化,计算变量间相似矩阵或样品间的距离矩阵,将其元素压缩到0与1之间形成模糊相似矩阵,进一步改造为模糊等价矩阵,最后取不同的标准,得到不同的截阵,从而就可以得到不同的类。具体步骤如下:第一步:数据标

8、准化1.数据矩阵设论域为被分类的对象,每个对象又由个指标表示其性状: (),于是得到原始数据矩阵为X=2.数据标准化在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样得到的数据也不一定在区间0,1上。因此,这里所说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间0,1上。通常需要作如下变换:(1)平移标准差变换 ()其中。经过变化后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,这样得到的还不一定在区间0,1上。(2)平移级差变换 (),显然有,而且也消除了量纲的影响。第二步:标定(建立模糊相似矩阵)设论

9、域依照传统的方法确定相似系数,建立模糊相似矩阵,与的相似程度。可根据问题的性质,选取下列公式之一计算。1. 数量积法,其中显然,若中出现负值,也可采用下面的方法将压缩在0,1上令,则。当然也可用上述的平移级差变换。2. 夹角余弦法,若将变量的个观测值与变量的相应个观测值看成维空间中的两个向量,正好是这两个向量夹角的余弦。3.相关系数法从统计角度看,两个随机变量的相关系数是描述这两个变量关联性(线性关系)强弱的一个很有用的特征数字。因此,用任意两个变量的个观测值对其相关系数的估计可作为两个变量关联性的一种度量,其定义为,其中(1,2,,)见(,1,2,, ,)。(1)其实就是的样本相关矩阵中的各

10、元素。4.指数相似系数法,其中,而。需要注意的是,相关系数法与指数相似系数法中的统计指标的内容是不同的。5.最大最小法6.算术平均最小法 7.几何平均最小法(上述5,6,7三种方法均要求,否则也要做适当变换)8.绝对值减数法,适当选取,使得0。9.绝对值倒数法其中适当选取,使得0。10.绝对值指数法11.距离法 ,其中为适当选取的参数,它使得0,经常采用的距离有:(1)绝对距离 ()(2)欧式距离 ()(3)Chebishov距离 ()12.主观评分法:请有实际经验者直接对与的相似程度评分,作为的值。注:上述方法究竟选哪一种,需要根据问题的性质及应用方便来选择。第三步:进行模糊聚类1.基于模糊

11、等价矩阵聚类方法一般来说。上述模糊矩阵是一个模糊相似矩阵,不一定具有等价性,即不一定是模糊等价矩阵。这可以通过模糊矩阵的褶积将其转化为模糊等价阵,具体方法如下: 计算=,=,=,直到满足这时模糊矩阵便是一个模糊等价矩阵。记。将按由大到小的顺序排列,从1开始,沿着由大到小的次序依次取,求的相应的截阵,其中元素为1的表示将其对应的两个变量(或样品)归为一类,随着的变小,其合并的类越来越多,最终当时,将全部变量(或样品)归为一个大类。按值画出聚类的谱系图。2.直接聚类法所谓直接聚类法是指:在建立模糊相似矩阵之后,不去求传递闭包,直接从相似矩阵出发,求得聚类图。其步骤如下:(1)取1(最大值),对每个

12、作相似类:=|,即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现=,=,.此时只要将有公共元素的相似类合并,即可得1水平上的等价分类。(2)取为次大值,从中直接找出相似程度为的元素对(,)(即),相应的将对应于1的等价分类中所在类与所在类合并,将所有这些情况合并后,即得对应的等价分类。(3)取为第三大值,从中直接找出相似程度为的元素对(,)(即),类似的将对应于的等价分类中所在类与所在类合并,将所有这些情况合并后,即得对应的等价分类。(4)依次类推,直到合并到成为一类为止。直接聚类法与传递闭包法所得的结果是一致的,直接聚类法要明显简单一些,下面

13、再介绍直接聚类法的图形化方法,即最大树法。所谓最大树法,就是画出以被分类元素为顶点,以相似矩阵的元素为权重的一棵最大的树,取定,去掉权重低于的枝,得到一个不连通的图,各个连通的分支便构成了在水平上的分类。下面介绍求最大树的Kruskal法。设,先画出所有顶点从模糊相似矩阵中按从大到小的顺序依次画枝,并标上权重,要求不产生圈,直到所有顶点连通为止,这就得到一棵最大树(最大树可以不唯一)。上述两个聚类方法各有优劣,使用传递闭包法分类,当矩阵阶数较高时,手工计算量大,但在计算机上还是容易实现的,因此,人们还是乐于使用它。当矩阵阶数不高时,直接聚类法比较直观,也便于操作,适合推广使用。第四步:最佳阈值

14、的确定在模糊聚类分析中,对于各个不同的,可得到不同的分类,从而形成一种动态聚类图,这对全面了解样本的分类情况是比较形象和直观的。但许多实际问题需要选择某个阈值的问题。现介绍下面两种方法。1. 按照实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分为几类。当然,也可由具有丰富经验的专家结合专业知识来确定阈值,从而得出在水平上的等价分类。2. 用统计量确定最佳值 设论域为样本空间(样本总数为),而每个样本有个特征(即由试验或观察得到的个数据);()()。于是,得到原始数据矩阵,如下表所示样本指 标 1 2 其中,(),称为总体样本的中心向量。设对应于值的分类数为,

15、第类的样本数为,第类的样本记为:,第类的聚类中心为向量(,, ),其中,为第个特征向量的平均值: ()作统一量其中为与的距离,为第类样本与中心的距离,称式(*)为统一量。它的分子表征类与类之间的距离,分母表征类样本间的距离。因此,值越大,说明分类越合理,对应统一值最大的阈值为最佳值。五、模糊聚类分析的在数据挖掘的应用实例例:设某地区设置有11个雨量站,其分布图见图5-1,10年来各雨量站所测得的年降雨量列入表5-1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?图5-1表5-1年降雨量列入年序号127632415941329225831130317524332

16、022512873493443104542854514023074703192433290563479502221220320411232424623224328126731027331528532735252913115023883304103522676032902926466158224178164203502320240278350725832743240136138130141340219942184533653574523844204822283603162529158271410308283410201179430342185103244062355204425203583432

17、51282371应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。问题求解 假设为使问题简化,特作如下假设(1)每个观测站具有同等规模及仪器设备;(2)每个观测站的经费开支均等;具有相同的被裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。求解步骤1.利用相关系数法,构造模糊相似关系矩阵,其中 其中,1,2,,11, ,1,2,,11。用C#语言编程

18、计算出模糊相似关系矩阵,得到模糊相似矩阵。R=对这个模糊相似矩阵用平方法作传递闭包运算,求 即t()=。注:是对称矩阵,故只写出它的下三角矩阵。取0.996,则=故第二行(列),第四行(列)完全一致,故同属一类,所以此时可以将观测站分为9类,,,,,,这表明,若只裁减一个观测站,可以裁中的一个。若要裁掉更多的观测站,则要降低置信水平,对不同的作同样分析,得到0.995时,可分为8类,即,,,,,,;=0.994时,可分为7类,,, ,,,;=0.962时,可分为6类,,, ,, ,;0.719时,可分为5类,,, ,,,;图5-2聚类谱系图再具体分析图5-1,我们可以看到虽然和,分为一类,但和,观测点相距较远,撤去是不太合适的,保留而撤去,就更不合适了。因此还是将其分为6类,即,, ,,,依据每类最少保留一个站的原则,最多可撤去5个站。实际应该撤去哪几个站就应该依据其他条件来确定了。由本例可以看出,当需要比较聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论