《模式识别导论》课件第8章_第1页
已阅读1页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章模糊模式识别8.1模糊集合8.2模糊模式识别的基本方法8.3模糊聚类分析8.4聚类有效性评价

1965年,Zadeh提出了模糊集合概念,创建了一门新的学科——模糊数学。模糊集合是对一类客观事物和性质的更合理的抽象和描述,是对传统集合的一种推广。

在主客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式。随机性是由于条件不充分而导致的结果的不确定性,它反映了因果律的破缺。模糊性是指事物的性态或类属的不分明而引起的判断上的不确定性,其根源是事物之间存在过渡性的事物或状态,模糊性所反映的是排中律的破缺。随机性的事物应该采用概率论加以处理和分析,模糊性的事物则需要模糊数学来描述和研究。因此,人们普遍认为模糊数学是解决很多人工智能问题,尤其是常识性问题的最合适的数学工具。

在模式识别领域,人们利用模糊技术对传统的一些模式识别方法进行了改进,这些研究逐渐形成了模糊模式识别这一新的学科分支。模糊模式识别利用模糊数学的理论和方法解决模式识别问题,其基本思想是将各个模式类看成模糊集合,将模式的属性转化为对于模糊集合的隶属程度,然后利用隶属函数、模糊推理和模糊关系进行分类识别。

本章介绍模糊集合的相关知识,主要讨论模糊模式识别的基本方法,并重点讨论模糊聚类分析法。

8.1模糊集合

8.1.1模糊集合的定义及表示

集合是数学的一个基本概念,集合论是近代数学的基础理论,是研究现代科技最重要的理论工具之一。在普通集合论中,一个元素要么属于某一集合,要么不属于该集合,二者必居其一,且二者仅居其一。模糊集合是普通集合的推广,其中,每个元素都是以一定的程度(隶属度)属于某个模糊集合,也可以属于多个模糊集合。模糊集合主要用来描述不精确的、模糊的概念。下面首先给出普通集合的定义。定义8.1给定论域U及某一性质P,U中具有性质P的元素的全体称为一个集合,记为A={x|P(x)},其中,

P(x)表示元素x具有性质P。

如果x属于A,记x∈A,否则记x

A。一个集合可以用特征函数来表示。令A是论域U上的一个集合,它由映射CA:U→{0,1}]唯一确定。对x∈U,令特征函数

χA(x)在x0处的取值χA(x0)称为x0∈U对A的隶属度。(8-1)集合A可由它的特征函数χA(x)唯一确定,A是由隶属度等于1的元素组成的。显然,普通集合中元素的归属是明确的。将普通集合中特征函数的取值范围由{0,1}推广到[0,1],就得到模糊集合的定义。下面给出模糊集合的定义。

定义8.2对于论域U上的集合,对任意x∈U都指定了一个数用于表示x属于的程度,即有映射,利用所确定的集合称为U上的一个模糊集合,称为模糊集合的隶属度函数。对于某一x∈U,表示元素x对的隶属度。

的值越接近1,表示x属于的程度越高;的值越接近0,表示x属于的程度越低。模糊集合的定义表明,模糊集合由其隶属度函数唯一确定。模糊集合是普通集合的一般化,普通集合是特殊的模糊集合。

一个模糊集合可表示为

如果U是可列有限集合,则可表示为(8-2)(8-3)如果U为无限不可列集合,则可表示为

其中,“”与“”并不是求和与积分,它们表示模糊集合中各个元素与隶属度函数对应关系的一个总括。(8-4)8.1.2模糊集合的运算

1.基本运算

具有共同论域的模糊集合可以定义相等、包含以及集合运算,这些操作是通过对隶属度作相应运算来实现的。

(1)相等:设和为论域U上的两个模糊集合,当且仅当,时,称和相等,即

(8-5)

(2)包含:设和为论域U上的两个模糊集合,若

,,则称包含或包含于,即

(3)空集:设为论域U上的模糊集合,若,

,则称为空集,记为,即(8-6)(8-7)

(4)补集:设和为论域U上的两个模糊集合,若,

则称为的补集。

(5)全集:设为论域U上的模糊集合,若,,则称为全集,记为Ω,即(8-8)(8-9)

(6)并集:设和和为论域U上的模糊集合,若,,则称为与和的并集,即

(7)交集:设、和为论域U上的模糊集合,若,,则称为

与的交集,即(8-10)(8-11)

2.模糊集合运算的基本性质

(1)幂等律;

(2)交换律;

(3)结合律;

(8-14)

(4)吸收律(8-12)(8-13)(8-15)

(5)分配律:

(6)复原律;

(7)对偶律;

(8)定常律;(8-16)(8-17)(8-18)(8-19)与普通集合不同,在模糊集合上排中律一般不成立,即(8-20)

8.2模糊模式识别的基本方法

模糊模式识别方法就是在模式识别中引入模糊数学的概念、原理和方法,用模糊技术对客观事物进行更为有效的分类与识别,与统计模式识别方法存在一定程度上的相似之处。该类方法首先将类别和待识别对象看成模糊集合及其元素,然后将普通意义上的特征值变为模糊特征,建立模糊集合的隶属度函数,或建立元素之间的模糊相似关系并确定这个关系的隶属函数,最后运用模糊数学的原理和方法进行分类识别。本节首先介绍模糊模式识别的基本过程,然后给出常用的隶属度函数,最后介绍模糊模式识别的两个最重要的判决原则:最大隶属度原则和择近原则。

8.2.1模糊模式识别的基本过程

模糊模式识别包括如下的基本过程。

1.特征的变换

在模糊模式识别中,特征的变换是指根据一定的模糊化规则把普通意义下的一个或几个特征变量变成多个特征变量,并且使得每个特征值是原始特征的某一局部更本质特征的隶属度,利用这些特征来表示原来的对象,这个工作又称为特征的模糊化。其中,模糊化规则通常是根据具体应用领域的专门知识、人为确定或通过试算确定的。这些新的特征能更好地反映对象的本质,为后续分类器的设计提供了很大的方便。

举例来说,在统计模式识别中,人的身高是一个数字化的特征。在模糊模式识别中,我们可以把人的身高特征分为“偏矮”、“中等”和“偏高”三个模糊特征。每个模糊特征是一个连续变量,分别表示身高属于偏矮、中等和偏高的程度,而不是身高的具体数值。

2.建立隶属度函数

为了能运用模糊数学进行分类识别,应根据具体情况建立模糊集的隶属度函数。下面介绍建立隶属度函数的主流方法。

(1)专家确定法。

专家确定法是根据专家的经验和认识,给出对象隶属度的具体数值。最常用的专家确定法是德尔菲法。

(2)模糊统计法。

模糊统计法以调查统计结果得出的经验曲线作为隶属度函数,一般采用集值统计的方法来确定隶属度函数。

(3)二元对比排序法。

在很多情况下,要直接给出论域上一个模糊集的隶属度函数是比较困难的,但是比较论域中两个元素的隶属度大小往往比较容易,此时,可以先排序再用一些数学方法处理得到隶属度函数。

(4)综合加权法。

在实际问题中,有些模糊集是由若干因素相互作用而成的,可以先求出各个因素的模糊集的隶属度函数,再用综合加权的方法复合出这个模糊集的隶属度函数。

(5)函数近似法。

最简单的确定隶属度函数的方法是采用一些常见的带参数的函数来近似表示,所选的函数应尽量符合模糊变量的本质特征,函数的参数一般通过实验来确定。

我们在8.2.2节将详细介绍常用的隶属度函数。

3.建立模糊相似关系

对于论域U={x1,x2,…,xn},根据实际情况,可以运用集值统计法、模糊集的贴近度法或者第6章介绍的相似性测度等建立模糊相似矩阵,其中,矩阵元素表示对象xi和xj相似关系的隶属度。

4.模糊模式识别

根据对象的特点,采用适当的模糊模式识别方法进行识别。模糊模式识别方法大致可以分为两种,即根据最大隶属度原则进行识别的直接法和根据择近原则进行归类的间接法。

5.模糊结果的处理

与统计模式识别不同,模糊模式识别获得的分类结果不表示一个样本明确地属于某一类或不属于某一类,而是以一定的隶属度属于多个类,这样的结果可以反映出分类过程中的不确定性,有利于用户根据结果进行决策。如果分类识别系统是多级的,则这样的结果有益于下一级的决策。如果这是最后一级决策,而且要求一个明确的类别判决,则可以根据样本对各个类的隶属度或其他一些指标进行硬性分类。8.2.2常用的隶属度函数

1.矩形隶属度函数

(1)偏小型矩形隶属度函数(参见图8.1(a));

(2)偏大型矩形隶属度函数(参见图8.1(b));

(3)中间型矩形隶属度函数(参见图8.1(c));图8.1矩形分布隶属度函数

2.梯形隶属度函数

(1)偏小型梯形隶属度函数(参见图8.2(a));

(2)偏大型梯形隶属度函数(参见图8.2(b));

(3)中间型梯形隶属度函数(参见图8.2(c));图8.2梯形分布隶属度函数

3.K次梯形隶属度函数

(1)偏小型K次梯形隶属度函数(参见图8.3(a)):

(2)偏大型K次梯形隶属度函数(参见图8.3(b));

(3)中间型K次梯形隶属度函数(参见图8.3(c));图8.3K次梯形分布隶属度函数

4.正态形隶属度函数

(1)偏小型正态形分布隶属度函数(参见图8.4(a));

(2)偏大型正态形分布隶属度函数(参见图8.4(b));

(3)中间型正态形分布隶属度函数(参见图8.4(c));图8.4正态形分布隶属度函数

5.柯西形隶属度函数

(1)偏小型柯西形隶属度函数(参见图8.5(a)):

(2)偏大型柯西形隶属度函数(参见图8.5(b));

(3)中间型柯西形隶属度函数(参见图8.5(c));图8.5柯西形分布隶属度函数

6.岭形隶属度函数

(1)偏小型岭形隶属度函数(参见图8.6(a)):

(2)偏大型岭形隶属度函数(参见图8.6(b));

(3)中间型岭形隶属度函数(参见图8.6(c));图8.6岭形分布隶属度函数8.2.3最大隶属度原则

模糊模式识别中的最大隶属度原则是直接利用样本对各个类的隶属度,将其归入对应于最大隶属度的类别中。设

表示论域U上的c个模糊集合,其中,每个模糊集表示一个模糊模式类ωi。设表示论域中元素x对模糊集合的隶属度,如果对于论域中的元素xj∈U,有

则判或者xj属于ωk类。例8.1考虑三角形的识别问题。设U是所有待识别的三角形所构成的集合,由于每一个三角形完全是由三个内角所决定的,因此可以利用三角形三个内角α、β和γ作为衡量指标对三角形进行识别。于是,论域U可以表示为

U={x=(α,β,γ)|α≥β≥γ≥0,α+β+γ=180°}

设A是U上的一个近似等腰三角形,其对应的隶属度函数为给定已知三个内角角度的4个三角形x1=(90°,55°,35°),x2=(100°,45°,35°),x3=(125°,38°,17°),x4=(80°,56°,44°),尝试用最大隶属度原则识别这4个三角形中哪个优先归类于近似等腰三角形。

解根据隶属度函数的定义,可以计算得到;

μA(x1)≈0.444,μA(x2)≈0.694

μA(x3)≈0.423,μA(x4)=0.64

μA(x2)=max{μA(x1),

μA(x2),μA(x3),μA(x4)}

按照最大隶属度原则,x2应该优先归类于近似等腰三角形。例8.2根据人的年龄,把人分为年轻、中年和老年三类,分别对应三个模糊子集。设论域U=(0,100],的隶属度函数分别为:李四今年35岁,请利用最大隶属度原则判断其属于年轻人、中年人还是老年人。解根据上述隶属度函数,有,,,根据最大隶属度原则,李四属于中年人。最大隶属度原则主要应用于个体的识别。下面介绍可应用于群体模型识别的择近原则。8.2.4择近原则

在模糊数学中,贴近度用于衡量模糊集合之间的接近程度。设表示论域U上的c个模糊集合,待识对象也是U上的模糊集,如果与最贴近,则把

归入ωk类,这个准则被称为择近原则。下面首先给出贴近度的具体定义。

定义8.3对于论域U上的模糊集合之集F(U),其上的贴近度s是如下的映射;(8-22)s满足以下条件:

(1)当时,;

(2)当,时,;

(3)对于任意,,有;

(4)对于任意,若或,有,。

下面介绍几个常用的贴近度函数。

1.格贴近度

设,和之间的格贴近度定义为(8-23)有时也取

其中,和分别表示模糊集和之间的内积和外积运算。无限论域和有限论域上的内积运算分别定义为

无限论域和有限论域上的外积运算分别定义为在上面两个公式中,“∨”和“∧”分别表示“取大”和“取小”操作。(8-24)(8-25)例8.3设论域U为实数域,和是U上的两个模糊子集,它们对应的隶属度函数分别为和

,其中,σ1,σ2>0,利用格贴近度求解。

解模糊集合和对应的隶属度函数如图8.7所示。图8.7和的隶属度函数从图中可知,和之间的内积为

和之间的外积为

由,即,可得

求解上述等式,得到,与x1相比,x2不是最大值点,故选择x*=x1。于是有

由,可得。

由格贴近度公式(8-23),可得

例8.4设论域U={x1,x2,x3,x4}上的三个模糊集合为

,和

,利用格贴近度判断和中哪个与

最贴近。

解首先分别计算和与的内积和外积;由格贴近度公式(8-23),与以及与之间的贴近度分别为;

因此,比贴近于。

可以验证,格贴近度不满足贴近度定义中的条件(1)。然而,格贴近度非常适合于衡量两个模糊集的相对位置。

2.最大最小贴近度

设,U={x1,x2,…,xn}为有限论域,

和之间的最大最小贴近度为

可以验证,最大最小贴近度满足贴近度定义中的条件(1)~(4)。(8-26)例8.5根据茶叶的形状、色泽、净度、汤色、香气和滋味,可以把茶叶分成“特等”、“优等”、“良等”、“中等”和“差等”五个等级,它们对应于论域U上的五个模糊子集:

其中,论域U={形状,色泽,净度,汤色,香气,滋味}。待识别的茶叶模型对应于U上的模糊子集:

请采用最大最小贴近度,根据择近原则判断待识别茶叶的等级。解根据最大最小贴近度公式(8-26),可得:

根据择近原则,待识别的茶叶等级为“特等”。

3.距离贴近度

(1)海明距离贴近度。

设,x2,…,xn}为有限论域,和之间的海明距离贴近度定义为

进一步,当U为实数域上的闭区间[a,b]时,有(8-27)(8-28)

(2)欧氏距离贴近度。

设,U={x1,x2,…,xn}为有限论域,

和之间的欧氏距离贴近度定义为

进一步,当U为实数域上的闭区间[a,b]时,有(8-29)(8-30)

(3)明氏距离贴近度。

设,U={x1,x2,…,xn}为有限论域,和之间的明氏距离贴近度定义为

进一步,当U为实数域上的闭区间[a,b]时,有(8-31)(8-32)可以验证,这三个距离贴近度都满足贴近度定义中的条件(1)~(4)。

8.3模糊聚类分析

第6章介绍的聚类分析是数理统计中的一种多元分析方法,它用数学方法定量地确定样本的类属程度。然而,事物之间的界限有些是确定的,也有一些则是模糊的。例如,人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时,就需要运用模糊聚类分析的方法来处理。本节介绍两种模糊聚类分析方法:模糊等价关系法和模糊c-均值聚类法。8.3.1模糊等价关系法

利用模糊等价关系进行模式分类的方法称之为模糊等价关系法。下面首先介绍模糊关系、模糊矩阵和模糊等价关系,然后详细讨论模糊等价关系法。

1.模糊关系

设X,Y是两个论域,X与Y之间的笛卡尔乘积定义为

X×Y={(x,y)|x∈X,y∈Y}

(8-33)

定义8.4

设X,Y是两个论域,X×Y上的一个模糊集

称为X到Y上的一个模糊关系,也记为。模糊关系的隶属函数为

表示(x,y)满足关系的程度。若X=Y,则称为论域X上的一个模糊关系。

对于有限论域X={x1,x2,…,xm}和Y={y1,y2,…,yn},X到Y的模糊关系可用一个矩阵R表示:

R=(rij)m×n

(8-35)

其中,,称矩阵R为模糊矩阵。若rij∈{0,1},则矩阵R退化为布尔矩阵,即表达一个普通关系。因此,普通关系是模糊关系的特例。(8-34)(8-36)(8-37)(8-38)此外,若对所有的i和j都有rij=sij,则称R与S相等,记为R=S;若对所有的i和j都有rij≤sij,则称S包含R,记为。定义8.5设模糊关系对应的模糊矩阵为R=(rij)m×n,对任意λ∈[0,1],记Rλ=(λij)m×n,其中

称Rλ为R的λ截矩阵,它所对应的关系称为的截关系。(8-39)

3.模糊等价关系

定义8.6设是论域X上的一个模糊关系,若有,则称满足自反性;若,则称具有非自反性。

定义8.7设是论域X上的一个模糊关系,若x,y∈X有(即,其相应的模糊矩阵满足RT=R),则称满足对称性。若

,则称具有非对称性。定义8.8设是论域X上的一个模糊关系,若

,均有,则称

满足传递性。

定义8.9若模糊关系仅满足自反性与对称性,则称

是相似关系。

定义8.10若模糊关系满足自反性、对称性与传递性,则称是等价关系,相应的模糊矩阵R是等价矩阵。可以证明,模糊矩阵R是等价矩阵,当且仅当对于任意λ∈[0,1],其截矩阵Rλ都是等价的布尔矩阵。定义8.11设是论域X上的一个模糊关系,包含的最小模糊传递关系称为的传递闭包,记为。

定理8.1模糊关系的传递闭包为

易证,具有传递性的充要条件是。

定理8.2若为有限论域X={x1,x2,…,xn}上的模糊关系,则存在一个正整数k≤n,使得的传递闭包

设模糊关系对应的模糊矩阵为R,对应的模糊矩阵(即包含R的最小模糊传递矩阵)称为R的传递闭包,记为t(R)定理8.3对于任意的n×n模糊矩阵R,存在一个正整数k≤n,使得R的传递闭包

4.模糊等价关系法

一个模糊等价关系与一个模糊等价矩阵一一对应。模糊等价关系法实际上是利用模糊等价矩阵来进行聚类。若为模糊等价关系,其对应的模糊矩阵为R,则对于给定的λ∈[0,1],可以得到相应的普通等价关系,其对应的λ截矩阵为Rλ,从而得到一个λ水平的分类。进一步,若0≤λ≤ξ≤1,可知截矩阵Rξ所分出的每一类均是截矩阵Rλ所分出的某一类的子类,即Rξ的分类是Rλ分类的“加细”。当λ从1逐渐降为0时,分类结果逐渐变粗,从而形成一个动态聚类图。下面以一个样本集为例介绍模糊等价关系法是如何分类的。设X={x1,x2,x3,x4,x5}表示一个数据集,R为其对应的模糊矩阵;可以验证,R具有自反性、对称性和传递性,则R对应一个模糊等价关系。根据不同λ取值下的截矩阵Rλ,可以获得数据集X不同的分类结果:

(1)若0.56<λ≤1,对应的截矩阵为

此时得到“最细”的分类:{x1},{x2},{x3},{x4},{x5},即每个元素自成一类。

(2)若0.45<λ≤0.56,对应的截矩阵为

此时得到四个聚类:{x1,x3},{x2},{x4},{x5}。

(3)若0.38<λ≤0.45,对应的截矩阵为

此时得到三个聚类:{x1,x2,x3},{x4},{x5}。

(4)若0.31<λ≤0.38,对应的截矩阵为:

此时得到两个聚类:{x1,x2,x3,x5},{x4}。

(5)若0≤λ≤0.31,对应的截矩阵Rλ的元素全为1,此时得到“最粗”的分类,即5个样本合为一类。8.3.2模糊c-均值聚类算法

在第6章的6.5.1节,我们介绍了硬c-均值聚类算法(即HCM算法)。该算法把每个待聚类的对象严格地划分到某个类中。然而,现实生活中的很多事物并没有明确的属性,它们的类别归属存在中介性,具有亦此亦彼的性质。模糊聚类分析方法采用模糊的方法来进行聚类,为解决此类问题提供了有力的分析工具。将模糊集合和模糊划分的思想应用到HCM算法,就得到模糊c-均值聚类算法(Fuzzyc-meansClusteringAlgorithm,FCM)。FCM算法给出了样本对于各个类别的不确定性程度,更能客观地反映现实世界,是一种非常有效的聚类算法。对于给定的数据集X={x1,x2,…,xn},FCM算法采用下式作为目标函数;

其中,vi表示第i个聚类的中心,uij表示数据点xj对于第i个聚类的隶属程度,满足uij∈[0,1],(8-40),m∈[1,∞)为加权指数。由uij(1≤i≤c,1≤j≤n)构成的矩阵称为模糊划分矩阵,记为U=(uij)c×n。

FCM算法通过不断更新各个聚类的中心和模糊划分矩阵U,使得式(8-40)中的目标函数越来越小。运用拉格朗日乘子法,FCM算法的目标函数可以转化为如下无约束的函数形式;

上式取极小值的必要条件是L(uij,vi,λj)关于uij和λj的偏导数为零,即(8-41)(8-42)(8-43)从式(8-42)可以得到:

把式(8-44)带入式(8-43),可以得到:

再把式(8-45)带入式(8-44),可以得到:(8-44)(8-45)(8-46)需要指出的是,如果j,l使得||xj-vl||2=0,则令ulj=1,且对i≠l,uij=0。

类似地,求L关于vi的偏导数并设它为零,可以得到:

从式(8-47)可以得到:(8-47)(8-48)

下面给出FCM算法的步骤:

(1)确定聚类数目c、模糊指数m、阈值ε和算法最大迭代次数T;

(2)初始化模糊划分矩阵U(1),设置迭代次数k=1;

(3)利用式(8-48)计算各个聚类的中心

(4)利用式(8-46)计算隶属度函数;

(5)如果||U(k+1)-U(k)||<ε或者算法的迭代次数k>T,则算法结束;否则,k=k+1,执行步骤(3)。

上述算法也可以先初始化聚类中心,然后再执行迭代过程。图8.8给出了FCM算法的迭代过程示意图。在迭代的初期,所有的聚类中心都在样本的均值处。经过3次迭代后,算法收敛到最终的聚类中心。

FCM算法的输出是c个聚类中心向量和一个模糊划分矩阵U,矩阵U中的元素表示的是每个样本点对于每个类的隶属程度。根据这个划分矩阵,按照最大隶属原则可以确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征,可以认为是每个类的代表点。从FCM算法的推导过程不难看出,算法对于满足正态分布的数据聚类效果会很好。

图8.8FCM算法迭代过程示意图

8.4聚类有效性评价

不管给定的样本集结构如何,聚类算法总能对样本进行聚类,但是有可能产生错误的聚类结果。因此,需要对聚类算法的结果进行定量评价,这一任务一般称为聚类有效性评价。需要指出,相对于本章介绍的模糊聚类算法,第6章介绍的聚类算法称为硬聚类算法。下面分别针对硬聚类和模糊聚类介绍常用的聚类有效性评价指标。8.4.1硬聚类有效性评价

硬聚类有效性评价指标有Dunn指标、Davies-Bouldin(DB)指标、轮廓指标和Gap统计指标等。其中,Dunn指标和DB指标是最常用的两个评价指标,下面对它们进行具体介绍。关于其他指标读者可以参考相关文献。

1.Dunn指标

对于特定的聚类数目c,Dunn指标的具体定义如下:(8-49)其中,Dij为聚类ωi和ωj之间的最小距离(见式(6-29)),diam(ωk)表示聚类ωk的直径,定义如下;

可以看出,ωk的直径就是该聚类中两个最远的样本之间的距离,它可以作为聚类分散程度的测量。(8-50)从Dunn指标的定义可以看出,如果数据集中包含致密且分散程度很好的聚类,则聚类间的距离很大而各个聚类的直径很小,此时Dunn指标将会很大。需要指出,Dunn指标的变化趋势与聚类数目c无关,因此可以通过判断该指标的最大值来寻找数据的聚类数目。Dunn指标的缺点是计算时间较长,且对数据集中的噪声向量敏感。为了降低Dunn指标对于噪声向量的敏感性,Pal提出了三个类Dunn指标,感兴趣的读者可以参考相关文献。

2.Davies-Bouldin(DB)指标

对于特定的聚类数目c,Davies-Bouldin(DB)指标定义为

其中,,i=1,2,…,c。Sij表示聚类ωi和ωj之间的相似性,定义如下;

其中,Dij表示聚类ωi和ωj之间的距离,σi和σj分别表示这两个聚类的类内离散度,具体定义为;(8-51)(8-52)(8-53)(8-54)其中,mi和mj分别表示聚类ωi和ωj的均值向量,ni表示聚类ωi中样本的数目,l表示样本x的维数。需要指出,聚类ωi和ωj之间的相似性指标Sij应该满足以下条件:

(1)Sij≥0;

(2)Sij=Sji;

(3)如果σi=0且σj=0,则Sij=0;

(4)如果σi=σj且Dik<Djk,则Sik>Sjk;

(5)如果σi>σj且Dik=Djk,则Sik>Sjk。

条件(1)和条件(2)意味着Sij是非负的和对称的;条件(3)意味着如果两个聚类的离散程度为0,则相似性为0;条件(4)意味着如果两个聚类ωi和ωj的离散程度相同、但与第三个聚类ωk的距离不同,则聚类ωk更加相似于距离较近的聚类;条

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论