版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-.z.聚类分析及其在图像处理上的应用-.z.1绪论1.1基于聚类的图像处理的研究现状聚类分析在图像处理中应用广泛,其中一项重要的应用就是图像分割。图像分割多年来一直受到人们的高度重视,各种类型的分割算法相继被提出。虽然人们在图像分割方面做了许多工作,但是至今仍没有通用的分割算法,也不存在一个客观的评价准则。大多数分割算法都是针对一种具体类型的图像提出的很难适用于所有图像。实际上由于各个领域的图像千差万别,也很难提出万能的分割算法。基于聚类的图像分割方法是图像分割领域中一类非常重要且应用广泛的算法。2聚类分析概述2.1聚类的定义聚类的目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据隐藏的部构造。Backer和Jain[1]指出数据的划分是依赖于所选择的相似性度量的,通过主观地选择相似性度量来到达有的的划分。至今,人们并没有对聚类给出一个统一的定义。多数研究者都是从部同质性和外部可分性对聚类簇进展描述,即同类数据对象间应该彼此相似,不同类间的数据对象应该不相似[3。在给出聚类的数学描述之前,首先介绍与聚类有关的一辟术语和数学表达方法。样本:指要进展聚类的数据集中的单个数据。样本一般是一个多维向量,向量的每个分量可以是数值型或者名词型的数据,一般称为特征或者属性。样本集:或称数据集,是由单个样本所组成的集合,即是需要聚类操作的数据整体,通常表示为一个矩阵。相异度矩阵:该矩阵中的每个元素表$样本集中的每对样本之间的相异程度,一般是非负值。相似度矩阵:该矩阵中的每个元素表小"样本集中的每对样本之间的相似程度,一般是非负值。类:或称簇,指通过聚类而形成的一组,同一类中的样本具有相似的特征。通常用C或K表示类的个数。类原型:能够代表*个类性质的数据兀,可以是*类样本中的一个样本,或者是*类样本的一个加权值,也可以是能描述一个类特征的向量。划分矩阵[U]n*K:矩阵中的每个元素表示每个样本属于各个类的模糊隶属度,且,在此〖表"样本标号,k表类标标号。1.2聚类的数据类型通常获得的数据类型有两种:一是数据矩阵,二是相异度矩阵(相似度矩阵)。假定数据集中有n个样本:,i=1,2,....,n,每个样本有p个变量(特征属性),则这n个样本可表示成n*p(n个样本*p个变量)的数据矩阵。(2-1)其中每个对象对应为一个p维向量:(2-2)相异度矩阵存储的是n个样本两两之问的相界度,表现形式足一个n*n维的矩阵。(2-3)在这里d(i,j)是样本i和样本j之间相异性的量化表示,通常是一个非负的数值,当样本i和样本j越相似,d(i,j)的值就越接近0;反之,两个样本越不相似,的值就越大。d(i,j)=d(j,i),且d(i,j)=0,因此得到形如(2-3)的矩阵。图像数据的表示日常应用中得到的图像一般分为两类:灰度图像和彩色图像。灰度图像的数值表示为一个二维矩阵[I]m*n图像一共包含m*n个像素。在此,m和n分别代表图像的高和宽,(ij)表示位于第i行和第j列的像素,Iij表示其灰度值。彩色图像的数值表示为一个三维矩阵[I]m*n*3,像素的个数仍为m×n,3表示三个颜色通道,每一层的二维矩阵表示该图像在*一个颜色通道的数值。位于位置(i,j)的像素对应的颜色特征向量表示为[I(i,j,1),I(i,j,2),I(i,j,3)]。在许多情况下,色彩是描述一幅图像最简单有效的特征,而且人眼对色彩的分辨率大大高于对灰度图像的分辨率,因此彩色图像所携带的信息远远大于灰度图像。一般的图像处理技术最先应用于灰度图像,然后开展到彩色图像,图像分割也不列外。颜色特征可以来自于不同的颜色空间,不同的颜色空间以不同的方式对图像颜色进展描述。一共有四种不同的颜色空间:RGB颜色空间、*YZ颜色空间、HIS颜色空间、Lab颜色空间。RGB颜色空间是根本的颜色空间,RGB对应于红(R)、绿(G)、蓝(B)三种基色,其余所有颜色空间都可由RGB颜色空间经过线性或非线性变换得出的。给定一幅待分割的图像,我们可以直接获得像素的位置信息,灰度值(灰度图像)或者RGB颜色特征值(彩色图像),这些特征也是图像分割中最常用的特征属性。但是对于一些复杂图像,单纯依赖这些底层特征不能得到满意的分割结果。基于这些底层特征,人们提取了更多有效的特征,其中常用的有描述物体外表灰度变化的纹理特征和根据特定对象的先验信息参加的形状特征。最近,人们开场借助一辟先进的电子产品提取深度信息,通过参加这辟高层特征来改善对特定类图像的分割结果。在提取特征之后,就可以得到每个像素点的一个向量表小,也就可以看成是高维空间中的一个数据点。但是,像素点又和传统的数据不同,每个像素点在阁像中的位置是固定的,每个像素点的邻域像素点都可以直接通过位置信息获得,这一特性也在图像数据的相似度计算上得以表达。2.3聚类算法近些年来,聚类分析一直是研究热点问题。基于相似度矩阵的聚类算法指的足给定相似度矩阵的情况下即可进展聚类处理的算法。只要给定相似度计算模型,则基于相似度矩阵的聚类算法也可以处理数据矩阵,即首先根据数据矩阵计算出相似度矩阵,然后利用基于相似度矩阵的聚类算法进展聚类。基于数据矩阵的聚类算法基于数据矩阵的聚类算法只能处理数据矩阵对象,其中很多经典的类原型聚类算法都可以划分到这一类聚类算法中,如K均值型聚类算法,模糊C均值型聚类算法(FCM),EM型聚类算法等。这辟算法之所以称为类原型聚类算法,是因为每个类可以由类原型来代表,在对数据进展划分的同时也给每个类找到具有代表作用的类原型。一个簇可以由类原型表示,到达对原有的数据集的压缩编码,这也可以说是聚类的另外一个功能。给定一数据矩阵[*]n*p表示n个p维样本。K均值算法K均值算法将n个样本划分到K个簇C={C1,C2,…,Ck},使得簇样本具有较高相似度,簇间样本具有较低相似度。设V={VI,V2,…,Vk}为K个类对应的类中心(类原型),其中Vk是第Ck个簇中样本的平均值,每个族可以由对应的类原型来表示。K均值算法通过最小化类误差平方和准则函数来对数据进展划分,其目标函数定义如下:(2-4)在此Ck包含所有到第k个类中心Vk距离最小的样本点,可描述如下。(2-5)(2-6)K均值算法是一个贪心算法,通过迭代地更新类中心和各个簇成员来得到公式〔2-4〕的局部最优解。K均值聚类算法主要包括以下几个步骤:1.初始化:随机选取个样本作为初始的类中心;2.样本指派:计算样本到各个类中心的欧氏距离,将样本划分到距离其最近的类;3.更新:重新计算每个新簇的类中心;4.重复步骤2和3直到簇样本不再发生变化后停顿。K均值算法的主要优点有收敛速度快,储存空间小,时间复杂度低等。一般的K均值型聚类算法的时间复杂度为O〔nKt〕,其中n是数据集中样本的个数,K是期望聚类的个数,t是迭代次数。模糊C均值算法Dunn在1973年提出模糊C均值聚类思想,之后Bezdek把这一工作进一步推广到一个模糊目标函数聚类的优化算法,并证明了该算法的收敛性。模糊C均值聚类算法给出每个样本属于各个类的程度,即隶属度(menibershipvalue)。相比K均值聚类的硬化分,模糊划分更丰富地反映了样本与各个类原型的相关度,从而可以更好的推测数据集的部构造。2.3.2基于相似度矩阵的聚类算法基于相似度矩阵的聚类算法是以相似度(相异度)矩阵为根底。如果数据是用数据矩阵的形式表现的,在使用基于相似度矩阵的聚类算法之前要根据相似度模型计算出相似度矩阵。与基于数据矩阵的聚类算法相比,这类算法使用起来更灵活,无论输入是数据矩阵还是相似度矩阵都能够进展聚类操作,相反基于数据的聚类算法则不能处理只给出相似度矩阵的聚类问题。然而,一些应用领域往往无法给出明确的数据矩阵,而是给出一辟数据点的关系(如相似度),社团分析中常碰到这类情况。直接使用相似度矩阵进展聚类的典型聚类算法有基于图的聚类算法、基于类原型的K中心算法(K-medoids)和AP聚类算法、层次聚类算法以及基于密度的聚类算法等。基于图的聚类算法基于图的聚类算法是一类基于无向图的聚类算法。假定将侮个样本看作图中的顶点V,根据样本间的相似度为顶点间的边E赋于权重W,这样得到一个基于样本相似度的无向加权图G=(V,E)。将样本映射到图之后,可以使用图论中很多成熟的理论来进展聚类,一类非常流行的基于图的聚类算法是谱聚类算法,这类算法也是本文的根底算法,很多相关实验也是基于这类算法完成的。因此,下面会比拟详细的介绍几种常用的谱聚类算法。谱聚类算法的思想源于谱图划分理论,其本质是将聚类问题转化为图的最优化分问题。与传统聚类算法假设一样,基于图论的最优划分准则也是使划分的子图部相似度最大,子图之间的相似度最小。不同的划分准则会得到不同的聚类结架。表2.1给出了一辟常见的划分准则。由于图划分问题的本质,求图划分准则的最优解是一个NP难问题。求解图划分问题一个主要的工具是图的拉普拉斯矩阵法(Laplacianmatrices)。这类矩阵的学习已经形成了一个完整的体系,称为谱图论早在1973年,Donath和Hoffmanf^l就提出利用图的邻接矩阵的特征向量来求解图划分问题。同年,Fiedlerl发现了图的2-way划分与该图的拉普拉斯矩阵对应的第二小特征值对应的特征向量有密切关系,并提出使用这一向量对图进展划分。这一特征向量代表了最正确图划分的一个解(即势函数),后来将这一特征向量命名为Fiedlerl向量。基于谱图理论,原来的图划分问题就可以转换成求解相似度矩阵或Laplacian矩阵的谱分解问题,因此将这类方法统称为谱聚类,可以认为谱聚类是对图划分准则的逼近。谱聚类中常用的相似性度量为空间相似性计算模型中的高斯型相似性计算方法。相似度矩阵通常用W或A表示,有时也称为亲和矩阵(AffinityMatri*),Wij=Wji=Sij。在得到相似度矩阵后即可求解拉普拉斯矩阵,不同的文献可能使用不同类型的拉普拉斯矩阵,不同的拉普拉斯矩阵即得到不同的谱映射方法。在给出不同类型的拉普拉斯矩阵之前,先引入矩阵D。D为对角矩阵,即可以看作是每个顶点的度,所以也称为度矩阵。图的拉普拉斯矩阵分为两类:非规拉普拉斯矩阵和规拉普拉斯矩阵。非规拉普拉斯矩阵定义为:(2-7)规的拉普拉斯矩阵有两种形式,分别为:(2-8)(2-9)在此将第一个矩阵标记为Lsym,因为该矩阵为对称矩阵;第二个矩阵标记为Lrw,因为该矩阵与随机游走有密切关系。根据不同的准则函数及谱映射方法,文献中已提出很多种不同的谱聚类算法。众多的谱聚类算法中应用最广的要数Shi和Malik提出的Ncut谱聚类算法_,Ng等。人提出的NJW算法。Ncut算法最初是用于求解两类问题,可以迭代地对之前步骤得到的子图进展划分来得到期望的聚类个数,所以也属于迭代谱聚类算法中的一种。NJW算法是针对多类问题提出,使用更多的特征向量并且直接计算k路分割对数据进展聚类。谱聚类算法的主要优势在于该类算法对簇的形状没有很强的假设,可以处理更一般化的聚类问题。K均值聚类算法建立在球形的样本空间上,适合发现球状簇,对于含有任意形状簇的数据集往往得不到期望的聚类结果。处理更多类型的数据集是近几年谱聚类流行起来的主要原因。但是也正是由于谱聚类是直接基于相似度矩阵的聚类算法,不同的相似度矩阵得到的聚类结果可能会有很大差界。K中心点方法K中心点方法也可以看作是K均值算法的一个变形算法,之所以将其归类为基于相似度(相异度)矩阵的聚类算法是因为K中心点算法选用族中位置最中心的对象作为类代表点(类中心),而不是簇中对象的平均值(质心)。K中心点方法仍是基于最小化所有对象到类中心之间的相异度之和的原则来执行,在对象与对象间的相异度时,该方法就能对对象进展聚类。K中心点方法采用中心点来代替质心,减少了对噪声和孤立点数据的敏感程度。K中心点聚类算法的根本策略是:首先为每个族随机选择一个代表点;剩余的数据点根据其与代表点的距离分配给最近的一个簇。然后反复用非代表点来替换代表点,以改良聚类的质量,降低聚类质量的代价函数,即数据点到其类代表点的平方误差和。每次代表点替换发生时,检查代价函数是否降低,如果降低则保存替换,否则放弃该替换,重复上述过程直到代价函数不再发生变化为止。给定聚类数K,典型的K中心点聚类算法的主要步骤概括如下:1.初始化:随机选取足个样本作为初始的中心点;2.样本指派:计算样本到各个类中心的距离,将样本划分到距离其最近的中心点所代表的簇;3.类中心替换:随机地选择一个非类中心点,计算用选中的样本代替原来的类中心的代价函数,如果代价函数降低,则替换原有的中心点形成新的K个中心点集合;4.重复步骤2和3直到类中心点不评发生变化后停顿。PAM(PartitioningAroundMedoids)是最早提出的K中心点算法之一。虽然K中心算法比K均值算法在处理噪声点时表现的要强健,但是K中心点算法的执行代价比K均值方法高,其时间复杂度为如果数据集规模和类的个数较大,PAM算法的效率会很低为了用K中心点方法处理大规模数据集,Kaufman和Rousseeuw将抽样方法和PAM算法结合提出了一个新的尺中心点方法,称为CLARA(ClusteringLARgeApplications)算法CLARA算法+再考虑整个数据集,而是从整个数据集中进展抽样,选取数据中的一小局部作为数据的样本,然后用PAM算法从这些选中的样本中选择中心点。为了减少抽样样本对最终聚类的影响,CLARA算法采取屡次抽样,对每次抽样样本应用PAM算法,返回这几次抽样最好的聚类结果作为最终结果。通过抽样处理,CLARA算法一次抽样的时间复杂度为,其中s是抽样样本的大小。CLARA算法的一大缺点是不能保证最正确的个类中心点被选中为最终的类中心点,如果在抽样的时候这辟数据点没有被抽中,则CLARA算法将永远找不到最正确聚类。为了改良CLARA算法的聚类质量,Ng和Han提出了CLARANS算法(ClusteringLargeApplicationsbaseduponRANdomizedSearch),该算法也采用了抽样技术,但是在搜索的每个阶段不诉使用一个固定的抽样集合,而在搜索的每一步都会随机的抽取样本,其时间复杂度为。CLARANS算法的聚类质量也依赖于所用的抽样方法。3实验与分析针对相似度计算模型和数据特征两方面的工作,实验分为两局部:基于不同高斯型相似度的实验结果和基于不同特征的实验结果。每局部都使用模拟数据及实际数据对相应方法进展测试,聚类算法选用NJW谱聚类算法。3.21基于不同高斯型相似度的聚类结果下面给山基于六种高斯型相似性度量的聚类结果。六种相似性度量分别为:标准高斯核相似度(SC)自适应高斯核相似度I(STI)、自适应高斯核相似度n(STH)局部密度的自适应相似度(N)加权自适应相似度I(WSTI)以及加权自适应相似度n(wsTn)。3.3模拟数据首先对模拟数据进展实验,局部数据集来自文献。对于各种相似性度量中涉及到的参数,包括尺度参数、近邻数K和K`以及邻域半径Ɛ,通过实验选择最正确参数得到图3.1给出的聚类结果。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环保事故应急处置手册
- 安全考务管理办法
- 钢筋机械连接接头拧紧力矩
- (正式版)DB44∕T 2831-2026 小型水电站生态流量泄放及监测技术导则
- 2026招商银行福建三明分行招聘考试模拟试题及答案解析
- 南方航空物流股份有限公司2026届春季校园招聘考试备考试题及答案解析
- 2026重庆旅游资产管理有限公司统景景区管理分公司招聘3人笔试模拟试题及答案解析
- 2026年芜湖市教育科学研究所面向市外引进教研员笔试参考题库及答案解析
- 2026四川德阳市公安局经济技术开发区分局招聘第二批警务辅助人员30人考试备考题库及答案解析
- 2026浙江温州市瑞安市市场监督管理局塘下市场监督管理分局招聘编外人员1人笔试模拟试题及答案解析
- 2026年4月河北保定市中考一模英语试卷
- 2026年度哈尔滨“丁香人才周”(春季)乡镇卫生院招聘医学毕业生112人农业笔试模拟试题及答案解析
- 宜黄县2026年第一批机关事业单位公开招聘编外工作人员【28人】农业笔试参考题库及答案解析
- 医院评先评优工作制度
- 2025昌吉州科技馆招牌编制外聘用人员(3人)考试参考试题及答案解析
- 自动重合闸综合重合闸
- 钟开斌-应急管理讲义
- 社会问题专题第1讲 社会问题概论:理论与方法
- 惯性离心力课件
- 《思想道德与法治》 课件 第四章 明确价值要求 践行价值准则
- 机械设备安装施工方案
评论
0/150
提交评论