




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 在大脑磁共振成像( m a g n e t i cr e s o n a n c ei m a g i n g ,m r i ) 图像中,脑组织的轮廓 非常复杂和不规则,且样本数目有限,不适合使用传统的基于经验风险最小化的 分割方法。而支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 是基于统计学习理论发 展起来的一种有监督的分类方法,它根据结构风险最小化原则,在解决小样本、 非线性及高维模式识别问题中表现出许多特有的优势。因此,本文开展利用支持 向量机对磁共振图像脑部基底节区内的尾状核( c a u d a t u m ) 、壳核( p u t a m e n ) 和苍白 球( p a l l i d u m ) 进行分割研究。 支持向量机最初用于二分类问题,在此采用有向非循环图的方法将若干个两 类分类器组合成多类分类器。这样所得到的多分类支持向量机的方法可以很好地 实现对m r i 图像中的尾状核、壳核、苍白球及其背景区域的分割。 最终分类的效果除了与设计的分类器有关外,还与从磁共振图像中提取的特 征向量有关。结合磁共振图像的特点,采用纹理特征提取和灰度特征提取的方法, 纹理提取方法利用灰度共生矩阵来提取图像的局部统计特征。每一个样本点共提 取5 8 维特征向量。 由于高维的图像特征向量严重影响计算速度,降低分割速度,所以在本文中 分别采取主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 和粗糙集( r o u g hs e t s , r s ) 的方法来进行降维处理,大大提高了分割速度。实验结果表明,在分割m r i 脑部多目标组织时,无论是分割速度还是分类准确率,粗糙集方法均优于主成分 分析算法。 为了分析和验证所提出的支持向量机分割算法的实际效果,同时采用k 均 值聚类( k m e a n sc l u s t e r i n g ) 算法、模糊c 均值聚类( f u z z yc - m e a n ,f c m ) 、k - 最近邻( k n e a r e s tn e i g h b o r , k n n ) 算法、贝叶斯分类器( b a y e sc l a s s i f i e r , b c ) 算 法和径向基神经网络( r a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ,r b f n n ) 算法分别来 对目标区域进行自动分割,从而有利于非常客观地说明支持向量机分割算法的优 越性。最后,根据虚警、漏警概率以及分类j 下确率指标对这六种方法的分类效果 进行对比分析。实验结果表明无论是否采用降维处理,采用多分类支持向量机进 行多目标分割的分割正确率均优于以上五种方法。 关键词:多分类支持向量机;磁共振图像;图像分割;主成分分析;粗糙集 i a b s t r a c t t h eb o u n d a r yo fe n c e p h a l i ct i s s u ei sh i g h l yc o m p l i c a t e da n di r r e g u l a ri n h e a d m a g n e t i cr e s o n a n c ei m a g e ,a n dt h en u m b e r o fs a m p l e si sl i m i t e d i t st h er e a s o nt h a t t h et r a d i t i o n a ls e g r n e n t a t i o nm e t h o d sb a s e do nt h ee m p i r i c a lr i s km i n i m i z a t i o ni sn o t s u i t a b l e s u p p o r tv e c t o rm a c h i n eb a s e do ns t a t i s t i c a ll e a r n i n gt h e o r yi s as u p e r v i s e d c l a s s i f i c a t i o nm e t h o d w h i c hf o l l o w st h es t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l e ,s h o w s m a n ys p e c i a la d v a n t a g e s i nr e s o l v i n gt h es m a l ls a m p l es e t ,n o n l i n e a ra n dh i g h d i m e n s i o n a lp a t t e r nr e c o g n i t i o np r o b l e m s t h e r e f o r e ,t h i sp a p e rc a r r i e so u t t h e r e s e a r c ho fs u p p o r tv e c t o rm a c h i n et os e g m e n tc a u d a t u m ,p u t a m e na n dp a l l i d u m r e g i o ni nb r a i nm a g n e t i cr e s o n a n c ei m a g i n g ( m r l ) s u p p o r tv e c t o r m a c h i n ew a so r i g i n a l l yu s e df o rt w o c l a s s i f i c a t i o n ,a m u l t i - c l a s s i f i c a t i o nc l a s s i f i e rc a nb ec o n s t r u c t e db yaf e wt w o - c l a s s i f i c a t i o nc l a s s i f i e r su s i n g d i r e c t e da c y c l i cg r a p h a n dt h em u l t i - c l a s s i f i c a t i o nc l a s s i f i e r s c a nw e l ls e g m e n t c a u d a t u m ,p u t a m e n ,p a l l i d u ma n db a c k g r o u n dr e g i o no f t h em r ii m a g e i n a d d i t i o nt ot h ec l a s s i f i e r , t h ef i n a lc l a s s i f i c a t i o ne f f e c ta l s oh a sa ni m p o r t a n t r e l a t i o n s h i pw i t ht h ef e a t u r ev e c t o re x t r a c t e df r o mt h e b r a i nm r ii m a g e s t h et e x t u r e f e a t u r e sa n dg r a yf e a t u r e sa r ee x t r a c t e da st h ef e a t u r ev e c t o r si nt h ee x p e r i m e n t s , t e x t u r ef e a t u r e sa r ee x t r a c t e df r o mg r a yc o o c c u r r e n c em a t r i x t h et o t a ld i m e n s i o n a l n u m b e ro f e a c hs a m p l ep o i n ti s5 8 s i n c et h eh i g hd i m e n s i o n a lf e a t u r ev e c t o r ss e r i o u s l yi m p a c tt h ec a l c u l a t i o ns p e e d , a n dr e d u c et h es e g m e n t a t i o ns p e e d ,t h ep r i n c i p a lc o m p o n e n ta n a l y s i sa n dt h er o u g h s e t sa r ea d o p t e dr e s p e c t i v e l yt or e d u c et h ed i m e n s i o no ff e a t u r ev e c t o r s ag r e a td e a l o fe x p e r i m e n t ss h o w st h a tr o u g hs e ti sb e t t e rt h a np r i n c i p a lc o m p o n e n ta n a l y s i si nt h e s p e e da n dt h er e s u l to ft h es e g m e n t a t i o n i no r d e rt oa n a l y z ea n dv 耐f yt h ea c t u a le f f e c to ft h ep r o p o s e ds e g m e n t a t i o n a l g o r i t h mb a s e do ns v m ,k - m e a n sc l u s t e r i n g ,f u z z yc - m e a ns e g m e n t a t i o n ,k - n e a r e s t n e i g h b o r , b a y e sc l a s s i f i e r , a n dr a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r ka r er e s p e c t i v e l y a d o p t e d t h ef a l s ea l a r mp r o b a b i l i t y , f a l s ed i s m i s s a lp r o b a b i l i t ya n d t h es e g m e n t a t i o n a c c u r a c ya r eu s e da so b j e c t i v ei n d i c a t o r s t h ec o m p a r i s o na n a l y s i sc a l lo b j e c t i v e l y l 山东大学硕士学位论文 i n d i c a t et h ev a l i d i t yo ft h ep r o p o s e ds e g m e n t a t i o na l g o r i t h m e x p e r i m e n t a lr e s u l t s s h o wt h a tw h e t h e ro rn o tt oa d o p td i m e n s i o n a lr e d u c t i o np r o c e s s i n g , t h ep r o p o s e d s e g m e n t a t i o na l g o r i t h mi sb e t t e rt h a nt h ef i v em e t h o d sa b o v e k e yw o r d s :m u l t i c l a s ss u p p o r tv e c t o rm a c h i n e ;m a g n e t i c r e s o n a n c ei m a g i n g ;i m a g e s e g m e n t a t i o n ;p r i n c i p a lc o m p o n e n ta n a l y s i s ;r o u g hs e t s 山东大学硕士学位论文 第1 章绪论 在大脑磁共振成像( m a g n e t i cr e s o n a n c ei m a g i n g ,m r i ) 图像中,脑组织的边界 非常复杂和不规则,这种特征对于传统分割算法是一个很大的挑战。支持向量机 ( s u p p o r tv e c t o rm a c h i n e s ,s v m ) f f z 模式识别中一种典型的机器学习算法,有着很 强的泛化能力,尤其是对于高维空间的小样本数据。将两者结合,无论在理论研 究还是在实际应用上都有重大的意义。 1 1 医学图像分割技术的发展及研究现状 医学图像分割是获得人体医学图像中某种器官或组织的病理及功能方面信 息的必不可少的技术,同时也是计算机辅助治疗、医学图像三维重建及可视化工 作的重要组成部分。 医学图像分割技术经历了人工分割、半自动分割、自动分割的发展过程。图 像分割的初级阶段都是靠人工完成的。但是完全的人工分割对操作者的解剖知识 和经验依赖性强,耗时又费力,也容易丢失有用信息,所以医学分割不适宜采用 这种分割方法【l 】。随着计算机技术的发展,人工分割技术渐渐发展到了半自动分 割技术,半自动分割技术将计算机强大的存储、记忆与数据处理能力与人丰富的 知识经验结合起来,从而完成人机交互分割图像的目的。与人工方法相比,半自 动的分割方法虽然减少了人为主观因素的影响,而且提高了分割速度和分割精 度,但是操作者的先验知识仍是图像分割的重要组成部分,因此限制了半自动分 割在临床医学中的应用【2 1 。近些年来,随着模式识别及人工智能技术的发展,一 些自动的图像分割技术也不断涌现。自动分割技术实现了计算机分割图像的全自 动过程,摆脱了人为干预的影响,能够实现较高的分割精度,是实现图像定量测 量的前提【3 】。由于自动分割算法比较复杂,计算量较大,因此图像自动分割方法 大都以以下几个方向为目标:( 1 ) 自动性:以最少的人为干预完成自动分割图像 的全过程;( 2 ) 快速性:实现实时处理为其最终目标;( 3 ) 精确性:以最优化的结 果与解剖结构接近;( 4 ) 鲁棒性:能够对噪声等干扰具有较强的免疫力;( 5 ) 自适 应性:对于不同的应用可以自我学习,自我适应。 医学图像分割的研究多年来一直受到人们的高度蕈视。由于医学图像的多样 山东大学硕士学位论文 性和复杂性,以及医学影像设备成像技术上的特点,使医学图像比普通的图像分 割起来更加困难,因此没有一种通用的方法可以用于医学图像分割领域。现有的 图像分割方法主要分为两大类:基于区域的分割方法和基于边缘的分割方法垆j 。 基于区域的分割算法是根据图像的灰度、纹理及其他像素统计特性,强调的是同 一对象内部特征的相似性,代表性算法如区域生长法;基于边缘的图像分割技术 强调的是不同对象间的特征不连续性,利用梯度信息确定目标的边界并j 下确划分 这些区域的分界线,代表性算法如基于形变模型的方法。 区域生长法( r e g i o ng r o w i n g a l g o r i t h m ) 首先选中种子点或圈定种子区域,然 后根据图像的灰度、纹理及边缘信息将与初始点同属于一类的点归为一起。区域 生长法虽然计算简单,但对噪声敏感,而且需要人工交互的方式获得种子剧。 基于形变模型( m o r p h a b l em o d e l ) 的方法目前被广泛应用于医学图像分割领 域。形变模型包括形变轮廓模型( s n a k eo ra c t i v ec o n t o u r ) 和三维形变表面模型。 基于形变模型的方法利用内能和外能的作用使轮廓益线向物体的边缘靠近,其中 外力的作用是推动轮廓运动,内力则可以使轮廓保持光滑性。这种方法可以更有 效地利用三维数据,并且很少需要人工交互的指导,并对噪声有较强的鲁棒性瞵j , 但是形变模型的方法对初始位置敏感,且参数的选择需要人工的干预。 1 2 支持向量机技术的发展 v a p n i k 于1 9 9 5 提出的支持向量机是建立在统计学习理论和结构风险最小化 原理基础上的一种机器学习算法,s v m 在样本模型复杂度和学习能力之间取一 种最佳折中的方法,并可以获得最好的推广能力【9 】。s v m 算法包含了凸二次规 划、m e r c e r 核、最大间隔超平面和稀疏解等多项技术,主要适用于小样本数据, 处理非线性和高维的机器学习问题。 s v m 在处理非线性问题时,首先通过非线性变换将样本数据映射到一个高 维空间,然后求其最大问隔的分类超平面,其中非线性变换是通过核函数的方法 来实现的。s v m 训练算法通过二次规戈o ( q u a d r a t i cp r o g r a m m i n g , q p ) 来求解线性 不等式约束问题,但是当样本训练集规模较大时会增加q p 求解的复杂度,而且 s v m 在二次型寻优过程要进行大量的矩阵运算,多数情况下,寻优算法占用算 法时问的主要部分。鉴于传统s v m 学习算法在大样本问题下遇剑的困难,改进 山东大学硕士学位论文 的s v m 学习算法也陆续出现,常见的有分解算法和变形算法。 s v m 分解算法由o s u n a 于1 9 9 7 年提出的,该算法将训练样本分为工作集和 非工作集两部分,将工作集作为样本集进行训练,在训练结束后,用训练得到的 决策函数对非工作集中的样本进行测试【l o 】。顺序最优化算法( s e q u e n t i a lm i n i m a l o p t i m i z a t i o n ,s m o ) 是o s u n a 分解算法的一个特例。它采用启发式的策略使工作 集规模降到了最小,并通过两个嵌套的循环来寻找待优化的样本。外循环的作用 是寻找工作集的第一个样本,样本选择的条件是违反k a r u s h k u h n t u c k e r ( k k t ) 最优化条件,在确定了第一个工作集样本之后,内循环便按照最大优化步长的原 则来选取工作集的第二个样本【】。s m o 算法的收敛速度很快,但在k k t 条件的 判断上消耗了大部分的时间。 变形算法可以产生具有某一方面优势的算法,它通过增加函数项、系数或变 量等方法来实现。目前,应用最多的变形算法是s u y k e n s 等人提出了最小二乘支 持向量机( l e a s ts q u a r e s s u p p o r tv e c t o rm a c h i n e s ,l s s v m ) 和国内台湾l i n 等人提 出了模糊支持向量机( f u z z ys v m ) 算法。l s s v m 将标准s v m 的线性不等式 约束变换为等式约束,从而大大提高了s v m 的求解效率【1 2 】。f u z z ys v m 方法根 据不同样本对目标函数的不同贡献率,对样本数据使用不同的惩罚系数,这样便 可以对含有噪声的样本赋较小的权值,从而减小噪声的影响【1 3 】。 当前对s v m 的研究方兴未艾,可以应用于模式识别、回归分析和函数拟合 等问题中1 1 引。但是,尽管s v m 有充足的理论优势,但是其相应的应用研究却比 较滞后,目前只有有限的实验研究报道,大多数属于仿真和对比实验【l 习。 1 3 本文研究工作的动机与意义 由于医学图像分割是获取影像图像中特殊器官或组织定量信息的重要手段, 并且应用范围也比较广泛,如病变组织的定位及诊断,计算机指导手术,解剖结 构的学习和医学图像的三维可视化等,所以医学图像分割技术受到越来越多的学 者的广泛关注【1 6 l 。 磁共振成像图像分割在医学图像处理领域中是一项非常重要且困难的问题, 分割后的图像可以帮助医生从形态学的角度诊断病情。除了临床医学的意义外, 磁共振图像分割还吸引了很多学者对图像处理算法的研究。对脑部基底节区以及 山东大学硕士学位论文 黑质核团中的几个微小区域( 如:帕金森病( p a r k i n s o n sd i s e a s e ,p d ) 主要发病区 域的尾状核、壳核和苍白球) 进行精确而稳定的分割是非常有意义的【1 7 j 。 由于支持向量机适合处理小样本数据,并且在非线性和高维的机器学习问题 中表现出了许多特有的优势,因此支持向量机非常符合脑部磁共振图像的分割要 求。近些年来,在国内外开展基于支持向量机的脑部m r i 图像分割研究逐渐增 多,也取得了一系列成果,但大多数学者都致力于对整个脑部大解剖区域( 如: 背景、脑灰质、脑白质、脑脊液、骨密质、脑肿瘤区域) 进行分割【1 8 , 1 9 , 2 5 1 ,很少 针对更微小的区域进行精细的分割研究。而本文分割的主要区域:尾状核、壳核 和苍白球都是较微小的区域,因此对其进行精确分割是一项有挑战性的工作。 本文探讨开展采用有监督的s v m 分类算法对尾状核、壳核和苍白球进行多 目标分类研究。为进一步降低支持向量机算法的计算复杂度,采用主成分分析和 粗糙集方法对提取的高维图像特征向量进行降维处理。因此,将支持向量机与磁 共振图像分割相结合,在理论研究和医学实际应用中都有着重要的意义。 4 山东大学硕士学位论文 第2 章基于统计学习理论的支持向量机算法 机器学习算法是当今智能研究的主题,机器学习算法是从已知样本中寻找规 律,然后按照这些规律对未知样本数据进行预测的一种智能算法。现有的机器学 习方法包括模式识别、神经网络等,而统计学是这些机器学习算法的重要理论基 础。由于传统统计学方法研究的样本数目是无穷大的,而在实际应用中的样本数 目往往是有限的,因此具有优秀理论基础的传统统计学方法在实际问题中表现得 不尽如人意。 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 相对于传统统计学而言是一 种针对有限数目样本的机器学习理论。从上世纪六、七十年代开始,v v a p n i k 等 人就开始致力于这方面的研究,并且随着s l t 理论的不断发展,该学习理论受 到越来越多的重视【2 0 】。同时,支持向量机理论是从统计学习理论上发展而来, s v m 成为继神经网络之后的又一研究热点,并有力的推动了机器学习技术的进 一步发展。 2 1 二分类支持向量机 支持向量机理论来源于数据分类问题,s v m 需要寻找一个满足要求的最优 分割平面( o p t i m a ls e p a r a t i n gh y p e r - p l a n e ,o s h ) ,使训练集中的点距离该平面尽 可能地远。s v m 是基于统计学习理论发展而来,优势在于处理小样本数据、非 线性及高维模式识别问题。对于线性不可分的数据,通过使用非线性映射算法将 低维输入空间下线性不可分的样本转化到高维特征空间中,使其线性可分【2 。 它基于结构风险最小化原则,在特征空问中建立最优分割超平面,使得s v m 学 习算法得到全局最优化,期望风险最小。 设模式集合 x , r ”由两类点组成,如果x j 属于第一类,则y ,= 1 ;如果 属于第二类,则y ,= l ,则构成样本集合d = k ,y , ,f = l ,2 ,3 ,n 。s v m 根据 结构风险最小化原则,构造出一个目标函数,使样本集合中的两类数据尽可能区 分开来。根据样本数据的特点,通常分为线性可分和线性不可分两种情况考虑。 山东大学硕士学位论文 2 1 1 线性可分 s v m 是从线性可分情况下的最优分类面发展而来的,对于数据集合d 能以 最小的误差被一个超平面w x + b = 0 分割,选择超平面的前提是两类数据之间 的间隔最大,这个超平面称为最优分割超平面,图2 1 为线性可分情况下的最优 超平面。 o o 舢俾肛丽 图2 一i 最优超平面图 如上图所示,h 是最优超平面,h 。,:分别是两类数据中距离最优超平面 最近点的平面。日。和日:之间的距离称为分类间隔,这两个平面通过的点称作支 i f i - 量( s u p p o r tv e c t o r , s v ) 。若使两类数据l 日j 隔最大,即需要l i 叫i 最小,则两类分 类问题可以描述为下述形式: 挑1 2 厶 s j y iw 誓+ 6 ) 1 ( 2 - 1 ) 在优化( 2 1 ) 式时,根据拉格朗日( l a g r a n g e ) 优化算法,把上述最优分类面问 题转化为其对偶问题。即在满足下列约束条件: 窆j ,成:0 ,口,o ,f - l ,2 ,23 ,棚( 2 - 2 ) i = 1 对口求解下列函数最大值: 一 q ) :兰盱丢窆叩幽y ,x i x j ) ( 2 - 3 ) i = 1 j = l 求解出l a g r a n g e 乘子口= ( q ,口。) 后,便可求出: w = 口j y ,一( 2 - 4 ) 厶一j jo b = y f w 。 ( 2 5 ) 其中,w 是最优超平面的法向量,b 是最优超平面的偏移阜:。对一个样本x 来 6 山东大学硕士学位论文 说,其最终分类函数为: 2 1 2 线性不可分 丹 g ) = e y ,g x i ) + b i = l ( 2 6 ) 在低维空i 司内,当一个超平面不能把两类点完全分开时,司以引入松弛变量 缶佬0 , i = l ,2 ,甩) 和惩罚因子c 0 。其中,松弛变量表示允许分类的误差, 而惩罚因子用来约束分类的误差,c 越大则允许的分类误差越小,反之允许的分 类误差越大。此时,二分类问题变为下述形式: m i n 扪2 + c 警n弘7 ) s f y i ( w “) + 6 ) l 一每 在处理线性不可分的情况时,通过函数妒把训练样本葺映射到高维特征空 间,从而使支持向量机在高维特征空间中找到具有最大分类间隔的最优超平面 2 2 】 o 在此引入核函数概念,把k ,_ ) = 矽“y 矽g ) 称为核函数。核函数实际上 是通过一种内积运算把低维空间线性不可分样本转化到高维空间使其线性可分, 由泛函的相关理论可知,如果一种核函数满足m e r c e r 条件,那么该核函数就对 应某一变换空间中的内积2 3 1 。在本实验中用的是径向基核函数( r a d i a lb a s i s f u n c t i o n ,v a 3 f ) ,形式如下所示: 屯b x p 一学 仁8 , 而此时的对偶问题变为下列形式: 如) :窆口,一妻窆口一y 幽k g ,一) ( 2 - 9 ) 约束条件为: y f 口f = o ,o a f c ,i = l ,2 3 ,甩 ( 2 - 1 0 ) 在解决拉格朗同问题时,利用二次规划方法。通过q p 方法求解出来的拉格 朗同乘子记作口? ,每个口? 对应一个样本,这些数据点便是决定o s h 的s v 。o f ? 对应的数据点所属类别为y ? ,则o s h 的参数b 表示如下: b + :j ,卜窆y j 口江g j ) ( 2 1 1 ) 山东大学硕士学位论文 相应的分类判别函数为: 其中,n s v 为s v 的个数。 2 2 参数优化 s ( d = s 印( 鬈西y ,k ( 畸,工) + 6 ) ( 2 1 2 ) = s 印l 西以k k ,工) + 6 j ( 2 由上面可知,用支持向量机解决线性不可分问题涉及到两个参数,一个是惩 罚因子c ,另一个是径向基核函数的参数y 。关于参数优化的方法没有一种固定 的理论方法。台湾的李智仁教授提出一种直接而且有效的网格搜索方法来优化参 数,此方法使用k 倍的交叉验证方法( k 。f o l dc r o s sv a l i d a t i o n ,k c v ) 来选取正确 分类率最高情况下的最优参数对( c ,y ) 2 4 】。然而,在k c v 方法中要对参数对设 置范围,由于针对不同的问题参数的范围可能不同,所以在此采用试凑法来确定 参数范围。 2 2 1 试凑法 试凑法源于穷举法,在s v m 模型及核函数确定后,先对惩罚因子和核函数 参数设定范围,然后开始测试,根据测试精度重新调整参数值,直至得到最满意 的精度为止。 参数值的大小对训练结果有很大影响,但它的最佳取值与具体问题有很大的 关系。通过实验可以看出,随着参数值的增高,测试精度开始增加,高出一定值 后开始下降,与此同时,随着c 的增加,s v 的个数随之减少。当训练样本数量 较大时,测试精度对c 不敏感,样本数量少时,对c 的依赖性较大。 尽管试凑法是凭经验调整,理论依据不够强,针对不同的核函数,调整的方 法也可能不同,但是它是目前比较常用而且行之有效的一种参数优化方法。 8 山东大学硕士学位论文 2 2 2 交叉验证法 交叉验证( c r o s sv a l i d a t i o n ,c v ) 法最初应用于验证分类器性能的好坏,其基 本思想是:首先对原始样本分组,一部分作训练集( t r a i ns e t ) ,剩余的样本数据 做验证集( t e s ts e t ) ;用训练集对分类器进行训练,之后用验证集对训练得到的模 型进行测试,其测试结果作为分类器性能的指标。常用的交叉验证方法有以下三 种: ( 1 ) h o l d o u tm e t h o d h o l d o u tm e t h o d 是交叉验证所有方法中最简单的一种方法,只把原始数据 随机分为两组即可。从严格意义上分析,此种方法并没有体现交叉的思想。由于 分组的随机性干扰了最后验证集的分类准确率,所以h o l d o u tm e t h o d 得到的结 果并不具有说服性。 ( 2 ) k - f o l dc r o s sv a l i d a t i o n 将原始数据平均分成k 组,将每个子集数据分别做一次验证集,其余的k 1 组作为训练集。然后将这k 次验证结果的平均数作为此k c v 分类器性能的指 标。k - c v 方法的优点是可以避免发生过学习和欠学习的现象,结果比较有说服 性。 ( 3 ) l e a v e - o n e o u tc r o s sv a l i d a t i o n ( l 0 0 一c v ) 相对于h o l d o u tm e t h o d 和k c v 方法而言,l 0 0 c v 的特色之处在于让每 个样本都作为一次验证集,剩余其他样本作为训练集。正因为l 0 0 c v 方法中 训练集的样本最接近于原始样本,所以其验证结果比较可靠。此外,实验过程中 没有随机因素的干扰,因此最后的实验结果比较稳定。但是l 0 0 一c v 方法计算 量太大,往往消耗很多时间,特别是原始样本数目相当多时,这种方法不可取。 s v m 的训练阶段就要耗费大量的时间,因此本文中采用的k c v 方法,k 的值设为6 ,实验结果如图2 2 所示。实验结果表明,采用k c v 的方法,既减 少了计算量,节约了运算时间,又保证了分类正确率。 9 山东大学硕士学位论文 i o g z c 图2 - 2 k 倍交叉验证图 综上所述,在分割m r i 图像中的尾状核、壳核和苍白球区域时,采用s v m 方法及选用径向基核函数,运用试凑法来确定参数范围,使用k 倍的交叉验证 方法来确定最高正确率下的最优参数对( c ,y ) 。这种研究过程既具有理论依据, 实验结果也比较理想。 1 0 山东大学硕士学位论文 第3 章基于多分类支持向量机的脑部m 砒图像多目标分割方法 本文研究的分割对象是大脑磁共振成像图像。m r i 图像是利用核磁共振原 理,依据粒子所释放的能量在物质内部不同结构环境中不同的衰减,通过夕b ;0 1 梯 度磁场检测所发射出的电磁波,即可得知构成这一物体原子核的位置和种类,据 此可以绘制成物体内部的结构图像。脑部区域的尾状核、壳核及苍白球是帕金森 病的主要发病区域,对其做精细而准确的分割在医学上有着重要的意义。 脑部m r i 图像的轮廓及形状都非常复杂且不规则,这对于传统的分割算法 是一个很大的挑战。本课题深入研究m r i 图像的特征,提取代表图像特征的多 维向量,并分别用粗糙集和主成分分析的方法对高维特征向量进行优化。分割方 法方面,在二分类支持向量机的基础上研究多分类支持向量机,进而实现对脑部 m r i 图像尾状核、壳核和苍白球的准确分割。 3 1 多分类支持向量机算法 s v m 最初用于二分类问题,把s v m 扩展到多分类问题通常有两种方法。一 种是通过求解大规模的q p 矩阵来解决多类分类问题,但是由于矩阵维数过高, 计算量大,这种方法往往不可取;另一种是由若干个两类分类器组合起来而构成 一个多类分类器,几种常用多类分类方法描述7 l i :l - - f t 2 5 1 : ( 1 ) 一对多方法 该方法将一个k 类分类问题转化为k 个二分类问题,其中第f 个分类器的训 练规则是:将属于第f 类的样本视为正类,其余所有样本视为负类。但是当样本 数据类别数较大时,某一类的样本数目相对于其他类的样本数总和来说太少,这 种不均衡现象会对分类精度产生影响,并存在决策盲区。 ( 2 ) 一对一方法 该方法将一个k 类分类问题转化为k ( k 1 ) 2 个二分类问题,其中第i 分类器 只是由i ) i l 练集中属于两分类的数据训练而得到的。在测试时,对于一个训练样本 x ,该方法是用投票原则对其进行分类。对于每个分类器,如果判决x 属于第i 类, 则给第i 类的得票数加一,否则第类的得票数加一,样本属于最终得票数最高 山东大学硕十学位论文 的那一类。“一对一 方法的训练精度比“一对多 方法高,推广能力强。但存 在计算量过大,误差累积的缺点。 ( 3 ) 二叉树方法 二叉树方法首先把原始数据分为两个子类,然后再把每个子类划分为两个子 子类,如此进行,直至划分出最终类别。每次划分为两类分类问题的规模逐级下 降,这样得到一个倒立的二叉树。在二叉树方法中,每个决策点用s v m 实现分 类,对于k 类问题,需构造k 1 个分类器。二叉树分类的优点是不存在不可分 区域,分类时不需要遍历所有的分类器。但是二叉树分类结构也存在着误差累积 问题,同时二叉树的结构对其推广能力影响也很大。怎样确定一个较好的二叉树 结构式是当前学者研究的一个热点。 ( 4 ) 有向非循环图( d i r e c t e da c y c l i cg r a p h ,d a g ) 该方法将多个两类分类器组合成多类分类器,在训练阶段与“一对一 方法 相同,对k 类问题,d a g 有k ( k 1 ) 2 个二分类器,但是在决策阶段使用从根节 点开始的有向非循环图。如下图3 1 所示,给定一个测试样本,从根节点开始根 据分类器的输出值决定其走左侧或者右侧路径,如此进行,一直到叶子节点为止, 得到样本所属类值。此方法优点是误差只取决于类数k 和节点上的类间隔,而 与输入空间的维数无关。 综合以上各种多类分类器的优缺点,加之本实验需要对高维特征向量进行降 维处理,而d a g 方法不受输入空间维数的影响,因此,本次实验中选用d a g 方法,来分割尾状核、壳核和苍白球以及背景区域四类数据。 图3 1 有向作循环结构图 山东大学硕士学位论文 3 2 特征向量提取 除去设计的分类器外,分割结果还取决于从m r 图像中提取的特征向量。 从目标图像区域中提取特征向量作为s v m 的训练样本,特征向量的选取直接影 响了分类的准确性。本实验中使用图像纹理特征和图像灰度特征作为特征向量。 图像纹理特征是局部统计特征的综合,某一位置的纹理特征与它周围的灰度 变化密切相关,所以使用图像的局部统计特征对m r i 图像进行分割可以获得较 好的分割结果。常用的三种纹理描述方法有:统计法、结构法和频谱法。在统计 法中,使用直方图的各阶矩或区域灰度共生矩阵来提取图像的特征向量;结构法 是根据图像纹理基元及其排列规律来描述图像特征;频谱法是利用傅里叶频谱特 性来描述周期图像模式的方向性。因为统计法更适用于微观纹理图像的分割,并 且m r i 图像表现为微观纹理特征,所以,在m r i 图像分割中一般采取统计法来 提取其图像特征向量。 灰度共生矩阵是图像灰度关于方向、相邻间隔和幅度变化的综合统计信息。 在本次实验中,采用图像灰度共生矩阵分别从四个方向( o 。,4 5 。,9 0 。,1 3 5 。) 按照7 7 的窗口大小提取1 3 个描述图像纹理特征的统计量。其中,常用的图像纹理特征 统计量有角二阶矩、对比度、熵、相关性、方差及反差矩等2 6 1 。设p 。为图像灰 度矩阵第f 行,列的元素,由灰度共生矩阵提取的几个主要的统计量介绍如下。 角二阶矩: z = b 户 对比度: ii(3-1) 伽e ,e ,( 一疗p ,( 3 - 2 ) 熵: z = 一岛1 。g 慨) ( 3 - 3 ) 相关性: 妇,一以以 六= 二一 ( 3 4 ) o x o y 其中,以,1 y ,o x ,仃,分别是n ( f ) ,p ? 0 ) 均值与方差,n g 为图像的灰度级。 n 2 p g ) 2 善p i , ( 3 5 ) 山东大学硕士学位论文 方差: 反差距: n p y o ) = 岛 i = 1 六= 够一) 2 鳓 i j 以。莩莩南旁, , o 、, ( 3 6 ) ( 3 7 ) ( 3 8 ) 其中,角二阶矩描述图像均匀性。对比度即是共生矩阵差分矩,描述图像的对比 度。熵描述图像中纹理变化的复杂程度,也反映出图像灰度的变化特性。相关性 度量图像的线性相关性。方差反映图像灰度变化的波动情况。反差距反映图像纹 理的频谱特性。 除去由灰度共生矩阵提取的图像纹理特征外,本文还采用了以下的图像灰度 特征向量:区域内某一点的像素灰度值,平均灰度值,2 2 模块的平均灰度值、 标准差,2 2 模块和3 3 模块的标准差,总共形成5 8 维特征向量。 3 3 降维处理方法 从m r i 图像中提取的5 8 维特征向量一般具有相关性和冗余性,在很大程度 上影响了分割速率。在此,采用主成分分析和粗糙集方法进行约简属性处理,结 果显示在保证分类效果上下浮动很小的情况下,可以大大减少总的数据量,并使 学习机器的设计更为容易,分类速度得到提高,具体的降维效果将在第4 章中介 绍。 3 3 1 主成分分析算法 在很多实际问题中,代表问题模型的特征向量有很多,而且不同的特征向量 之间有着一定的相关性。高维的特征向量必然会增加问题处理过程中的时间消耗 和空间复杂度,特征向量之间的这种相关性也会导致信息重叠。因此希望找到一 种方法,可以使用较少的特征向量来描述问题,而且各个特征向量之问相互独立。 主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 便是这样的一种多元统计的分析 方法,主要应用于数据压缩和数据降维。 p c a 的主要原理是对一组相关的变量进行正交变换,得到一组与测量空间t 1 4 山东大学硕士学位论文 维数相同却彼此互不相关的变量,即得到一组独立变量。最后,根据实际需要或 者根据各个主成分对问题的贡献率来选取一组尽可能反映原问题信息的,维数较 少的综合特征向型2 7 1 。p c a 特征提取的过程表现为从原始数据的测量空间尺一到 新的特征空i 司r ”映射。设样本数据嘞x ,其中i 2 l ,2 ,m 为样本数目, j = l ,2 ,n 为特征向量维数。主成分分析算法的主要步骤如下【2 8 】: 首先,对数据进行无量纲化: 儿:三丛y ( 3 9 ) 其中,刁= 万1 荟mb 是各维特征向量的均值,旷丽是各维特征向 量的标准差。 第2 步,计算y 的协方差矩阵s : 只= 专善j y = 阮,鹑,死】r ( 3 1 。) s = 专【y 一- l i y 一_ l r ,l = n ,1 1 。( 3 - 1 1 ) 第3 步,根据特征方程( 九i s ) v = 0 ,求s 的特征根九和特征向量l l 。然后将 久由大到小排列:五如厶,找到与之对应的特征向量“: 甜,= k 驴“:,“何j ,j = l ,2 ,n 。由公式推导可以看出,协方差矩阵s 的特征 向量i l 即是主成分系数,它的特征根九就是主成分的方差。 第4 步,计算主成分z ,: z j 。y i l u l j + y i 2 u 2 + + y f j v u n j ,= 1 ,2 ,p n ( 3 1 2 ) 第5 步,p 值的选取是根据实际问题的需要,尽可能的使主成分最大程度地 包含原始信息量的最小值。主成分贡献率口j 和主成分累计彳贡献率求解如下: 口,:乃芝以( 3 - 1 3 ) 肚兰j = l 旷喜刍 b 4 , 么= 口,= f 3 1 4 、 户l j 、 口,值的大小表示第j 个主成分包含原始综合信息能力的强弱。彳表示前p 个主成 山东大学硕士学位论文 分包含的全部原信息的百分率。 3 3 2 粗糙集算法 粗糙集( r o u g hs e t s ,r s ) 理论是p a w l a k 教授于1 9 8 2 年提出的,它是一种用于 定量分析处理不确定、不一致、不完整信息的数学工具。粗糙集的一个很普遍的 应用便是属性约简,很多学者研究了不同系统下的属性约简的技术与方法。 s k o w r o n 提出的辨识矩阵的概念,已成为信息系统中寻找属性简约的主要工具 【2 9 1 。张文修等用类似的思想分别研究了不协调目标系统及不完备信息系统中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业信息化转型规划合同5篇
- 内部安全培训教学课件
- 校园网营销方案(3篇)
- 兴义餐饮安全培训课件
- 初中安全工作教师培训会课件
- 初中安全员培训课件
- 创维安全培训课件
- 8夜色 公开课一等奖创新教案(2课时)
- 3 天窗 公开课一等奖创新教案(2课时)
- 内燃机启动系统课件
- 清华大学实验室安全教育考试题库(全)
- 药物临床试验-阳国平-2017年
- GB/T 602-2002化学试剂杂质测定用标准溶液的制备
- GB/T 4074.8-2009绕组线试验方法第8部分:测定漆包绕组线温度指数的试验方法快速法
- 董关鹏-沈阳课件
- 大学生活从“心”开始
- 淄博市2020年度专业技术人员继续教育公需课考试题及答案
- 大运河前世今生课件
- 商务英语翻译实务完整版教学ppt课件全套教程
- 第五章__大数定律与中心极限定理
- 现代控制理论教案Word版
评论
0/150
提交评论