(电路与系统专业论文)基于bow模型与稀疏表示的乳腺肿块良恶性分类算法研究.pdf_第1页
(电路与系统专业论文)基于bow模型与稀疏表示的乳腺肿块良恶性分类算法研究.pdf_第2页
(电路与系统专业论文)基于bow模型与稀疏表示的乳腺肿块良恶性分类算法研究.pdf_第3页
(电路与系统专业论文)基于bow模型与稀疏表示的乳腺肿块良恶性分类算法研究.pdf_第4页
(电路与系统专业论文)基于bow模型与稀疏表示的乳腺肿块良恶性分类算法研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(电路与系统专业论文)基于bow模型与稀疏表示的乳腺肿块良恶性分类算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

型l 一l 掣i l l 1 2 i i o i l6ll1 6i i 9iil必ll 一 摘要 乳腺癌是一种严重威胁女性生命健康的恶性肿瘤,只有早发现早治疗才不会 错过治疗的最佳时机。而肿块作为乳腺癌的一种常见征兆,良性肿块与恶性肿块 在纹理、形态和边缘等方面的差异,使其成为医生在进行良恶性辨识时的重要依 据。因此,开发具有人工智能的乳腺肿块分类系统,对乳腺肿块的良恶性进行自 动分类,从而辅助医生诊断,无疑具有重要意义。 本文以词袋模型( b a go f w o r d s ,b o w ) 在图像处理中的应用为背景,较为深入地 研究了潜在语义主题模型l d a ( l a t e n td i r i c h l e ta l l o c a t i o n ) 以及稀疏表示( s p a r s e r e p r e s e n t a t i o n ) 的相关理论。针对肿块图像纹理和结构方面的特点,利用空间金字 塔匹配( s p a t i a lp y r a m i dm a t c h i n g ) ,提出了将图像空间金字塔匹配与语义主题模型 相结合的s p m l d a 方法以及空间金字塔匹配与稀疏表示相结合的s p m s c 两种 肿块图像特征提取方法。 在分类阶段,本文利用支持向量机( s v m ) 对乳腺肿块良恶性进行了分类实验。 实验结果显示,这两种特征提取方法均获得了良好的效果。针对使用空间金字塔 匹配方法带来的特征维数过高的问题,本文提出了一种基于r e l i e f f 特征选择算法 的特征降维方法,在保证分类精度的同时,降低了分类时间,提高了分类效率, 为大规模处理乳腺肿块图像奠定了基础。实验结果证明了本文提出的乳腺肿块分 类算法的有效性。 关键词:乳腺肿块良恶性分类l d as p ms c a b s t r a c t b r e a s tc a n c e ri so n eo ft h em o s tc o m m o nm a l i g n a n tt u m o rd i s e a s e sa m o n gw o m e n , w h i c hg r e a t l yt h r e a t e n sw o m e n sh e a l t h ap a t i e n tw i l ln o tm i s st h eb e s tt i m ef o r t r e a t m e n to r a yw i t he a r l yd e t e c t i o na n de a r l yd i a g n o s i s a sac o m m o ns y m p t o mo f b r e a s tc a n c e l , m a m m o g r a p h i cm a s si so n eo ft h em o s ti m p o r t a n te v i d e n c ef o rd o c t o r s d i a g n o s i s t h ed i f f e r e n c e so nt e x t u r e ,s h a p ea n dm 岫b e t w e e nb e n i g na n dm a l i g n a n t m a s s e sa l s om a k ei tv e r yi m p o r t a n te v i d e n c ef o rd i s t i n g u i s h i n gb e n i g nw i t hm a l i g n a n t t h e r e f o r e ,i ti su n d o u b t e d l ys i g n i f i c a n tt od e v e l o pa na r t i f i c i a li n t e l l i g e n c es y s t e mf o r a u t o m a t i c a l l yc l a s s i f y i n gb e n i g na n dm a l i g n a n tm a s s e s t h i sp a p e ri sb a s e do nt h es t u d yo fb a go fw o r d sa n di t sa p p l i c a t i o ni ni m a g e p r o c e s s i n g w i t hd e e p l ys t u d yo nl a t e n ts e m a n t i ct o p i cm o d e l ,l d aa n ds p a r s e r e p r e s e n t a t i o n , t h i sp a p e rp r o p o s e st w on o v e lf e a t u r ee x t r a c t i o nm e t h o d s ,s p m - l d a a n ds p m s c s p m l d ac o m b i n e ss p a t i a lp y r a m i dm a t c h i n gw i t hl d aw h i l es p m - s c c o m b i n e ss p a t i a lp y r a m i dm a t c h i n g 、7 i ,i t hs p a r s ec o d i n g f o rc l a s s i f i c a t i o n , s u p p o r tv e c t o rm a c h i n e ( s v m ) i se m p l o y e dt ol e a r nt h em o d e l s o fm a s sc l a s s e s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a t , s p m - l d aa n ds p m s ca l lh a v e g o o dp e r f o r m a n c eo nt h ec l a s s i f i c a t i o no fb e n i g na n dm a l i g n a n tm a s s e s t os o l v et h e p r o b l e mo fh i g hf e a t u r ed i m e n s i o n , t h i sp a p e rp r o p o s e sa f e a t u r ed i m e n s i o nr e d u c t i o n m e t h o db a s e do nr e l i e f fa l g o r i t h m e x p e r i m e n t a lr e s u l t ss h o wt h a tr e l i e f fs u c c e s s f u l l y p r o m o t e st h ec l a s s i f i c a t i o na c c u r a c ya n dm e a n w h i l er e d u c e st h et i m ec o n s u m i n g t h e e x p e r i m e n t a lr e s u l t si l l u s t r a t et h ee f f e c t i v e n e s so f t h ep r o p o s e da l g o r i t h m s m a m m o g r a p h i cm a s s c l a s s i f i c a t i o n o fb e n i g na n dm a f i g n a n t l d as p ms c 第一章绪论 第一章绪论 1 1 研究背景及意义 1 1 1 研究背景 随着人们生活水平的不断提高,人们越来越关注自身的健康问题。癌症,医 学术语亦称恶性肿瘤,被称为人类健康的杀手,而乳腺癌是女性中较为常见的恶 性肿瘤病之一。据资料统计【l 】,女性乳腺癌的发病率占全身各种恶性肿瘤的7 1 0 0 , 4 。 它的发病常与遗传有关,多见于1 5 5 4 岁的妇女中,绝经期前后的妇女发病率较高, 严重威胁着女性的生命和健康。在西方发达国家,乳腺癌的发病率和死亡率一直 位列女性恶性肿瘤前列。自2 0 世纪七十年代末开始,乳腺癌的发病率在全球范围 内一直位居女性肿瘤的首位,并且每年以2 的速度递增。全球每年有1 2 0 万妇女 患乳腺癌,5 0 万妇女死于乳腺癌。中国虽不是乳腺癌的高发国家,但近些年来随 着生活方式及饮食习惯的改变,我国乳腺癌的发病率也呈明显上升的趋势。由此 可见,乳腺癌已经成为一个全球性的健康问题,对它进行系统深入的研究刻不容 缓。 病人在乳腺癌早期的症状都不太明显,多数患者在乳腺癌的早期时候,常无 特别的自觉症状,多数为偶然发现的无痛性、单发的硬性小肿块,其表面不平、 不易运动、与四周组织分界不清。随着时间的推移,肿块渐渐增大,与肿块相连 的皮肤有凹陷,呈桔皮状【。科学证据表n 明1 2 1 早期诊断和预测可以很大程度地降低 乳腺癌的死亡率和发病率,同时可以提高病患治疗后的生活质量,减轻患者个人 以及社会的经济负担。因此,乳腺癌的早发现、早诊断和早治疗就显得尤为重要。 随着现代医学的发展,已有很多治疗方法用于早期乳腺癌的发现和治疗上, 如乳腺钼靶x 线摄影术、放射性核素临床诊断检查、红外线热显示法、液晶热像 图临床诊断检查法和超声波临床诊断检查等。其中,乳腺铝靶x 线片作为一种廉 价、无创伤的检查方法,因其产生的乳腺图像清晰、分辨率高、层次丰富,信息 量大,对普查乳腺疾病特别是乳腺癌早期的发现和病理诊断都有着重要的意义, 已成为目前早期乳腺癌诊断最为可靠和常用的手段【3 】。 1 1 2 研究意义 以往的乳腺癌诊断主要靠专业医师的人工诊断,而人工诊断对医生的从业经 验和专业知识都有很高的要求,而且易受阅片者的情绪以及疲劳阅片等主观因素 2 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 的影响。随着计算机技术以及人工智能技术的发展,计算机辅助诊断系统( c o m p u t e r a i d e dd i a g n o s i s ,c a d ) 成为临床辅助诊断发展的一个新趋势。计算机辅助诊断是 计算机辅助检测的延伸和最终目的,c a d 技术被称为医生的“第三只眼 ,采 用c a d 系统有助于提高医生诊断的敏感性和特异性。因此,有很多知名专家和学 者投入到了这一领域的研究中来,乳腺辅助诊断系统构建的相关算法也成为一个 研究的热点。 通常,一个完备的乳腺辅助诊断系统包括乳腺图像的预处理、病灶区域的检 测、病灶区域的分割以及病灶区域的分类等几大部分。本文主要进行了良恶性肿 块病灶的分类算法研究。常见的乳腺癌病灶有肿块和钙化点两种,而钙化点往往 伴随肿块发生。现有的乳腺检测分类算法基于钙化点的较多,而基于乳腺肿块相 关征象的检测分类算法尚缺乏深入而有效的研究。而实际上,存在钙化点的乳腺 癌只是很小一部分,而肿块才是绝大多数乳腺癌所共同拥有的特征。因此,基于 肿块相关特征的乳腺癌良恶性分类研究就显得很有意义。 1 2 1 乳腺图像分类研究 1 2 国内外研究进展及现状 乳腺肿块是绝大多数乳腺癌患者均包含的体征,阅片医生可以根据肿块形状、 边缘以及密度方面的特征来区分肿块的良恶性。肿块区域通常形态各异【4 j ,x 线片 中常见有圆形、卵圆形、分叶形和不规则形,其中不规则形态多为恶性表现,而 前三种形态则需要结合其他特征进行综合判断。此外,肿块区域的密度也是区分 肿块良恶性的重要特征。通常,恶性肿瘤的密度较正常腺体要高,而与脂肪组织 密度接近则为良性表现。如图1 1 所示,为一些典型的良恶性肿块实例图,其中前 四幅为良性肿块,后四幅为恶性肿块。 ( 1 , t 2 饼 (乃喁 图l - 1 良恶性肿块实例图 第一章绪论3 随着计算机技术的发展,计算机视觉、模式识别等技术被应用到乳腺图像的 分类研究领域中,实现了对乳腺图像的自动检测和分类。首先,通过对数字化的 乳腺图片进行去噪、增强等处理之后,使病灶区域得到增强,而背景区域相对减 弱,这样就可以使很多人眼不易观察到的细节信息尽可能地呈现出来,从而辅助 医生的治疗,并为我们进一步的特征提取做好铺垫。然后,就是提取乳腺图像的 相关特征,其特征可以是形状特征、纹理特征或灰度特征等。最后,对特征应用 一些识别算法进行诊断分类。常用的分类算法有神经网络法、模糊聚类法、支持 向量机等。 支持向量机【5 ( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一种在样本数有限的情况下也 能进行高效分类的算法,它的决策函数与样本的维数无关,在解决非线性、小样 本问题上有独特的优势,在理论上具有突出的优势。本文尝试将支持向量机技术 应用到乳腺肿块良恶性分类识别当中,并取得了良好的效果。 1 2 2 基于模式识别技术的乳腺肿块分类研究现状 模式识别 6 ( p a t t e r nr e c o g n i t i o n ) 是指对表征事物或现象的各种形式的信息进行 处理和分析,并对事物或现象进行描述和分类的过程。模式识别又称模式分类, 是人工智能领域的重要学科分支。 从解决问题的方法上来讲,模式识别分为有监督的分类和无监督的分类两种。 有监督的分类是指已经得到了某种形式的样本信息及属性,通过样本分类器对已 知类别的训练样本进行学习,使其得到样本的属性信息,然后再用分类器测试未 知类别的测试样本。而无监督的分类是指在预先没有样本信息的情况下,对事物 进行区分和分类。一般来说,有监督分类往往要提供大量已知类别样本,而训练 样本是否具有广泛性和代表性将直接影响到分类器训练的好坏。本文中采用了有 监督分类的方法。 模式识别的方法1 6 j ,有数据聚类、神经网络、统计分类和结构模式识别。用于 图像识别的方法主要分为决策理论和结构方法。本文主要采用了决策理论的方法。 输入的乳腺图像先进行预处理,随后经过特征提取、特征分析,最后进行分类( 如 图1 2 ) 。可以看出,特征分析在模式识别过程中占据着十分重要的地位,本文就是 分别采用了基于潜在语义主题分析和稀疏表示的特征分析方法,使分类器的决策 速度和精度都得到了较大提高。 图1 2 模式识别分类流程图 4 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 h e j a 一7 j 等人通过对乳腺x 线图像进行形态学处理,首先将形态学算子和区域 生长相结合,得到疑似肿块区域的范围,然后再根据所提取的基于边缘的灰度特 征,或者区域形状特征,设计不同的分类规则,采用基于规则的分类方法将疑似 肿块区域分为良性、恶性肿块区域,以及正常区域。 m a r t i n s t 列等人使用灰度共生矩阵来对感兴趣区域陬i o no f i n t e r e s t ,r o i ) 进行 纹理分析和特征提取,在灰度共生矩阵的基础上,再联合图像的对比度、不变矩、 熵和能量进行表示,然后使用前向选择的方法进行特征选择,并使用贝叶斯神经 网络的方法来对正常组织、良性和恶性肿块进行分类,取得了良好的效果。 。f e r r e 耐9 】等人将多分辨分析方法引入到了肿块区域的检测过程中,他们首先 对乳腺x 线图像进行离散小波变换( d i s c r e t ew a v e l e tt r a n s f o r m ,d w t ) ,然后对离 散小波变换下的变换系数进行挑选作为特征,然后使用k 近邻分类器对正常组织、 钙化点病灶和肿块区域进行分类,也取得了不错的分类效果。 这些方法都为肿块区域的自动检测和识别开辟了新的研究思路,并且取得了 一些进展。然而,现有的特征分类方法,大多需要针对不同的肿块类型采用不同 的特征来描述其统计特性,这就大大增加了算法设计和实现的复杂度。 2 0 0 5 年,l if e i f e id o 将文本分类中经典的词袋模型( b a go f w o r d s ,b o w ) 弓i 入 到了图像场景分类当中,并取得了很好的效果。随后,e r k a n gc h e n g 1 1 】等人将b o w 模型用到了乳腺图像病灶区域与正常区域的分类上,并采用直方图交叉核进行 s v m 分类,取得了良好的效果。在b o w 模型基础上,以p l s a ( p r o b a b i l i s t i el a t e n t s e m a n t i ca n a l y s i s ) 1 1 2 】和l d a ( l a t e n td i r i c h l e ta l l o c a t i o n ) 1 3 】为代表的语义分析模型 也在图像场景分类当中取得了良好的效果。a n n ab o s c h 1 4 】等人使用p l s a 模型对不 同密度的乳腺图像进行分类,并且取得了不错的分类精度。 结合肿块图像纹理结构的特点,本文提出了一种将l d a 和空间金字塔匹配 ( s p a t i a lp y r a m i dm a t c h i n g , s p m ) t ”】相结合的区域潜在语义特征提取方法和一种将 空间金字塔匹配与稀疏表示( s p a r s er e p r e s e n t a t i o n ) 相结合的肿块图像表示方法,对 乳腺肿块图像进行分类。与直接使用b o w 模型相比,无论是算法的实时性还是分 类的准确性,都得到了有效的提升。 1 3 测试数据库简介 本文所有实验数据均来自于乳腺x 线图像数据库,d d s m 数据库【1 6 ( d i g i t a l d a t a b a s ef o rs c r e e n i n gm a m m o g r a p h y ) 。作为一个乳腺x 线图像开放数据库,d d s m 主要用作研究者们对乳腺癌的影像学表现进行分析和研究。 d d s m 数据库中包含约两千五百个病例,其中每个病例包含四幅乳腺x 线图 像以及一个包含了病变区域轮廓的o v e r l a y 文件。这些乳腺x 线图像均为经由专家 第一章绪论 5 诊断和标注过的图像,o v e r l a y 文件中包含了病变区域的类型和专家所标记的包含 病变区域在内的感兴趣区域的边界的信息,然后我们通过专家标记的轮廓边界截 取出乳腺肿块图像,如图1 3 所示。肿块区域的直径通常大于l c m ,在图像中大约 为2 0 0 个像素以上,因此,我们截取出来的肿块图像大多都在3 0 0 5 0 0 像素之间。 我们的实验数据图像要求肿块尽可能位于图像的中央位置,且肿块图像以尽可能 少地包含周边正常组织区域为宜,以避免正常组织区域的纹理信息干扰我们对的 肿块特征的提取。我们总共随机选取了6 0 0 幅乳腺肿块图像( 其中良性肿块和恶性 肿块各3 0 0 幅) 来作为我们的实验数据。 图1 3 通过专家标记的轮廓边界截取出乳腺肿块示意图 1 4 论文研究成果与安排 本文基于国家自然科学基金面上项目“基于d i r e c t i o n l e t s 与半监督学习的乳腺 图像奇异性检测”,结合多种图像特征提取技术和模式识别技术,对乳腺肿块图 像良恶性分类方法做了深入研究。 本文在总结和分析了现有的乳腺肿块计算机辅助诊断方法的基础上,结合计 算机视觉、图像检索和图像场景分类领域的新思想和新方法,研究并构建了乳腺 肿块良恶性分类系统,取得的创新性成果如下: ( 1 ) 针对乳腺肿块的纹理和结构特点,将空间金字塔匹配( s p a t i a lp y r a m i d m a t c h i n g ,s p m ) 方法应用于乳腺肿块图像的表示,并结合b o w 词袋模塑,提取肿 块图像的空间金字塔匹配b o w 特在e ( s p m - b o w ) ,实验结果表明,该特征能够取 得较好的良恶性分类效果 针对恶性肿块多具有不规则形态、星芒状边缘和较高密度等特点,我们采用 了对肿块图像进行空间金字塔分块的区域生成策略,分别在整幅肿块图像、肿块 6 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 图像的1 4 子区域和1 1 6 子区域去提取b o w 特征,然后将各个子区域的b o w 特 征以一定的权值连接起来,从而得到肿块图像的s p m b o w 特征。实验表明,该 特征取得了良好的良恶性分类效果。 ( 2 ) 在深入研究了潜在语义主题模型l d a 的基础上,将其应用于乳腺肿块的 良恶性分类当中针对l d a 模型缺乏空间信息的缺陷,提出了将空间金字塔匹配 与l d a 主题模型相结合的特征提取方法( s p m l d a ) ,并取得了良好的分类效果 为了获得更好的肿块分类性能,本文将潜在语义主题模型l d a 引入了乳腺肿 块图像的特征提取,l d a 是一种建立在b o w 模型基础上的特征降维方法,通过引 入一个潜在语义维,使用概率生成模型将图像的高维b o w 表示映射到低维的语义 主题空间表示。同时,为了弥补l d a 空间信息方面的缺陷,将空间金字塔匹配与 l d a 相结合,进一步提升了分类精度。 ( 3 ) 系统研究了稀疏表示的相关理论,提出了将空间金字塔匹配与稀疏表示 相结合的特征提取方法s p m s c ,并利用r e l i e f f 特征选择算法对特征进行选择和 降维,在缩短分类时间的同时有效提高了分类精度 在对肿块图像进行空间金字塔分块之后,针对图像块具有视觉稀疏性这一特 点,对图像区域中的s i f t 特征进行稀疏编码并在各子区域进行最大池映射,从而 得到各个子区域的稀疏特征表示,并将各个子区域的稀疏特征连接起来,形成 s p m s c 特征,该方法在肿块良恶性分类实验中取得了很好的效果。随后,在深入 研究了r e l i e f f 特征选择算法的优越性之后,利用r e l i e f f 算法对四种特征进行了 特征选择和降维,迸一步减小了冗余。实验结果表明,降维后的特征使分类精度 有不同程度的提高。 本文的主要章节内容安排如下: 第一章:介绍了乳腺肿块良恶性分类的研究背景和研究意义,以及基于模式 识别技术的乳腺图像分类现状,并阐明了本文研究工作的意义、成果和内容安排。 第二章:介绍了b o w 词袋模型的原理和基本算法流程。重点介绍了s i f t 特 征的相关算法,并针对乳腺肿块图像进行b o w 模型建模,提取肿块图像的b o w 特征。然后,介绍了支持向量机的基本原理,并进行了初步的分类实验。 第三章:深入研究了潜在语义主题模型l d a 的原理和建模方法。提出了将空 间金字塔匹配与潜在语义主题相结合的特征提取方法s p m l d a ,在通过实验求得 最优的主题个数之后,对乳腺肿块进行了良恶性分类实验,并取得到了良好的分 类结果。 第四章:在研究了稀疏表示的相关理论之后,提出了一种将空间金字塔匹配 与稀疏表示相结合的特征提取方法s p m s c ,并在良恶性分类实验中进一步提高了 分类精度。随后,针对使用s p m 方法带来的特征维数较高的问题,在深入研究了 r e l i e f f 特征选择算法的优越性之后,利用r e l i e f f 算法进行了特征选择和降维,减 第一章绪论7 小了特征中的冗余。实验结果表明,降维后的特征使分类精度和分类速度均有不 同程度的提高。 第五章:对全文的总结和展望,在简要回顾了本论文工作的基础上,对本文 的研究成果和存在的不足做了全面的总结,并对未来的研究工作进行了展望,指 出了后续的研究方向。 8 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 第二章基于b o w 模型的乳腺肿块分类 9 第二章基于b o w 模型的乳腺肿块分类 2 i 引言 由于乳腺肿块的形态各异、纹理特征复杂,如何提取有效特征进行肿块的分 类和识别成为一个棘手的问题。为此,我们引入了文本分类和计算机视觉领域的 一种非常有用的模型,即b o w 模型。该模型将图像看成是视觉单词的集合,而所 有视觉单词构成了字典。由于视觉单词具有代表性和区分性,因此这样得到的特 征库具有很好的鲁棒性并能抵抗一定的噪声。然后我们再去提取每一幅图像的特 征并进行特征量化,得到图像在字典上的表示,从而以此为特征对图像做进一步 的分类。 2 2 ib o w 模型简介 2 2b o w 模型 b o w ( b a go fw o r d s ) 模型,即词袋模型,是应用于自然语言处理和信息检索中 的一种简单的假设。在这个模型中,一篇文章被表示成一组无序的单词的集合, 这些单词之间不考虑语法和词序。所有文章中所出现过的单词被收集到一起,形 成一本字典,而每篇文档则如同一个袋子,里面包含着文档中出现过的单词及其 出现的频率。词袋模型虽然简单,但在文档分类方面却很有效。其与s v m 分类器 相结合,取得了非常好的分类效果。 b o w 模型在文本分类中的成功应用,也引起了计算机视觉领域研究者们的关 注。当在图像中提取了大量的局部区域特征后,就需要寻找一种有效的模型来对 图像进行描述。为此,研究者们采用类似于文本分类中b o w 模型的思路来表示图 像。将b o w 模型应用于图像的建模通常包括三个步犁 】: 1 特征检测 特征点检测是最为常用的特征检测方法,它试图从图像中检测到一些含有较 多有用信息的区域,如边缘、角点等,一些著名的检测算子,如h a r r i s 仿射区域 检测算子【1 3 1 ,d o g 检测算子【1 明和k a d i rb r a d y 显著检测算子等【2 0 】,都已经被应用 于图像特征检测中。然而,如果图像比较平滑,边缘和角点信息不够丰富,那么 特征点检测的方法将只能得到很少的特征,这将不利于特征的提取。栅格化方法 是最为简单也是最为有效的特征检测方法【i o 】,这种方法是将图像用水平和垂直线 1 0 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 均匀分割,从而得到若干局部块,然后在这些局部块中提取特征。此外,随机采 样【2 1 1 、分割方法等 2 2 1 ,也常见于各种特征检测方法中。 2 特征描述。 在特征检测之后,我们将得到一些局部块状小区域,然后用一个特征向量来 对这些小块进行表示,提取出的特征向量则被称为特征描述子。目前,最常用的 一种特征描述子即为s i f t ( s c a l e i n v a x i a n tf e a t u r e 衄s f 0 姗) 描述子【1 9 1 ,本文即采用 了该特征描述子。 3 生成字典 在得到局部块状区域的特征描述子之后,我们需要将其转换为视觉单词,即 生成字典。目前应用最为广泛的字典生成方法是对所有图像中提取的特征向量进 行k 均值聚类田】,聚类之后所得到的所有聚类中心的集合,就被定义为字典,而 聚类中心的个数决定了字典的大小。 2 2 2s i f t 特征 s i f t 算法是一种提取图像局部特征的算法,由d a v i d g , o w e 于1 9 9 9 年提出, 2 0 0 4 年完善总结。一幅图像s i f t 特征的提取包括4 步:尺度空间极值检测、关键 点位置及尺度确定、关键点方向确定、特征向量生成。 1 尺度空间极值检测 尺度空间【2 4 1 理论是检测不变特征的基础。w i t l d n f 2 4 1 提出了尺度空间理论, k o e n d e r i n k 把这种理论扩展n - 维图像,并证明高斯卷积核是实现尺度变换的唯 一变换核。二维高斯函数定义如下: g ( x ,y ,仃) = i p 。 ,打2 z 加 ( 2 1 ) 一幅二维图像,在不同尺度下的尺度空间表示可由图像与高斯核卷积得到: l ( x , y ,仃) = g ( x ,y ,仃) ,( 毛y ) ( 2 2 ) 其中,伍力是空间坐标,符号表示卷积, 力代表图像的像素位置,仃是尺 度空间因子,值越小表示图像被平滑的越少,相应的尺度也就越小。 为了高效地在尺度空间内检测出稳定的特征点,l o w e 使用尺度空间中d o g ( d i f f e r e n c eo fg a u s s i a n ) 极值作为判断依据。d o g 算子定义为两个不同尺度的高斯 核的差分。设k 为两相邻尺度间的比例因子,则d o g 算子定义如下: d ( x ,y ,o r ) = ( g ( 而少,k a ) - g ( x ,y ,仃”,( x ,力 = l ( x , y ,k c r ) 一三( x ,y ,仃) ( 2 3 ) 第二章基于b o w 模型的乳腺肿块分类 1 1 s i f t 算法中的图像金子塔共有o 组,每一组有s 层,每组层与层之间是平滑 的关系,下一层图像由上一层图像平滑得到,而组与组之间是采样的关系,下一 组图像由上一组图像降2 采样得到。如图2 1 所示: 图2 1 图像金字塔的构建 d o g 空间是在图像金子塔的基础上建立的,我们用高尺度下的图像与相邻低 尺度下的图像做差,从而得到高斯差分尺度空间。图2 2 是高斯差分尺度空间的构 建示意图: 图2 2 高斯差分尺度空间的构建 在得到图像的高斯差分金子塔之后,进行高斯差分尺度空间的极值点检测, 以初步确定关键点的位置和尺度,如图2 3 所示: 尺度 图2 3d o g 尺度空间局部极值检测 1 2 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 图中标记为x 的像素点,需要与同一尺度,上下相邻两尺度内的相邻的2 6 个 像素点进行比较,以确保检测到的像素点在二维图像空间和尺度空间均为极值点。 2 关键点位置及尺度确定 由于d o g 算子会产生较强的边缘响应,因此需要精确确定关键点的位置和尺 度,去除不稳定的边缘响应点,以增强特征匹配的稳定性、提高抗噪声能力。 边缘响应点在横跨边缘的方向主曲率较大,而在垂直边缘的方向主曲率较小。 求得特征点处的h e s s i a n 矩阵后,主曲率可以通过该点的h e s s i a n 矩阵日求出: 如隐乏 。2 卸 日的特征值a 和p 代表x 和y 方向的梯度,主曲率和日的特征值成正比。 r r ( h ) = d 。+ d = 口+ p , d e t ( h ) = 儿一( ) 2 = 叩 但5 ) t r ( h ) 表示矩阵日对角线元素之和,d e t ( h ) 表示矩阵日的行列式。假设a 是 较大的特征值,而卢是较小的特征值,令a = ,p ,则 t r ( h ) 2 :鱼丛:鲤旦:巡 d e t ( h )筇印2 , ( 2 6 ) 上式在,- - 1 ,即两个特征值相等时最小;当r l 之后,随着,的增大而增大。 值越大,说明该特征点在某一个方向的梯度值越大,而在另个方向的梯度值越 小,那么该点就很可能是边缘点。所以为了剔除边缘响应点,我们只需要挑选出 该比值小于一定的阈值的特征点即可: t r ( h ) 2 1 ,其中离分类面最近的: 样本的lg ( x ) l = l ,这样分类间隔就等f 2 i lw i l ,因此,使分类间隔最大就等价于 使1 1w 2 2 最小。而要求分类线正确分类所有样本,则有: 只 ( w 。毛) + 6 】一l o ,f = l ,2 ,万 ( 2 1 0 ) 、 因此,满足上述条件且使i jw lj 2 最小的分类面就是最优分类面。h 1 和h 2 上的 训练样本点就称做支持向量( s u p p o r tv e c t o r s ) 。上述最优分类面的求解问题可以使, 用l a g r a n g e 乘子方法将其转化为如下约束优化问题,即在约束条件 只= o ,a ,o ,i = 1 ,2 , , i = l 【z 1 1 ) 下对a i 求解下列函数的最大值: q ( a ) = a 。一去a 。口,只乃( 五) i - 1 钆,- 1 ( 2 - 1 2 ) 为原问题中与每个约束条件相对应的l a g r a n g e 乘子。解上述问题后得到的 最优分类函数是: ( x ) = s g n 仅,咒( 毛x ) + 如 i = l 【2 1 3 ) 容易证明,解中将只有一部分q 不为零,其对应的样本就是支持向量。因此 式中的求和实际上只对支持向量进行。b 是分类阈值,可以用任意一个支持向量 求得。可以看出,要想求得最终的分类判别函数,只需求得待分样本与支持向量 的内积( 毛力以及与支持向量相对应的l a g r a n g e 乘子即可。 ! 8 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 一- 一 对于线性不可分情况下的分类问题,我们可以通过非线性变换将样本转换到 某个高维空间,然后在高维空间求最优分类面,如图2 1 1 所示。 , | | | | 一弋二啦一 , - 。 f 、 x 图2 i i 高维空间求最优分类面示意图 设有非线性映射西:专h ,将输入空间的样本映射到高维的特征空间h 中。当在特征空间h 中构造最优超平面时,训练算法将仅使用了高维空间中的点 积,即( 薯) 中( ) ,而没有单独的似薯) 出现。因此,若能找到一个函数k 使得 k ,) = ( 而) o ( ) 。这样,我们只需在高维空间中进行内积运算,而这种内 积运算是可以用原空间中的函数实现的。根据泛函的有关理论,只要一种核函数 k ( x t ,x ,) 满足m e r c e r 条件,它就对应某一变换空间中的内积。 因此,在最优分类面中采用适当的内积函数尺( 而,x j ) 就可以实现原本线性不 可分样本的线性分类,而计算复杂度却没有增加,此时目标函数变为: q ) = 一 a t a i 咒乃k ( 五x v ) ”1 二t , j = l ( 2 1 4 ) 相应的分类函数也变为 ( x ) = s g n a t * y , k ( x t - x ) + 巩 扭1 ( 2 1 5 ) 上面的方法是在保证训练样本全部被正确分类的前提下的,而在实际情况中, 样本的错分往往不可避免。我们可以通过引入正的松弛因子鲁来允许错分样本的 存在。这时,对样本集的约束条件变为: 只【( w 而) + 6 卜1 + 善o ,f = 1 ,2 ,刀( 2 - 1 6 ) 这样,就需要在目标函数中为分类误差添加一项代价函数,即引入错误惩罚 分量,所以目标函数就变为: ( w , ) = 钏wj 1 2 + c 磊 扭1 ( 2 1 7 ) 其中,c o ,是一个控制对错分样本的惩罚程度的常数。我们在实际应用中通 常采用该模型。 第二章基于b o w 模型的乳腺肿块分类 1 9 由上述的推导过程我们可以看出,s v m 算法的关键在于内积函数k ( 五,) , 也就是核函数的选择,只要选择合适的核函数就能把低维空间向量映射到高维空 间,从而得到高维空间的分类函数。目前最常用的核函数主要有这几种: 1 多项式核函数: k ( 而x ) = 【( 毛x ) + l 】j 2 高斯径向基函数: ( 2 1 8 ) k ( 而工) = e x p ( 一g 。i | x 一薯1 1 2 ) ( 2 1 9 ) 3 s i g m o i d 核函数: k ( 毛,x ) = m n h ( y x ) + c ) ( 2 2 0 ) 核函数的种类很多,上面提到的只是最基本的三种,还有傅立叶级数、指数 型径向基函数、样条函数、张量积核函数等。s v m 的核函数方法给了我们一个重 要的启示,即用核函数中的内积运算来代替分类函数中的点积,先在输入空间求 向量的点积或某种距离,然后再对结果作非线性变换,从而避免了算法可能导致 的“维数灾难”问题。 2 4 2 实验结果与分析 本小节对基于b o w 和s v m 分类器的乳腺肿块图像分类算法进行了仿真实验。 实验数据均来自于d d s m 数据库。所有肿块图像均是由医生标注后,根据医生标 注的轮廓区域进行截取得到的乳腺肿块图像。所有乳腺肿块图像共6 0 0 幅,其中 良性肿块和恶性肿块各3 0 0 幅。实验运行的计算机硬件配置为:i n t e l 四核处理器, 2 g 内存。实验所运行的软件环境为在w i n d o w s 7 操作系统下所安装的 m a t l a b r 2 0 1 0 b 。本文后面的实验工作均在该计算机下运行。 基于词袋模型的乳腺肿块良恶性分类,主要涉及两方面的工作。一方面是基 于b o w 模型乳腺肿块图像的表达,另一方面则是基于s v m 的乳腺肿块分类。基 于b o w 模型乳腺肿块图像的表示我们已经在上一节中完成,本节的工作主要是基 于s v m 的乳腺肿块分类。基于s v m 的分类实验,在已经提取出b o w 特征之后, 主要是模型参数选择的问题。我们选择了高斯径向基函数作为核函数,对于高斯 径向基核函数的参数g 和惩罚参数c ,我们采用交叉验证( c r o s sv a l i d a t i o n ) 的估计方 法。 交叉验证一种常用的模型估计方法,为了获得适用于训练样本的分类器模型 参数,我们可以通过m 重交叉验证来获得最优参数。m 重交叉验证是将全体i 1 个 训练样本分为m 等份,然后每次轮流将其中的m - 1 等份作为训练样本,而将剩余 2 0 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 的一等份作为测试样本。经过m 次的训练和测试后,即可将m 等份中的每一等份 测试一遍,从而得到一个平均分类率。然后,我们选择平均分类率最高的一组模 型参数作为最优参数。5 或1 0 重交叉验证一般被认为是一种较好的方案。 在本节的实验中,我们采用了5 重交叉验证的方案。训练样本共有6 0 0 个, 其中正负样本各有3 0 0 个,我们将这6 0 0 个训练样本分成5 等份,按照上述方法 对每一组参数进行5 次训练和测试,根据求得这组参数5 次测试的平均分类正确 率,选取交叉验证分类率最高的那组参数作为最终实验时所用的参数。实验结果 如图2 11 所示。我们采用网格法来进行参数搜索,分别在每一个网格交点处的c 和g 的值的条件下求交叉验证的分类率,当c 取3 0 3 1 4 ,g 取o 1 8 9 4 6 时,交叉验 证的分类率达到峰值,从而求得最优的参数。 二;o7 0 o :j :3 :w ;e 孔:j 二褂r i | :z :三- 3r c h l e :。j 壹 三- := ? :。二c - - ? 1 二j j :。二7 :一- 3 = ? 9 二? :j 八姜兰兰! 事 i 0 9 2 9 i 0 9 2 c 图2 1 ls v m 参数选择结果 在求得最优的s v m 模型参数之后,我们使用该参数共进行了2 0 0 次实验。实 验中,我们每次随机地选良性肿块和恶性肿块各1 5 0 幅作为训练集,而其余的一 半良性肿块和恶性肿块作为测试集,并分别计算每次实验的分类准确率,然后求 得2 0 0 次分类准确率的均值作为最终的平均分类准确率。2 0 0 次实验的实验结果如 图2 1 2 所示,其平均分类的正确率为7 7 0 5 。实验结果表明b o w 模型可以用于 乳腺肿块的良恶性分类,并取得了较好的分类精度。 第二章基于b o w 模型的乳腺肿块分类2 l 图2 1 22 0 0 次实验的分类结果 2 5 小结 本章首先介绍了b o w 词袋模型以及词袋模型在图像处理方面的应用。随后, 介绍了s i f t 特征的算法流程,并针对乳腺肿块图像,介绍了特征提取、字典生成 以及图像表达的方法。最后,介绍了支持向量机的原理以及模型参数的选择方法, 并利用s v m 进行了乳腺肿块图像的分类实验,并取得了较好的分类精度。通过实 验表明,b o w 模型是适合乳腺肿块图像的表示和分类的,在后面的章节中,我们 将在b o w 模型的基础上,研究其他衍生的图像表示模型,以获得更好的分类结果。 2 2 基于b o w 模型与稀疏表示的乳腺肿块良恶性分类算法研究 第三章基于语义主题模型的乳腺肿块分类2 3 第三章基于语义主题模型的乳腺肿块分类 3 1 引言 在第二章中,我们详细介绍了用词袋模型对乳腺肿块进行建模的过程,虽然 词袋模型具有简单和高效的特点,但词袋模型假设物体是由一个个图像块组成, 这并不符合我们认知事物的先验,不能反映图像集合的类内和类间的统计结构信 息。近年来,语义主题模型在图像检索和分类中得到了大量的应用,并取得了巨 大的成功。语义主题模型是在词袋模型的基础上,用概率生成模型进行建模,提 取图像的潜在语义信息。目前较常用的概率生成模型有h o f i a a n n 1 2 】等提出的p l s a ( p r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ) 模型和b l e i | 1 3 j 等提出的l d a ( l a t e n td i r i c h l e t a l l o c a t i o n ) 模型。其基本思想都是,在图像的表达过程中,引入一个潜在语义维, 对应于图像的语义特性,通过概率生成模型将图像的高维b o w 表示映射到低维的 语义空间表示,从而达到更好地对图像进行表示的目的。 3 2 语义主题模型 语义主题模型起源于潜在语义分析l s a t 2 7 1 ( l a t e ms e m a n t i ca n a l y s i s ) ,最早应 用于文本分析和文本检索领域。l s a 的思想是将高维的统计矢量,如单词出现的 频率矩阵,通过奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论