(光学工程专业论文)医学图象分析的机器学习方法.pdf_第1页
(光学工程专业论文)医学图象分析的机器学习方法.pdf_第2页
(光学工程专业论文)医学图象分析的机器学习方法.pdf_第3页
(光学工程专业论文)医学图象分析的机器学习方法.pdf_第4页
(光学工程专业论文)医学图象分析的机器学习方法.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(光学工程专业论文)医学图象分析的机器学习方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学图象分析的机器学习方法 刘欣悦 导师:黄廉卿 摘要 本文对自动医学图象分析的计算机辅助检测问题进行了研究,提出利用机器 学习技术实现计算机辅助检测的两种新方法,并基于所提出的方法构造了完整的 检测系统,用于检测医学图象中存在的病变。针对数字x 光乳腺图象,本文对 所提出的两种方法和完整的检测系统进行了设计、验证和分析。 本文将计算机辅助检测的图象分析过程分为两个阶段考虑:对包括图象调整 和图象分割步骤的第一阶段,本文提出了利用强化学习技术实现自适应图象分割 的方法,可以根据输入图象的特征选择适当的处理算法并配置适当的参数,从而 获得最优的分割结果。对包括特征提取和对象识别步骤的第二阶段,本文提出了 利用多分辨率直方图特征表示以及核分类算法实现自动病变检测的方法,消除或 限制了特征选择步骤,可以同时检测多种类型病变,而不必分别对各种病变进行 检测。结合所提出的两种方法,本文构造了完整的检测系统,并通过适当的调整 对系统性能进行优化。 实验结果表明:自适应图象分割方法对不同类型图象都可以达到很高的分割 精度:自动病变检测方法对多种类型的病变同时进行检测也能够获得满意的检测 性能;完整检测系统达到或超过了以前提出的针对单一类型病变检测系统的平均 性能。 关键词:医学图象分析,计算机辅助检测诊断,机器学习,强化学习,核 学习方法。 m a c h i n el e a r n i n ga p p r o a c h e st o m e d i c a li m a g ea n a l y s i s l i u n y u e d i r e c t e db y :h u a n gl i a n q i n g a b s t r a c t t h i st h e s i sp r e s e n t sas t u d yo ft h ec o m p u t e ra i d e dd e t e c t i o n ( c a d ) t a s k sf o r a u t o m a t e dm e d i c a li m a g ea n a l y s i sa n d p r o p o s e st w o n e wm e t h o d st or e a l i z et h ec a d s y s t e m s b a s e do nt h ep r o p o s e dm e t h o d s l i st h e s i sc o n s t r u c t st h ei n t e g r a t e ds y s t e m f o rd e t e c t i o no ft h el e s i o n si i lm e d i c a li m a g e s u s i n gt h ed i 酉t a lm a m m o g r a m s ,t h i s t h e s i sd e s i g n s ,v a l i d a t e s ,a n da n a l y z e st h ep r o p o s e dm e t h o d sa n dt h ei n t e g r a t e d d e t e c t i o ns y s t e m t h i st h e s i sr e g a r d st h ei m a g ea n a l y s i sp r o c e s so f c a d 笛t w os t a g e s f o rt h ef i r s t s t a g e ,i n c l u d i n gt h es t e p so fi m a g ec o n d i t i o n i n ga n di m a g es e g m e n t a t i o n , t h i st h e s i s p r o p o s e st h ea d a p t i v ei m a g es e g m e n t a t i o nm e t h o du s i n gt h er e i n f o r c e m e n tl e a r n i n g t e c h n i q u e s ,w h i c hs e l e c t st h ep r o c e s s i n ga l g o r i t h m sa n da d j u s t st h ep a r a m e t e rs e t t i n g s a p p r o p r i a t e l ys oa st oa t t a i nt h eo p t i m a lr e s u l t s f o rt h es e c o n ds t a g e ,i n c l u d i n gt h e s t e p so ff e a t u r ee x t r a c t i o na n do b j e c tr e c o g n i t i o n ,t h i st h e s i sp r o p o s e st h ea u t o m a t e d l e s i o nd e t e c t i o nm e t h o du s i n gt h er e p r e s e n t a t i o no f m u l t i r e s o l u t i o nh i s t o g r a mf e a t u r e s a n dt h ek e r n e lc l a s s i f i c a t i o na l g o r i t h m s ,w h i c he l i m i n a t e so rr e s t r i c t st h es t e po f f e a t u r es e l e c t i o ns oa st od e t e c tv a i l o u sk i n d so fl e s i o n ss i m u l t a n e o u s l y , a n da sar e s u r , i ti su n n e c e s s a r yt od e t e c te a c hk i n do fl e s i o n sr e s p e c t i v e l y c o m b i n i n gt h ep r o p o s e d t w om e t h o d s ,t h i st h e s i sc o n s t r u c t st h ei n t e g r a t e dd e t e c t i o ns y s t e ma n do p t i m i z e st h e p e r f o r m a n c eb ya p p r o p r i a t ea d j a s n n e n t s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a t :t h ea d a p t i v ei m a g es e g m e n t a t i o nm e t h o dc 孤 o b t a i nh i 曲s e g m e n t a t i o np r e c i s i o nf o rv a r i o u sk i n d so fi m a g e s ,t h ea u t o m a t e dl e s i o n d e t e c t i o nm e t h o dc a na c h i e v es a t i s f a c t o r yp e r f o r m a n c ew h e nd e t e c t i n gv a r i o u sk i n d s o fl e s i o n ss i m u l t a n e o u s l y , a n dt h ep e r f o r m a n c eo ft h ei n t e g r a t e dd e t e c t i o ns y s t e mh a s a t t a i n e do re x c e e d e dt h ea v e r a g ep e r f o r m a n c eo f p r e v i o u sd e t e c t i o ns y s t e m sp r o p o s e d f o rd e t e c t i n go n l yo n ek i n do f l e s i o n s k e yw o r d s :m e d i c a li m a g ea n a l y s i s ,c o m p u t e ra i d e dd e t e c t i o n d i a g n o s i s , m a c h i n el e a r n i n g , r e i n f o r c e m e n tl e a r n i n g , k e r n e ll e a r n i n gm e t h o d s 1 1 1 图目录 图1 1计算机辅助检测诊断系统的总体结构图4 图1 2 计算机辅助检测的图象分析过程5 图1 - 3 强化学习的结构。5 图1 4 广义策略迭代过程8 图1 5 学习、行动和规划之间的关系8 图1 - 6 有指导学习示意图9 图1 7 实例集合的划分1 0 图1 8 核学习方法的处理过程1 1 图2 1自适应图象分割方法示意图1 6 图2 2 处理模块的结构1 7 图2 3 数字x 光乳腺图象。2 0 图2 4x 光乳腺图象处理过程2 0 图2 5 状态迁移的m a r k o v 链模型2 4 图2 - 6 动作器一评判器的结构2 5 图2 7m i a s 图象m d b 0 0 5 训练结果2 8 图2 8m i a s 图象m d b 2 3 2 ( 脂肪组织) 测试结果:( 8 ) 原始图象:( b ) 提取区域; ( c ) ( a ) 经对数变换并叠加提取轮廓;学习的最优参数为:a d = l ,0 5 = 3 , t t - - - 9 ,t u = 2 5 5 ,d c = 3 ,d o = i l 2 9 图2 - 9m i a s 图象m d b 0 1 6 ( 脂肪腺体组织) 测试结果:( a ) 原始图象;( b ) 提取 区域;( c ) ( a ) 经对数变换并叠加提取轮廓;学习的最优参数为:a a = 2 , o , s = 5 ,t i ,_ 2 1 ,t t r = 2 5 5 ,d c = 5 ,d o = 1 7 3 0 图2 1 0m i a s 图象m d b l 2 6 ( 稠密腺体组织) 测试结果:( a ) 原始图象;( b ) 提 取区域;( c ) ( a ) 经对数变换并叠加提取轮廓;学习的最优参数为:盯弗, v i a a = 4 ,t l = 2 4 ,t u = 2 5 5 ,d c = 3 ,i ) o = 2 1 。3 1 图3 1多分辨率直方图的构造过程3 7 图3 2 结构风险最小化原则4 1 图3 - 3 线性分类器和间隔 图3 4 核函数映射的思想4 3 图3 - 5k 折交叉验证 图3 - 6 混淆矩阵( 相依表) 4 9 图3 7基本r o c 图5 0 图3 8 图象中包含的病变:( 左) 聚集微钙化,( 右) 肿块5 4 图3 - 9 不同分类器的r o c 曲线5 6 图4 1 完整的检测系统5 8 图4 2图象扫描过程5 9 图4 3 利用多尺度扫描检测不同大小的病变6 0 图4 4 最近邻聚类6 l 图禾5r o c 分析与f r o c 分析比较。6 2 图4 6f r o c 曲线一6 3 图4 7 完整检测系统的f r o c 曲线6 5 v h 表目录 表2 1 分割参数及其取值范围2 3 表2 - 2m i a s 图象库测试结果3 2 表3 1常用特征性质的比较3 4 表3 - 2 实验中用于训练和测试的异常正常样本数5 5 表3 3 不同分类器的最优参数5 5 表3 - 4 不同分类器的性能汇总5 6 表3 5 不同分类器的r o c 分析结果5 6 表4 1实验中用于训练和测试的图象数量6 4 v 1 1 1 第1 章引言 随着医学成象不断向数字化方向发展,计算技术得到了越来越广泛的应用, 图象分析逐渐成为医生临床诊断和治疗的有效辅助手段【k 】。医学图象分析的目 的就是利用计算机处理和分析医学图象,从中提取相关信息,为临床诊断和治疗 提供决策支持。医学图象分析工具为医生提供一个交互式的平台,定性或定量地 实现多种图象处理与分析的功能,不仅使医生对图象操作的更为方便,减轻了工 作量,大大提高了诊断效率,而且增强了图象的质量,使病变区域更加清晰易于 观察,有效地提高了诊断的准确性。 由医生手工分析图象是一项桔燥费时的工作,而且由于观测者的不同,容易 造成分析结果的差异,从而影响结论的有效性p 】。因此,迫切需要研究更具一致 性的自动图象分析方法,并且方法还要具有充分的精确性和健壮性。由于医学图 象的复杂性( 多维数据、不确定性、噪声干扰、有限的分辨率、。人为干扰、图象 配准) ,需要进行定量分析的对象的复杂性( 复杂形状、不同个体间的差异、病理 结构) ,以及不断增长的图象数据量和图象信息对诊断决策日益提高的重要性, 自动医学图象分析是非常具有挑战性的问题。 在医学和其他领域中先后开展过很多自动图象分析的研究工作,这些工作的 研究方法大致可以分为两类:基于模型的方法和基于问题的方法。 基于模型的方法大多属于知识工程的范畴,通过对特定领域建立模型构造知 识库,并将领域知识与图象分析过程相结合,利用领域知识的演绎推理控制图象 分析的过程例如,有些方法利用人类视觉认知过程的知识建立模型,试图通过 模仿人类视觉以实现自动的图象分析过程【坩】;有些方法利用领域知识的逻辑或 概率推理构造图象分析过程的控制策略【9 锄l ,等等 中圜科学院长春光擘精密机械与物理研究所博士学住论文 单纯的知识工程方法只在有限的领域内得到成功的应用,还存在很多悬而未 决的问题【2 1 1 。视觉认知过程的模型表n j l t 2 2 1 ,视觉系统更应该按照任务而非领域 或对象划分,按照领域或对象划分只是出于方便考虑;很多图象中所包含的信息 具有不确定性和不明确性,利用基于高级知识的方法进行表示和推理会遇到很多 困难;而且有些领域,特别是医学领域的知识【2 3 1 不完备、不准确,甚至包含错误, 基于这些知识设计的系统只能在特定范围内发挥作用,很难推广到更大的应用范 围:此外有些基于知识的系统依赖启发式的方法,缺乏可靠的理论依据,这对方 法的验证和推广都会带来问题。 基于问题的方法更多地采用机器学习的技术,既可以建立特定领域的显式模 型,通过从实例中学习以改进模型,也可以隐式地利用领域的先验知识,从实例 中学习目标函数的映射关系。根据问题的不同表述方式,既可以使用符号计算, 也可以使用数值计算l 狮6 1 。机器学习的方法在包括医学的很多领域得到了成功的 应用 3 7 - 3 8 】,不同领域也发展了很多有效解决机器学习问题的技术,包括神经网络、 进化计算、模糊系统等等,其中神经网络技术在图象分析中已经得到广泛的应用 p g l 。利用先验知识并通过扶实例中学习,机器学习方法能够不断提高系统的性能, 有效克服知识工程方法遇到的很多困难。 一 计算机辅助检测诊断是自动医学图象分析中重要的研究方向,本文研究了 利用机器学习技术解决计算机辅助检i 1 9 1 诊断问题的方法。下面简要介绍计算机 辅助检测诊断、机器学习、本文的研究目标和所做的研究工作。 1 1 计算机辅助检测,诊断 计算机辅助检测诊断( c o m p u t e ra i d e dd e t e c t i o n d i a g n o s i s ,c a d ) 【舯i 是指利 用计算机对医学图象进行分析,检测图象中存在的病变并描述和解释病变,辅助 医生做出诊断决策。医学图象解释任务大致可以划分为三个阶段:检测、描述、 和诊断,首先检测并定位图象中的可疑病变区域,然后利用提取的区域特征描述 病变,最后根据病变特征做出诊断决策,包括判断病变的良恶性,以及建议后续 需要采取的诊断或者治疗措施,等等当前全自动的计算机辅助诊断仍然是难以 2 第1 章引言 实现的目标,但是计算机辅助检测已经在乳腺、肺部、结肠等器官的病变诊断中 起到了积极的作用,临床的应用表明,计算机辅助检测在某些方面与医生的诊断 同样有效【4 l 删。 计算机辅动检测诊断预期达到的目标主要包括以下几个方面: 在筛选检查中检测病变:由于感知的不完全和分析的不精确,即使最好 的医生也可能会对图象做出错误的解释,此外疲劳、缺乏经验、以及环 境因素也会严重影响医生对图象的解释。因此,利用计算机客观地分析 图象以及临床信息,检测图象中的病变并做出可能的诊断,可以提高病 变检测的准确性。 描述图象中的病变:检测出图象中的病变后,提取相关的特征表示和描 述病变,例如尺寸、形状、纹理等等。利用提取的特征,医生或计算机 可以对病变做出诊断。 测量异常和正常的解剖结构:定量测量工具可以提高某些病变诊断的准 确性,尤其是对于解剖结构变化细微或者不易根据单幅图象做出评价的 病变。此外,定量测量异常结构的演变也是重要的目标,循证医学需要 根据对病变演变和治疗效果的定量测量对诊断和治疗进行客观评估。 诊断图象中的病变:医学图象解释最为困难的部分是对图象信息( 包括与 以前的图象进行比较) 和临床信息( 患者概况、临床病史、症状) 进行综合, 对这些复杂问题的研究还没有取得重要的进展。 计算机辅助检测诊断系统通常包括多个组成部分,分别实现了不同的功能。 为了实现特定目标,有些系统可能并不包括所有的组成部分,但是多数系统至少 都包括了图象调整、图象分割、特征提取、对象识别等基本的组成部分。系统的 总体结构如图1 1 所示。 目前多数研究工作都集中在利用计算机检测病变方面。计算机辅助检测利用 图象处理和模式识别技术实现自动的图象分析过程,检测并定位图象中可疑病变 区域,便于进行后续的诊断。自动的图象分析过程通常由一系列步骤构成,如图 1 2 所示,其中主要包括: 3 中固科擘院长春光学精密机械与物理研究所博士荦住论文 图象调整:减少图象的噪声并使相关图象特征易于辨别。 图象分割:从图象中分割出感兴趣对象,区分不同的对象和背景。 特征提取:提取适当的特征表示和描述感兴趣对象。 对象识别:识别感兴趣对象,并将其划分到相应的类别。 图1 - 1 计算机辅助检测诊断系统的总体结构图 f i g u r ei - 1 o v e r a l la r c h i t e c t u r eo f c o m p u t e ra i d e dd e t e c t i o n d i a g n o s i ss y s t e m s 4 第1 章引言 图1 - 2 计算机辅助检测的图象分析过程 f i g u r e1 - 2i m a g ea n a l y s i sp r o c e s so f c o m p u t e ra i d e dd e t e c t i o n 1 2 机器学习 机器学习是一个多学科交叉的领域,研究如何使系统具有自主获取并综合知 识的能力,通过从经验中学习,系统能够不断提高自身的性能和效率 4 5 1 。根据学 习任务的不同,机器学习通常可以分为三种类型:有指导学习、无指导学习、以 及强化学习,下面简要介绍本文涉及的强化学习和有指导学习。 1 2 1 强化学习 强化学习源于最优控制领域的研究,考虑在主体与环境相互作用过程中,如 何从奖励惩罚( 称为强化信号) 中学习,构造主体的最优行动策略 4 6 】。强化学习的 结构如图1 3 所示。 行动 图1 - 3 强化学习的结构 f i g u r e1 - 3 t h er e i n f o r c e m e n tl e a r n i n gf r a m e w o r k 中国科学院长春光学精密机械与物理研究所博士学住论文 强化学习一般利用m a r k o v 决策过程的模型描述:主体感知环境状态,根据 当前的策略采取行动,并从环境中接收到强化信号;主体根据接收的强化信号计 算效用,并改进行动的策略;通过系统化的试错过程,行动策略不断得到改进, 最终趋近于最优。通过学习,主体能够根据环境的状态采取最优的行动,以期获 得最大的效用,从而更好地适应环境的变化。 强化学习中有两种表述范式:关联范式和非关联范式。在关联范式中,学习 任务具有多个决策步骤,强化信号在执行一系列决策行动后延迟获得:而在非关 联范式中,学习任务只有一个决策步骤,每次决策行动后可以立即获得强化信号。 强化学习的一个重要特点是要在探索和利用之间做出权衡。为了获得更大的 强化信号,主体倾向于采取过去尝试过的能够获得较大强化信号的行动,但是为 了发现这样的行动,主体必须选择过去没有尝试过的行动。因此主体不但要利用 已知的信息以便获得更大的强化信号,而且还要探索未知的信息以便在未来做出 更好的行动选择。 强化学习的另一个重要特点是将具有明确目标的主体与不确定的环境之间 相互作用的过程作为完整的问题考虑,而不是将完整的问题分解为更小的子问题 分别考虑。对学习问题的分解虽然是解决问题的可行方法,但孤立地研究子问题 也有很大的局限性,很难将针对子问题的解决方法有机结合构成完整问题的解决 方案。 除了主体和环境之外,强化学习的结构中包括四个重要的组成部分:策略、 强化函数、效用函数、以及环境的模型。其中,策略决定主体在特定时刻的行为 方式,表示从感知的环境状态到采取的行动之间的映射关系;强化函数决定学习 的目标,表示从感知的环境状态( 或状态一行动) 到强化信号之间的映射关系,决 定主体所获得的直接效用;效用函数与强化函数不同,表示从当前状态( 或状态 一行动) 开始主体期望能够累积的强化信号的总量,决定主体所能获得的长期效 用;环境的模型表示主体对环境行为的预测,在尚未经历实际的情况之前,可以 用于事先规划主体的行动过程。 6 第1 幸引言 根据是否利用环境的模型,解决强化学习问题的方法可以分为两类:无模型 的方法和基于模型的方法。无模型的方法不通过学习构造环境模型,而是直接学 习最优的控制策略;基于模型的方法则首先通过学习构造环境模型,然后利用环 境模型得出最优的控制策略。 根据学习方式的不同,各类学习方法中还分别包括在线离线、在策略离策 略的方法。在线学习每次接收到强化信号后都更新行动策略,而离线学习只在学 习周期结束时才更新行动策略,另外有些方法属于在线学习和离线学习的混合, 即经过一定步骤之后更新行动策略。在策略学习指主体执行并改进同一策略,而 离策略学习则是指主体执行的策略和改进的策略可以不同,在执行某个策略的同 时改进另外的策略。 强化学习的方法一般都是迭代的方法,其中包括两个相互作用的过程:策略 评估和策略提高策略评估过程使效用函数与当前的策略保持一致,而策略提高 过程则根据当前的效用函数优化控制策略。这两个过程交替进行,通过反复迭代, 效用函数和控制策略逐步趋近于最优。这个过程被称为广义策略迭代过程,如图 1 4 所示。 在强化学习中,主体与环境相互作用所获得的经验用于两个目的:直接用于 提高效用函数和行动策略,这种方式被称为直接强化学习;或者用于改进环境的 模型( 使模型更为精确地符合真实的环境) ,并间接地利用模型来规划主体的行动 策略,这种方式被称为模型学习或间接强化学习。间接的学习方法能够充分利用 有限的经验,因此在主体与环境相互作用不频繁的情况下能够获得更好的策略; 而直接的学习方法实现相对简单,而且不会受到模型的设计偏差所影响。主体的 经验、模型、效用策略之间的可能关系如图1 5 所示。 时间差分学习是一类重要的无模型学习方法,包括s a r s a 学习、q 学习、 动作器一评判- 器( a c t o r - c r i t i c ) 等方法,其中s a r s a 学习和动作器一评判器方法 属于在策略的学习方法,q 学习属于离策略的学习方法。基于模型的学习方法包 括确定性等价( c c n 缸n ye q u i v a l e n t ) 和优先扫描( p r i 嘶t i z c ds w c 印i i l g ) 等方法,这些 方法利用环境的模型,将规划、行动、学习结合在一起。 7 中国科学院长畚光擘精密机械与勃理研究所博士学住论文 策略评估 初始效用 策略提高 最优效用和策略 图l _ 4 广义策略迭代过程 f i g u r ei - 4 g e n e r a l i z e dp o l i c yi t e r a t i o np r o c e s s 图1 - 5 学习行动和规划之间的关系 f i g u r e1 - 5r e l a t i o n s h i p sa m o n gl e a r n i n g , a c t i n g ,a n dp l a n n i n g 8 第1 幸引言 强化学习方法的性能一般利用收敛性质和收敛速度度量。收敛性质从理论上 保证了学习方法会渐近收敛到最优解,而收敛速度则保证学习方法的实际性能。 强化学习的方法在多个领域都得到了不同程度的应用,尤其在机器人控制中应用 广泛。 1 1 2 2 有指导学习 有指导学习又称为从实例中学习。利用一组标记有输入输出对应关系的实例 ( 训练集合) 对系统进行训练,系统能够构造输入到输出的映射关系,预测训练集 合以外的输入所对应的输出,从而通过从实例中学习获得推广的能力,如图l 石 所示。 输 入 ,、 映 射 关 系 , 输 出 图1 - 6 有指导学习示意图 f i g u r e1 - 6 s c h e m a t i cd i a g r a mo f s u p e r v i s e dl e a r n i n g 其中,输入输出的真实映射关系被称为目标函数,而通过学习得到的映射关 系被称为学习问题的解函数。对于分类问题,解函数有时又被称为决策函数。解 函数通常从某个输入输出映射关系的候选函数集合中选择,候选函数被称为假 说,候选函数集合相应地被称为假说空间。 有指导学习的结构中包括两个重要的组成部分:假说空间和学习算法。假说 空间限定了学习任务所能选择的映射关系的范围,而学习算法则利用训练集合作 为输入,从假说空间中搜索学习问题的解函数 中碹科学虎长春光擘精密机械与物理研完所博士学位论支 根据对训练实例处理方式的不同,有指导学习可以分为渐进学习( 在线学习) 和分批学习,其中渐进学习每次只处理单个实例,而分批学习则分批对实例进行 处理。根据学习任务的不同,有指导学习又可以分为分类,回归、排序等。其中 分类任务的输出范围是有限数量的离散类别,各个类别之间没有顺序的关系;而 回归任务的输出范围是连续的数值;排序任务的输出范围也是离散的类别,但是 各个类别之间按照一定的顺序排列。 有指导学习算法性能的优劣取决于算法具有的推广能力。算法的推广能力不 是通过在训练集合上的训练误差评价,而是通过算法在训练集合以外的实例上的 推广误差加以评价。如果只利用训练误差指导学习的过程,就可能会引起过度拟 合问题。过度拟合是指学习算法得到的解函数与训练实例非常吻合,但是对于训 练集合以外的实例推广能力很差的现象。 通过估计推广误差可以对学习算法得到的解函数进行模型评估和模型选择。 模型评估是指通过估计模型的推广误差,预测模型的实际性能;而模型选择则是 指根据不同模型的估计性能,从中选择( 近似) 最好的模型。在理想情况下,如果 有足够多的实例,对于上述两个问题的最好解决方法是随机地将实例集合分成三 部分:训练集合、验证集合,测试集合。训练集合用于拟合模型,验证集合用于 估计推广误差以进行模型选择,测试集合用于对最终选定的模型进行评估,如图 1 7 所示。 图1 7 实例集合的划分 f i g u r e1 - 7 p a r t i t i o no f t h ei n s t a n c es e t 如果没有足够多的实例,可以根据一些理论性的原卿j ( a k a i k e 信息准则a i c 、 b a y e s i a n 信息准则b i c 、最小描述长度准则m d l 、结构误差最小化准则s r m ) , 或者通过有效的实例重用( 交叉验证、b o o t s t r a p 方法) 近似地实现验证以进行模型 选择。 i o 第t 章 l 吉 有指导学习经过多年研究,发展了很多有效的学习方法,其中有代表性的方 法包括:决策树、神经网络、b a y e s i a n 方法等,特别是近年来快速发展的核学习 方法,改进了其他方法的很多缺点,具有优异的推广能力,在应用中也表现出了 很好的性能。有指导学习在实践中得到了广泛的应用,从语音识别到图象识别, 从数据挖掘到生物信息学,有指导学习的方法都发挥了重要的作用 1 2 2 1 核学习方法 核学习方法旧采用模块化的方式构造学习系统,能够稳定有效地解决高维输 入、小样本集合的学习问题。核学习方法一般由两个模块组成:实现映射功能的 核函数和线性学习算法,首先利用核函数将输入映射到高维空间,然后在高维空 间中利用线性学习算法加以解决。核学习方法的处理过程如图1 8 所示 芒= 输入 核函数 _ 核矩阵 数据 映射7 j 一 图i - 8 核学习方法的处理过程 f i g u r e1 - 8 t h ep r o c e s s i n gp r o c e d u r eo f k e r n e ll e a r n i n gm e t l l o d s 核学习方法的模块化性质使学习算法可以有效地重用。相同的学习算法可以 与任何核函数相结合,因此可以应用到任何问题领域:而针对特定领域的核函数 与不同的学习算法相结合,可以解决很大范围内的问题。通过结合两个模块,就 可以实现复杂的学习系统。 在计算方面,核学习方法还具有两个重要的性质:首先,核学习方法能够以 很低的时间和空间复杂性灵活地解决高维问题;其次,尽管得到的解函数具有很 高的复杂性,但是核学习算法通过构造凸优化问题,可以保证得到全局最优解。 中国科学院长誊先学精密机械与物理研究所博士学位论文 与传统的学习方法相比,核学习方法有以下几个突出的特点: 利用核函数将输入映射到更高维的空间( 特征空间) 中进行处理:可以使 在相对低维的空间( 输入空间) 中难以解决的问题变得容易解决。例如在 分类任务中,对于输入空间中线性不可分的问题,通过核函数映射,在 特征空间中就可能变成线性可分的问题。 假说空间中不包含局部极小:可以保证学习算法得到的解函数为全局最 优解。与此相反,神经网络等方法容易受初始参数等因素的影响而陷入 假说空间的局部极小,只能得到次优的解函数。 解函数具有稀疏性:是指得到解函数只受到少量重要的训练实例影响, 可以使学习算法具有健壮性,对训练集合的噪声干扰不敏感。与此相反, 判别分析等方法由于解函数依赖于所有的训练实例,很容易受噪声影响 不能得到最优解。 对假说空间进行容量控制:可以避免出现过度拟合问题。利用结构风险 最小化原则,可以在模型复杂性( 假说空间的容量) 和经验风险( 训练误差) 之间做出权衡,从而使得到的解函数具有最优的推广能力。 正是由于这些特点,才使得核学习方法具有优异的推广能力,能够稳定有效 地解决高维输入、小样本集合的学习问题。 1 3 本文的研究目标 本文研究的目标是如何利用机器学习技术解决计算机辅助检测问题,以实现 自动的医学图象病变检测系统,能够准确而有效地检测医学图象中存在的病变。 为了实现计算机辅助检测的自动图象分析,本文将图象分析的过程分为两个阶段 考虑,分别设计和验证有效的解决方法;然后将两个阶段结合,构造完整的病交 检测系统。 对于图象调整和图象分割的第一阶段,由于图象之间存在的差异,为了获得 满意的处理效果,需要选择适当的算法并设置最优的参数。这个过程没有可以依 据的通用原则,一般通过启发式的方法或者试错法进行。启发式方法缺乏通用性, 1 2 第1 幸引言 而手工试错既繁琐费时又很难达到最优。因此,本文研究如何利用强化学习技术 构造算法选择和参数优化的自适应控制策略,以实现系统化的试错过程。 对于特征提取和对象识别的第二阶段,由于分类器的性能受特征维数的影响 很大,病变检测方法通常依赖特征选择步骤,从生成的特征中选取具有最大判别 能力的少量特征,以减少特征向量的维数。但由于病变表现出的多样性,很难用 少量特征有效地建模各种类型的病交,病变检测方法一般都是针对单一类型病变 进行检测,很难同时检测多种类型的病变。因此,本文研究如何利用核学习方法 在保证分类性能的同时消除或限制病变检测方法中的特征选择步骤,以实现同时 检测多种类型的病交。 对于完整的病变检测系统,只有将上述两个阶段很好地结合,才能获得良好 的性能。第一阶段的输出可能不适合直接作为第二阶段的输入,需要以某种方式 对第一阶段输出的分割对象进行扫描,从中提取适当区域作为第二阶段的输入。 此外,还需要对第二阶段的输出做出调整以优化性能。因此本文研究如何将两个 阶段很好地结合,构成性能良好的完整系统。 1 4 本文的组织结构 本文对计算机辅助检测问题进行了研究,提出利用机器学习技术解决计算机 辅助检测问题的两种新方法。本文将图象分析过程分为两个阶段考虑,分别利用 强化学习和有指导学习技术加以解决;然后将两个阶段结合以构造完整的系统, 并通过适当的调整对系统性能进行优化。针对数字x 光乳腺图象,本文对提出 的两种方法以及完整系统进行了设计、验证和分析。本文后续章节主要分为四个 部分,下面给出简要的介绍。 第2 章:对于包括图象调整和图象分割步骤的第一阶段,本文提出利用强化 学习技术实现自适应图象分割的方法。方法包括两个部分:处理模块和学习模块, 处理模块利用图象处理算法实现图象调整和图象分割功能,学习模块为处理模块 提供算法选择和参数优化的控制策略利用训练图象以及相应的手工分割的模板 图象对系统加以训练,可以构造出图象调整和图象分割过程的自适应控制策略。 1 3 中i l l 4 - 学院长春光学精密机械与物理研究所博士擘位论文 利用该策略,系统就可以根据输入图象的特征选择适当的处理算法并配置适当的 参数,从而获得最优的分割结果。 第3 章;对于包括特征提取和对象识别步骤的第二阶段,本文提出利用多分 辨率直方图特征表示并结合核分类算法实现自动病变检测的方法。该方法将图象 中感兴趣区域的离维多分辨率直方图表示作为特征,并利用核分类算法将感兴趣 区域划分为正常和异常两类,从而检测图象中存在的病变。利用高维多分辨率直 方图特征以及核分类算法,该方法可以同时检测多种类型的病变,而不必为各种 病变分别选择不同的特征,使得消除或限制某些识别分类任务的特征选择步骤 成为可能。 第4 章:结合自适应图象分割和自动病变检测方法,本文构造了完整的计算 机辅助检测系统,用于检测医学图象中存在的病变。针对特定类型的图象,需要 对提出的两种方法预先进行充分的训练。检测的过程包括:首先利用自适应分割 方法对图象进行分割,然后对分割出的感兴趣对象进行某种方式的扫描,在扫描 位置提取出适当大小的感兴趣区域并构造其多分辨率直方图特征表示,然后利用 自动病变检测方法判别感兴趣区域中是否存在病变,最后对标记的病变区域进行 聚类减少重复标记以优化性能。在系统的两部分集成之后,做出适当调整并通过 实验加以验证。 第5 章:给出了本文研究工作的结论和展望,分别对自适应图象分割方法、 自动病变检测方法、以及完整检测系统的分析和验证结果进行了简要总结,然后 提出了需要迸一步开展的研究工作。 1 5 实验图象库 本文提出的方法全部利用m i a s 图象库【4 8 1 进行了实验验证。m i a s 图象库中 包括3 2 2 幅经过l 临床验证的数字x 光乳腺图象,其中2 0 7 幅为正常图象,1 1 5 幅 为异常图象。其中正常图象中不包含病变,异常图象中包含一处或者多处病变。 图象库中所有图象的大小均为1 0 2 4 1 0 2 4 ,象索尺寸均为2 0 0 a x t 1 4 第1 幸引吉 图象库中图象按照背景组织可以分为三类:脂肪组织、脂肪腺体组织、稠密 腺体组织。病变的种类包括聚集微钙化、多种类型的肿块等等,按照严重性等级 病变又可以分为良性和恶性,每个病变都标记了在图象中的中心位置和近似区域 半径。 第2 章自适应图象分割 图象调整和图象分割是图象分析的第一阶段,利用图象处理算法改善图象的 质量,然后将图象分割为不同特征的区域,便于进行后续的分析。对于不同类型 的图象,为了获得满意的处理效果,需要选择适当的算法并设置最优的参数。这 个过程没有可以依据的通用原则,一般通过启发式的方法或者试错法进行。启发 式的方法缺乏通用性,而手工试错既繁琐费时又很难达到最优。因此,本文研究 如何利用强化学习技术构造算法选择和参数优化的自适应控制策略,实现系统化 的试错过程。 本文所提出的利用强化学习技术实现自适应图象分割的方法包括两个模块: 处理模块和学习模块,如图2 - 1 所示。处理模块实现对图象的调整和分割功能, 学习模块通过训练构造算法选择和参数优化的自适应控制策略。 图2 - 1自适应图象分割方法示意图 f i g u r e2 - 1 s c h e m a t i cd i a g r a mo f t h ea d a p t i v ei m a g es e g m e n t a t i o nm e t h o d 第2 章由适应图象分割 该方法是一种渐进式的方法,将处理算法的输出结果作为反馈来影响处理的 过程。通过训练,该方法能根据图象特征有效地选择处理算法并优化参数设置, 从而适应于各种不同类型的图象。 2 1 处理模块 为了有效实现图象调整和分割功能,首先需要设计图象处理的算法库。算法 库按照一定的体系结构组织,便于进行配置管理。算法库中的算法组件一般具有 一个或几个可调参数,根据具体应用设置。通过组合算法库中的算法组件处理 模块可以实现图象调整和分割功能。 利用管道一滤波器模式,本文设计了处理模块的结构。处理模块中包括三个 部分:预处理、分割、以及后处理,分别实现了不同的处理功能。其中每个部分 中又分别包括了不同的处理算法,可以组合出多种处理路径,因此可以实现不同 的处理效果。处理模块的结构如图2 2 所示。 图2 - 2 处理模块的结构 f i g u r e2 - 2t h es t r u c t u r eo f p r o c e s s i n gm o d u l e 1 7 中田科学院长春光学精密机械与物理研究所博士擘住论文 针对不同类型的图象,可以使用相同的处理模块,而算法选择和参数优化的 任务由学习模块完成;也可以预先选择某些适当的处理路径,以缩小处理模块的 搜索范围,加速学习的过程。最简单的处理模块是流水线类型的处理过程,每个 部分只包含一个适当选择的算法。在这种情况下,学习模块的任务就简化为优化 选定算法的参数。 医学图象分析中常用的分割算法主要分为四类: 基于密度的算法:根据象素的密度值分割图象,通常不考虑图象的空间 连续性,包括象素统计分类算法( 有指导分类,无指导分类) ,以及分水岭 算法等。 基于区域的算法:根据空间邻接象素的密度相似性分割图象,包括模糊 连接性算法、区域生长算法( 基于密度基于边缘) 、以及m a r k o v 随机场 算法等。 基于模型的算法:首先建立图象模型,然后基于图象特征逐步更新模型 以实现图象分割,一般利用先验知识约束模型的更新过程,包括可变形 模型算法和水平集算法等。 混合的算法:混合基于密度、基于区域、以及基于模型的技术实现图象 分割,包括利用v o r o n o i 图的分割算法等。 为了有效实现分割功能,通常结合使用调整算法对图象进行预处理和后处理 操作,常用的图象调整算法包括: 平滑滤波算法:一般用于预处理降低图象噪声,包括直方图均衡、 g a u s s i a n 滤波、双边滤波,曲率流滤波、各向异性扩散滤波等。 梯度滤波算法:一般用于预处理提取图象边缘信息,包括g a u s s i a n 差分 滤波、l a p l a c i a n 滤波、s o b e l 和c a n n y 边缘检测算法等。 形态学滤波算法:一般用于后处理平滑分割出的区域,包括开闭操作、 腐蚀膨胀操作等,可以对二值图象和灰度图象进行处理。 图象运算和几何变换算法:对图象进行算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论