




已阅读5页,还剩85页未读, 继续免费阅读
(材料物理与化学专业论文)基于支持向量机的癌症诊断研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y , 简称s l t ) 是由a t & t b e l l 实验室 的v a p n i k 及其合作者提出的可应用于小样本分析的统计理论。支持向量机( s u p p o r t v e c t o rm a c h i n e , s v m ) 是基于统计学习理论和结构风险最小化原理提出的一种有监 督的机器学习方法,被公认为小样本情况下统计学习的经典。s v m 具有较好的泛化 和学习能力,已被广泛的应用于诸多领域。 本论文利用模式识别的方法( k - 近邻分类器、概率神经网络、决策树、支持向 量机等) 分别根据人体血液元素浓度、乳腺肿瘤细针活检数据、乳腺癌患者基因进 行了癌症的辅助诊断和预后评估。分析和比较了不同特征选择方法对分类准确率的 影响,同时比较了支持向量机和其它分类器的分类能力。 本文研究的主要内容有: 一 对模式识别中目前常用的特征提取和选择方法进行了综述,介绍了信噪比、 熵标准、遗传算法( g a ) 、主成分分析法( p c a ) 、独立成分分析法( i c a ) 、粒子群寻优 算法( p s o ) 、模拟退火算法( s a ) 和其他常用的特征选择方法的算法、及其优点和缺点 等。 介绍了几种常用的分类方法及其分类原理。包括贝叶斯分类器、k - 近临分 类器、决策树、概率神经网络和人工神经网络。对支持向量机的分类原理进行了详 细的叙述,并介绍了其算法、实现、发展和在相关领域中的应用。 利用人体血液元素( z n 、b a 、c a 、m g 、c u 、s e ) 浓度,应用支持向量机等 多种分类器及特征优化算法,进行了癌症的辅助诊断,并分析了不同特征提取和特 征选择方法对分类准确率的影响。其中,k - 近邻分类器( 基于信噪比特征排序) 、 概率神经网络( 基于信噪比特征排序) 、决策树( 基于熵标准特征排序) 、支持向量 机( 基于遗传算法) 的分类准确率分别达到了9 5 9 5 、9 7 2 9 、9 1 8 9 和9 8 6 4 。 根据乳腺肿瘤组织的细胞形态数据,应用支持向量机等多种分类器及信噪比 特征优化算法,进行了乳腺癌的辅助诊断。其中,k - 近邻分类器、概率神经网络、 支持向量机的分类准确率分别达到了9 6 0 9 、9 5 0 8 、9 6 2 4 。 采用乳腺癌患者的基因数据,结合支持向量机等多种分类器及特征优化算法 对其预后状态进行了评估,并分析了不同特征提取和特征选择方法对预后评估准确 率的影响。其中,k - 近邻分类器( 基于信噪比特征排序) 、概率神经网络( 基于信 噪比特征排序) 、支持向量机( 基于信噪比特征排序) 的准确率分别达到了8 3 3 9 、 8 6 1 0 、8 8 8 1 。 从研究结果可以看出,支持向量机的分类准确率均优于k - 近邻分类器、概率神 重庆大学硕士学位论文 经网络、决策树等分类器,表明该方法有望进一步发展成为一种实用的临床癌症辅 助诊断及预后评估工具。 关键词:支持向量机,特征提取,特征选择,癌症,计算机辅助诊断,预后,预测 英文摘要 a b s t r a c t s t a t i s t i c a ll e a m i n gt h e o r y ( s l t ) p r o p o s e db yv a p n i ka n dc o - w o r k e r sf r o mt h ea t & tb e l li sas t a t i s t i c st h e o r yf o rt h ea n a l y s i so fas m a l l s a m p l ed a t a b a s e b a s e do ns t l a n ds t r u c t u r a lr i s km i n i m i z a t i o n , s u p p o r tv e c t o rm a c h i n e ( s v m ) i sas u p e r v i s e dm a c h i n e l e a r n i n ga p p r o a c ha n dw a sr e c o g n i z e d 船as t a t i s t i c a ll e a r n i n ga p o t h e o s i sf o rt h e s m a l l s a m p l ed a t a b a s e , s v mh a ss h o w ni t se x c e l l e n tl e a r n i n ga n dg e n e r a l i z a t i o na b i l i t y a n dh a sb e e ne x t e n s i v e l ye m p l o y e di nm a n ya r e a s i nt h i ss t u d y , t h ef e a t u r e so f c o n c e n t r a t i o n so f 6e l e m e n t si nh u m a nb l o o d , b r e a s tf i n e n e e d l ea s p i r a t i o nc y t o l o g ya n dg e n e so fb r e a s tc a n c c a p a t i e n tw e r eu s e dt oi m p l e m e n t c a n c e rd i a g n o s i sa n de v a l u a t et h ep r o g n o s i so f b r e a s te a b c e rp a t i e n tb yu s i n gr e c o g n i t i o n a p p r o a c h e s ( s u c ha sk - n e a r e s tn e i g h b o r , p r o b a b i l i s t i cn e u r a ln e t w o r k , d e c i s i o n 眠 s v m ) t h ei n f l u e n c eo f d i f f e r e n tf e a t u r es e l e c t i o nm e t h o d so nt h ec l a s s i f i c a t i o na c c u r a c y w a sa n a l y z e da n dd i s c u s s e d t h ec l a s s i f i c a t i o np e r f o r m a n c eo fs v mw a sc o m p a r e dw i t h t h o s eo f o t h e rc l a s s i f i e r s t h eo u t l i n eo f t h i st h e s i si ss h o w e da sb e l o w : t h ec u r r e n tm e t h o d so ff e a t u r es e l e c t i o na n de x t r a c t i o nf o rp a t t e r nr e c o g n i t i o n w e r er e v i e w e d t h ea d v a n t a g e sa n dd i s a d v a n t a g e so fs e v e r a la l g o r i t h m si n c l u d i n g s i g n a l - t o - n o i s er a t i o ( s n r ) ,e n t r o p yc r i t e r i o n ( e c ) ,g e n e t i ca l g o r i t h m ( g a ) ,p r i n c i p a l c o m p o n e n ta n a l y s i s ( p c a ) ,i n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ) ,p a r t i c l es w a r m o p t i m i z a t i o n ( a s 0 ) a n ds i m u l a t i o n a n n e a l i n g ( s a ) ,w c l ei n l r o d u c e d t h ec l a s s i f i c a t i o np r i n c i p l e so f p o p u l a rc l a s s i f i e r sw e l er e v i e w e db r i e f l y , s u c ha s b a y e sc l a s s i f i e r c ) ,k - n e a r e s tn e i g h b o r ( k - n 0 ,d e c i s i o nt r e e d ,p r o b a b i l i s t i c n e u r a ln e t w o r k0 n n ) a n da r t i f i c i a ln e u r a ln e t w o r k s ( a n n ) t h e p r i n c i p l e , a l g o r i t h m , i m p l e m e n t a t i o n , d e v e l o p m e n to fs v ma n di t sa p p l i c a t i o nw e r ed e s c r i b e di n d e t a i l s e v e r a lc l a s s i f i e r s a n df e a t u r eo p t i m i z a t i o n a l g o r i t h mw e r ee m p l o y e dt o i m p l e m e n tc a n c e rd i a g n o s i sb yu s i n gt h ec o n c e n t r a t i o n so f6d e m e n t s ( 砜b a , c a , m g , c 1 1 s e ) i nh u m a nb l o o d , a n dt h ei n f l u e n c eo fd i f f e r e n tf e a t u r es e l e c t i o na n de x t r a c t i o n m e t h o d s0 1 1t h ec l a s s i f i c a t i o na c c u r a c yw e r ea l s oa n a l y z e d t h e r e i n t o t h ec l a s s i f i c a t i o n a c c u r a c i e so fk - n n ( b a s e do ns n r ) ,p n n ( b a s e do ns n r ) ,d t ( b a s e do ne c ) ,s v m ( b a s e do ng a ) a c h i e v e d9 5 9 5 9 7 2 9 ,9 1 8 9 a n d9 8 6 4 ,r e s p e c t i v e l y s e v e r a lc l a s s i f i e r sa n df e a t u r eo p t i m i z a t i o na l g o r i t h mw e a l s oa p p l i e dt o i i i 重鏖盔堂堡兰笪笙茎 p e r f o r mb r e a s tc a n c e rd i a g n o s i sb yu s i n gb r e a s tf i n en e e d l ea s p i r a t i o nc y t o l o g yd a t 乱n l e c l a s s i f i c a t i o na c c u r a c i e so fk n n ( b a s e do ns n r ) ,p n n ( b a s e do ns n r ) ,s v m ( b 勰e d o ng a ) a c h i e v e d9 6 0 9 ,9 5 0 8 a n d9 6 2 4 ,r c s p e c t i v c t y g e n e so fb r e a s tc a n c e l p a t i e n tw e r ee m p l o y e dt oe v a l u a t et h ep r o g n o s i sv i a3 c l a s s i f i e r s ( k - n n ,p n na n ds v m ) ,t h ee f f e c to f d i f f e r e n tf e a t u r es e l e c t i o na n de x t r a c t i o n m e t h o d so nt h ec l a s s i f i c a t i o np e r f o r m a n c ew e r ed i s c u s s e d t h e r e i n t o ,t h ec l a s s i f i c a t i o n a c c u r a c i e so fk n n0 3 a s e do ns n r ) ,p n n ( b a s e do ns n r ) ,s v m ( b a s e d0 1 1s n r ) 8 3 3 9 。8 6 1 0 ,a n d8 8 8 1 ,r e s p e c t i v e t y t h es t u d i e so fa b o v ed e m o n s t r a t e d ,t h ea c c u r a c yo fs v m w a ss u p e r i o rt ot h o s eo f o t h e rc l a s s i f i e r si n c l u d i n gk - n n p n na n dd t t h er e s u l t ss u g g e s tt h a ts v mm a yb e f u r t h e rd e v e l o p e dt ob eap o t e n t i a la p p l i c a t i o nt o o lf o rc l i n i c a la s s i s t a n tc a n c e l d i a g n o s i s a n dp r o g n o s t i ce v a l u a t i o n 。 k e y w o r d s :s u p p o r tv e c t o rm a c h i n e , f e a t u r es d e c t i o n , f e a t u r ee x t r a c t i o n , c a n c e r , c o m p u t e r - a i d e dd i a g n o s i s ,p r o g n o s i s ,p r e d i c t i o n i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重麽太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 学位论文版权使用授权书 日 本学位论文作者完全了解重废太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重鏖太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( ) 。 ( 请只在上述一个括号内打“”) 一躲讹及一沥 签字日期:年 月日 签字日期:7 年莎月日 1 绪论 1 绪论 1 1 问题的提出及研究意义 1 1 1 问题的提出 人类有史以来,癌症不知吞噬了多少人的生命! 特别是2 0 世纪5 0 年代以后, 癌症发病率和死亡率急剧上升,成为对人类健康危害最大的常见病和多发病之一。 第1 8 届奥斯陆国际抗癌联盟与世界卫生组织发布的数据显示:全世界每年新发现癌 症病例1 0 0 0 万,有6 2 0 万人因癌症而死亡,占全球死亡总人数的1 2 。预计在未 来的1 0 年当中将会有8 4 0 0 万人死于癌症,到2 0 2 0 年,全世界每年新增癌症患者将 达到2 0 0 0 万人,死于癌症的人数将超过1 0 0 0 万。我国的癌症形势也不容乐观。统 计资料表明,我国癌症的发生率以每年2 2 的速度增加。2 0 世纪7 0 年代初,我国 癌症发病人数为9 0 万,死亡7 0 万人;2 0 世纪9 0 年代初的发病人数增至1 6 0 万, 死亡1 3 0 万人;2 0 0 0 年,癌症发病人数约1 8 0 万一2 0 0 万,占世界总数的五分之一, 死亡人数1 4 0 1 5 0 万,占世界总数的四分之一。随着我国城镇化和工业化步伐的加 快,环境污染日益严重。癌症的发病率增加已成为不容置疑的事实,这可从一个个 癌症高发村得到证实。广东省韶关翁源县的上坝村,3 0 0 0 多村民,从1 9 8 7 年至今, 已有2 5 0 余人因癌症而丧生,其中5 0 岁以下的有1 6 0 人,占死亡人数的“,最 年轻的患者只有7 岁。河南省沈丘县,出现了多个癌症高发村。如周营乡黄孟营村, 自1 9 9 0 年至今,该村已有1 1 4 名村民因患癌症去世。北郊乡的东孙楼村、陈口村、 孙营村近十年来已经死亡的癌症患者人数分别为5 9 、1 1 6 、3 7 ,正在接受治疗的癌 症病人还有很多;同时,癌症年轻化的趋势也越来越明显。1 9 9 9 年我国城市人口中 因癌症而死亡的人数已达1 2 6 万,其中4 0 5 0 岁死亡者占1 4 。高发年龄段也已由 五六十岁提前到4 0 岁。乳腺癌、直肠癌的发病主峰也提前l o 年左右。可以这样说, 经济愈发达、生活水平愈高、城市化程度愈高,恶性肿瘤的发病率也愈高,发病年 龄也大为提前。这一组组数据说明癌症已成为全人类的头号杀手。 癌症是导致人类死亡的一个重要原因。按全人类死亡率高低排序,前五位的依 次是:肺癌( 约1 3 0 万,年) ;胃癌( 约1 0 0 万年) ;肝癌( 约6 6 2 万年) ;结肠 癌( 约6 5 5 万,年) ;以及乳腺癌( 约5 0 2 万年) 。对男子而言,前几位依次是: 肺癌、胃癌、肝癌、结肠直肠癌、食道和前列腺癌。对妇女而言,前几位依次是: 乳腺癌、肺癌、胃癌、结肠直肠和子宫颈癌。 癌症能治好,关键在“三早”。国内外大量的i 临床实践经验证明,一部分癌症( 如 乳腺癌) 早期发现、早期诊断、早期治疗是可治愈的。如果到了晚期,现代医学还 没有办法将其治愈。所以,癌症的治疗应当贯彻预防为主的方针,做到早期发现、 重庆大学硕_ f :学位论文 早期诊断,为癌症的治疗提供可靠依据是降低死亡率的一个重要因素。 由于现实生活中很多病人因为技术条件的限制或者人为因素的影响造成误诊和 漏诊等,使这些癌症病人失去了早期治愈的机会,导致患者最终死亡。这也是癌症 高死亡率的另外一个原因,所以降低癌症死亡率的另一个重要因素就是提高癌症诊 断的准确率。 传统的癌症诊断方法有很多,不同癌症的诊断方法不尽相同。主要的方法有: 超声波显像检查、x 射线诊断、c t 扫描、核磁共振成像术、放射免疫显像、内镜 诊断、肿瘤病理学诊断、中医诊断等。这些诊断方法的适应症各不一样,各有优缺 点。 超声检查是一项安全、简单、迅速的诊断方法。目前,超声诊断在国内、外已 广泛应用于颅脑肿瘤、眼肿瘤、甲状腺肿瘤、唾液腺肿瘤、乳腺肿瘤、纵隔肿瘤、 肝脏肿瘤、胆系肿瘤、胰腺肿瘤、胃肠道肿瘤、肾脏肿瘤、肾上腺肿瘤、膀胱肿瘤、 前列腺肿瘤、睾丸肿瘤、子宫肿瘤、卵巢肿瘤、腹膜后肿瘤等的临床诊断与鉴别上, 特别适用于肿瘤早期诊断及普查等方面。由于超声不能穿透含有空气的肺组织,因 此对肺肿瘤的探测意义不大。同时,超声对胃肠道肿瘤的检查效果不如内镜诊断和 钡剂x 射线检查。超声诊断往往还需要与其它诊断方法综合起来j 1 能给出最终结果。 x 射线诊断是依照人体各部位密度的自然比来发现异常密度部位、进而得出诊 断结果的一种临床诊断方法。它主要用于呼吸系统肿瘤、骨骼系统肿瘤、消化系统 肿瘤、泌尿系统肿瘤、颅内肿瘤等的诊断,其中以诊断呼吸系统肿瘤及骨骼系统肿 瘤的效果最佳。x 射线摄影方法简单,是早期发现病灶、随访观察、普查等最好的 检查方法,应用非常广泛。它的缺点主要有:x 射线对人体有伤害、不能清楚显示 微小和隐匿部位病灶、缺乏自然对比的部位诊断效果差、某些部位( 如支气管) 还 必须用特殊摄影或造影检查才能显示、对影像分析师的要求比较高等。 c t 扫描又名计算机x 射线断层摄影( c o m p u t e r i z e dt o m o g r a p h y , c t ) ,主要用 于中枢神经系统肿瘤、眼耳鼻喉肿瘤、胸部肿瘤、腹部肿瘤、盆腔肿瘤等的诊断。 c t 扫描与普通的x 射线检查相比:其组织分辨率高,能区分组织间密度的微小差 异;而且为断面图象,可直接显示普通x 线检查所无法观察到的身体内部组织结构 和病变;此外,还可以测量各种组织的密度值,为诊断提供更多信息。c t 扫描已 经成为诊断体内各部位肿瘤的一个极其重要的手段,特别在肿瘤的早期诊断和鉴别 诊断等方面意义重大。它的缺点主要有:x 射线对人体有伤害、对空腔脏器( 如胃 肠系统) 的肿瘤诊断效果不佳、容易受脏器生理活动的影响等。 核磁共振成像( n u e l e a rm a g n e t i cr e s o n a n c ei m a g i n g ,n m r i ) 是利用核磁共振 原理,依据所释放的能量在人体内部不同部位中不同的衰减,通过外加梯度磁场检 测所发射出的电磁波,即可得知各个部位原予核的位置和种类,据此可以绘制成人 2 1 绪论 体内部的结构图像。核磁共振成像被广泛地应用于各种癌症的诊断中。核磁共振成 像与c t 扫描和x 射线诊断相比,没有使用x 射线,对人体没有伤害,对人体软组 织的显示能力明显优于c t 。检查操作中受人为因素影响小,可重复性大,便于共 同研究、对比和随访。如今全球每年至少有6 0 0 0 万病例利用核磁共振成像技术进行 检查。它的主要缺点有:检查时间长、费用较高、仪器设备昂贵、不能用于体内有 磁金属和起搏器的特殊病人、显示脏器钙化差、随时间变化的梯度场可在体内诱导 产生电场而兴奋神经或肌肉,让受试者产生刺痛、甚至引起心脏兴奋或心室振颤等。 放射免疫显像( r a d i oi m m l 1 n o i m a g i n g ,r i d 是将针对肿瘤相关抗原的特异性 抗体用放射性核素标记后注入人体,随血液流达肿瘤组织,与肿瘤的相关抗原结合, 从而使肿瘤组织局部放射性浓度浓聚超过正常组织,然后用体外显像技术获得肿瘤 的阳性显像图。它主要用于结直肠癌、原发性肝癌、卵巢癌、肺癌、前列腺癌、a f p 分泌性肿瘤、c e a 相关肿瘤、内胚窦瘤的诊断。这种显像方法可以显示那些被其他 方法漏诊的肿瘤,可用于癌症病人的最初诊断和分期,可以确定复发和扩散的部位 等。它的主要缺点是:对肿瘤坏死、缺血、囊性病变等定位效果较差,需延长显像 时间,技术还不是很成熟,尚没应用于临床。不过在今后十年内,该方法将从实验 室走向临床,并将得到广泛的应用。 内镜诊断问世已有1 0 0 多年,经历了硬式与软式两大阶段,近代发展成纤维内 镜和电子内镜,前者藉光学导象目镜窥察,后者藉微型c c d 荧屏显示;两者均能 深入外通式管道脏器( 如消化道、呼吸道、泌尿道等) 和闭合式体内镜穴( 如胸腔、 腹腔,关节腔等) 进行观察诊断、活体取材,同时兼能腔内手术( 如肿瘤摘除、疏 通癌性梗阻、胆囊截除等) ,还可应用高新技术( 如微波、激光等) 开展介入治疗, 还具有摄影、录像或放大和处理图象等电脑智能化多种功能,是现代化新颖的高精 技术诊疗设备。常见的内镜有:食管镜、胃镜、十二指肠镜、腹腔镜、支气管镜、 结肠镜等。内镜能可靠地解决常见肿瘤的诊断,并且对早期癌能及时检出,还能在 术前对肿瘤作出病理确诊,因而优于其他诊断手段( 包括m r i 、c t 等) 。它的主要 缺点有:检查的范围不广,只适合于有空腔的脏器,由于检查过程中要将镜头插入 人体内,会引发受检者的不适。 肿瘤病理学诊断是诊断肿瘤最准确最可靠的最终确诊方法。它是将患病器官的 分泌物制成涂片,或直接取下病灶小块组织制成切片或印片,放置显微镜下观察其 细胞形态、结构等,确定肿瘤的良、恶性质。肿瘤病理学是外科病理学的一个重要 分支,通常分为组织病理学和细胞病理学两大部分。它被广泛地用于淋巴结转移性 癌、宫颈癌、食道癌、肝癌、肺癌、鼻咽癌、胃癌等的诊断。作为肿瘤的确诊方法, 它的准确率是其它方法所不能比拟的。它的主要缺点有:切片检查均属抽样检查, 最终在光镜下见到的仅是病变的极小部分,有时不能代表整个病变;它是一门依赖 3 重庆大学硕士学位论文 经验积累的诊断学科,要求病理医师有很丰富的经验;切片制作过程易受环境污染 影响等。 中医肿瘤诊断属于中医诊断学的范畴。它是从整体观念出发,根据中医理论, 运用四诊等手段,采取辨证的方法,对肿瘤患者诊察病症、辨别症候、推断病情, 为肿瘤防治提供依据的一门科学,对指导中医防治肿瘤有重要意义。中医诊断对恶 性肿瘤进行早期诊断和确诊尚有不足。但是,由于中医药抗肿瘤治疗有其独到之处, 因此,在中医药抗肿瘤临床实践中,必须发挥中医诊断的特点。 鉴于传统癌症诊断方法的诸多缺点和不足,以及计算机辅助诊断的优越性,计 算机用于临床辅助诊断已是个不争的事实,将会给广大的癌症患者带来方便。本论 文拟用特征选择及模式识别的方法( 支持向量机等) 来进行癌症的辅助诊断。同时 尝试支持向量机在其它领域( 如蛋白质结构或功能预测等) 的研究。 1 1 2 研究的意义 本文研究的意义为: 癌症的特征选择和提取是一项意义重大的复杂工程。提取和选择出来的那 些有代表意义的特征对癌症的普查和临床诊断有非常重要的意义,可作为临床医师 的重点关注对象,成为临床医师的辅助工具,缩短癌症诊断的周期,提高临床医师 的效率,为癌症患者赢得宝贵的治疗时间。 癌症的计算机辅助准确诊断是降低癌症死亡率的一个重要的因素,可以减 少人为因素造成的误诊、漏诊。同时,癌症的准确诊断是治愈癌症的一个重要前提, 而癌症的准确诊断对延长患者的存活时间,提高存活质量都有着极其重要的意义。 利用支持向量机等进行癌症的辅助诊断的研究,对癌症的计算机辅助诊断 有推动作用。可以将广大的临床诊断医师从烦琐的、机械的数据分析处理中解放出 来,避免人为因素所造成的误诊、漏诊,对降低癌症的死亡率有着极其重要的现实 意义。 利用支持向量机进行乳腺癌的预后评估,可以对乳腺癌患者的阶段性治疗效 果给出评价,为后续的治疗提供依据,有利于找到较适合患者个体的治疗方法,增 强治疗的,达到延长存活时间、提高存活质量、降低死亡率的目的。 1 2 国内外研究现状 1 2 1 计算机辅助癌症诊断的现状 癌症是一组可影响身体任何部位的1 0 0 多种疾病的通称。癌症又称为恶性肿瘤, 肿瘤是局部组织的细胞异常增生而形成的新生物,常表现为局部肿块。肿瘤细胞具 有异常的形态、代谢和功能。它生长旺盛,常呈持续性生长。并由原发部位向其它 部位播散,这种播散如无法控制,将侵犯要害器官和引起衰竭,最后导致机体死亡。 4 1 绪论 癌症主要是由负责细胞生长和修复的基因变化引起的。这些变化是基因宿主因 素与外部因子之间相互作用的结果。这些外部因子可归类为:物理致癌物质,例如 紫外线,电离辐射,放射性辐射等;化学致癌物质,例如石棉,烟草烟雾,有毒化 工制品,各种重金属阳离子等:生物致癌物质,例如:病毒,细菌,以及寄生虫等。 癌症由一个单细胞产生。从一个正常细胞转变为一个肿瘤细胞是一个多阶段过程, 通常从癌前病变发展为恶性肿瘤。癌症的形成可由外部因子和继承的遗传因素开始。 老龄化是癌症形成的另一个基本因素。癌症发病率随年龄显著升高,极可能是由于 生命历程中危险积累,加上随着一个人逐渐变老,细胞修复机制趋向不大有效。 癌症的症状有很多,不同的癌症症状不完全相同。主要症状有:不明原因的体 重锐减,持续性低热、高热,持续性皮肤溃烂、口腔溃烂,原因不明的肿块、出血, 局部疼痛等。 计算机辅助癌症诊断主要包括三步:即数据采集、特征提取与特征选择和肿瘤 的良、恶性分类。首先,进行数据采集,数据的采集主要是考虑到癌症的体征和临 床化学、物理等检查数据,包括发病部位的图像、肿块的大小、肿块组织的细胞形 态、患者的血液元素浓度、基因缺陷等。然后,利用特定算法进行特征提取和选择。 最后,利用分类器进行癌症的辅助诊断。 由于不同的数据辅助诊断效果不尽相同,现在用的比较多的辅助癌症诊断的数 据主要的有:各种图像数据( 包括c t 图片、x 射线图片、超声图片、核磁共振图片 等) ,各种临床化学、物理检查数据( 包括血液元素浓度、肿块组织的细胞形态、肿 块的大小、边缘光滑度、患者的基因序列等) 等。 针对影响癌症高死亡率的两个重要因素:早期诊断和准确诊断,人们在这两个 方面做了大量的创新性研究,以期找到简单、高效、快速、准确的诊断方法。 在早期诊断方面,主要找出与癌症密切相关的一些微妙的身体变化,希望以此 达到早期诊断癌症的目的。g a ox i a n g _ 【l 】等人发现摄入过量钙会增大患前列腺癌的 几率,h i b i 吲等人研究结果表明高血钙与儿童急性淋巴白血病有关,u h l 3 1 等人发 现乳腺癌患者的血钙水平低于正常人。k o k s o y l 4 l 等人研究了血清铜水平与乳腺癌的 关系,g o o d m a n 5 】等人发现人体内铜的失衡会导致一系列疾病,甚至癌症,c , u p t a t 6 j 等人的研究结果表明血铜含量与胆囊癌有密切关系。m a y l a n d 7 】等人对癌症病人血 锌含量的统计研究,发现癌症病人普遍低于正常人。铜锌浓度比与胆囊癌 6 1 、肝细 胞癌甜、消化系统癌症 9 1 、淋巴瘤和白血病1 0 1 、肺癌、乳腺癌 1 2 , 1 3 1 有关。人们利 用血清元素含量和人工神经网络进行了癌症的诊断和预测【1 5 1 ,i v a n c i u c 利用支持 向量机和血液元素含量来诊断癌症【1 6 1 ,还有研究者针对癌症的发病机理,用基因缺 陷来早期诊断癌症 1 7 , 1s 】。现在,更多的研究工作正在进行中。 在提高诊断准确率方面,人们主要集中在新的方法和与癌症有关的更有效的特 5 重庆大学硕士学位论文 征寻找上。新方法上一方面利用现代科学技术的成果,制造出更准确、更高效的人 性化诊断设备,如正电子发射断层扫描仪( p o f i t r o ne m i s s i o nt o m o g r a p h y ) 。另一方 面结合模式识别、人工智能技术,将计算机引入辅助诊断领域,取得了很好的效果。 如k a r a k i t s o s 等人采用l v q 来区分良性和恶性胃肿瘤,取得了超过9 7 的总准确 率【,p o l a t 等人采用f s a i r s 识别系统来诊断乳腺癌,获得了令人很满意的结果 【2 0 】,r u t l 【o w s k a 和k l i m a l a 利用多步分类来辨别喉癌【2 ”,p e n a - r e y e s 和s i p p e r 采 用模糊遗传算法来诊断乳腺癌,得到了超过9 6 的准确率【2 2 】,z h u 利用惩罚逻辑回 归和基因序列来辨别癌症,达到了很高的分类准确率【2 3 】,l i u 和l i 用决策表来识 别癌症,取得了很高的灵敏度和特异度 2 4 1 ,w a n g 等人利用基于多层感知器和人工 神经网络模型来区分口腔黏膜纤维瘤和口腔癌,得到了比较好的效果【2 5 】,a i a m m a r 和b a r n e s 利用有监督的聚类算法来辨别癌症 2 6 1 ,还有研究者将支持向量机结合基 因序列数据来诊断癌症,均取得了很好的效果【2 7 郊】,h a d j i i s k i l 2 9 1 等人利用乳腺放射 图片,将计算机引入乳腺癌的辅助诊断,使诊断准确率从7 9 提高到8 4 ,s a h i n e r t 3 0 等人采用乳腺超声图片结合计算机辅助诊断技术,得到了比放射线学者高的诊断准 确率,还有一些研究者采用乳腺细针活检数据和计算机辅助诊断来识别肿瘤 3 1 - 3 3 】。 特征寻找主要是为了找到能提高计算机诊断准确率的特征上,g o l o b a r d e s 等人用遗 传算法搜寻对乳腺癌分类效果最好的特征并取得了很好的效剁川。h o n g 和c h o 利 用信噪比对特征排序,找到了诊断淋巴癌的有效特征 1 8 1 ,x i n 和b i e 采用最大熵模 型对高维基因特征排序,找到了对癌症诊断很有效的基因特征【”】。还有其它的一些 优化方法和最优搜索方法,如主成分分析、独立成分分析、模拟退火、粒子群算法 等被广泛的用于寻找最优特征领域。特征的找寻可为临床医师提供更多的、更有效 的区别癌症和非癌症的信息。 支持向量机( s u p p o r tv e c t o rm a c h i n e , s v m ) 是由a t & tb e l l 实验室的v a p n i k 及 其合作者【3 6 】基于统计学习理论和结构风险最小化原理提出的一种有监督的机器学 习方法,被公认为小样本情况下统计及学习的经典,具有较好的泛化和推广能力, 已被广泛的应用于诸多领域,如语音识别【3 7 l ,文本分类【3 8 - 4 0 1 ,手写体数字及汉字识 别1 4 1 ,4 2 】,水文预报f 4 3 1 ,人脸识别【州,图象识别与目标探测【4 5 , 4 0 q ,商业时序预报m , 空气质量预报嗍,青光眼诊断【4 引,肿瘤及癌症诊断f 删,地球空间物理和实验高能物 理数据分析与处理【5 1 捌,基因微阵列表达数据分析f 5 3 1 ,药物设计【5 4 朝,蛋白质一蛋白 质相互作用预测阁,蛋白质结构5 7 1 与功能 5 8 - 6 1 】预测等。 根据支持向量机的优异性能,本文主要采用人体血液元素浓度数据结合特征选 择和支持向量机等来进行癌症的早期辅助诊断;采用乳腺肿瘤组织的细胞形态等数 据进行乳腺肿瘤良、恶性质的识别;采用癌症患者的基因数据来进行预后预测。 6 1 绪论 1 3 本文研究的目的和研究内容 1 3 1 本文研究的目的 本文研究的主要目的为: 通过理论和试验研究,结合致癌机理和癌症体征,找到合适的特征向量来做 癌症( 特别是乳腺癌) 的辅助诊断,为临床诊断医师提供一个参考,提高临床诊断 的效率。 利用特征向量集与分类器( 包括支持向量机、概率神经网络、k - 近邻法、 决策树) 建立癌症诊断模型,并上机调节出合理的参数。利用诊断模型进行癌症的 诊断。 1 3 2 本文研究的主要内容 本文的主要内容为: 介绍了几种数据预处理方法,并对目前使用的特征提取和选择方法进行了综 述,介绍了信噪比排序、熵标准、粒子群算法、遗传算法、主成分分析法、独立成 分分析法等常用的特征提取和选择方法的算法、及其优点和缺点。 对常用的分类方法的分类原理( 包括支持向量机、概率神经网络、k 近邻 法、决策树、人工神经网络) 进行了介绍,并对支持向量机的分类原理进行了详细 的叙述,介绍了其发展和在相关领域的应用。 利用人体血液中若干元素浓度、乳腺肿瘤组织的细胞形态数据,结合支持向 量机等分类器,进行了癌症的辅助诊断和乳腺癌的诊断;最后采用乳腺癌患者的基 因数据结合支持向量机等预测模型对其预后状态进行了评估。并讨论了不同的特征 选择方法对分类准确率的影响,同时对不同分类器的分类效果进行了对比研究。 利用各个最优特征向量集和支持向量机建立多个癌症诊断模型,调节出各个 模型的合理参数。然后采用这些模型进行癌症诊断,根据诊断结果选择出最优模型。 对最优诊断模型进行评估、改进,以期将模型用于临床诊断。 7 2 特征向量的提取和选择 2 特征向量的提取和选择 2 1 引言 特征是从模式得到的对分类有用的度量、属性或基元。特征向量是指通过数字 化表征的研究对象的具体特征。特征向量的提取是指依据不同事物的属性的不同, 通过特殊的处理过程从大量的数据化后的事物中提取出能代表该事物特征的过程。 特征向量的选择是指从提取出来的特征向量中筛选或者通过某种变换以期获得对于 分类、识别最有效的特征组合的过程。经过特征选择得到的分类、识别效果最好的 特征组合叫最优特征向量。特征向量的提取和选择是机器学习中极为重要的环节, 最优特征组合的优劣直接影响着分类结果。对于不同的研究对象,其特征向量的提 取和选择不尽相同。 由于现实世界事物的多样性,对不同的事物,其特征提取、特征选择方法不尽 相同。现在最常见的方法包括:快速傅里叶变换( f a s tf o u r i e rt r a n s f o r m , f f t ) 、小波 变换( w a v e l e tt r a n s f o r m , w t ) 、信噪比( s i g n a lt on o i s er a t i o ,s n r ) 、熵判据( e n t r o p y c r i t e r i o n , e c ) 、主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 、独立成分分析 ( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 、遗传算法( g e n e t i ca l g o r i t h m s ,g a ) 、免疫算 法( i m m u n ea l g o r i t h m ,i a ) 、因子分析( f a c t o ra n a l y s i s ,f a ) 、模拟退火( s i m u l a t e d a n n e a l i n gs a ) 、粒子群算法( p a r t i c l es w a r mo p t i m i z a t i o n , p s o ) 、蚁群算法( a n tc o l o n y o p t i m i z a t i o n , a c o ) 等等。 由于现实事物的复杂性,对不同的研究对象而言,特征向量提取和选择方法的 好坏由三个方面决定。第一,用同种分类器采用最优特征组合进行分类时得到的准 确率的高低。第二,由该方法求出的最优特征组合所包含特征的个数的多少;第三, 寻求最优特征组合所花的时间的多少。 由于计算机辅助诊断的研究对象主要包括各发病部位的图片数据、细胞病理学 数据、各种化学、物理临床检验数据等,并且这些特征的提取没有很严格的理论基 础,基本上是靠医学专家的个人经验来决定,所以在此主要介绍处理上述数据的特 征向量的提取过程和现在用的较多的特征排序、选择方法,并分析了它们的优缺点。 2 2 特征提取 由于不同癌症所表现出来的特征以及在身体检查时采用的方法不尽相同,再结 合本文的主要内容( 乳腺癌的辅助诊断) 以及目前在计算机辅助乳腺癌诊断中用的 较多的一些特征提取等方法,下面主要介绍乳腺癌的诊断图片的处理以及医学专家 所提出的一些对乳腺癌计算机辅助诊断很有帮助的特征提取方法。 9 重庆大学硕士学位论文 2 2 1 图片的预处理及特征提取 在进行特征提取之前,先对乳腺图片数字化处理。乳腺图片的数字化处理过程 就是利用图片中不同坐标点的灰度值的不同,采用合适的数字来表示各点灰度的过 程。在数字化处理过程中要注意图片中点的大小的适中,太大会导致丢失很多细节, 太小则使得数字化后的数字图片数据量太大,数字化过程费时,并会为后续处理带 来困难。 图片数字化后,为了提取影象中特殊组织( 如良性肿块、恶性肿瘤) 的定量信 息进行癌症的计算机辅助诊断,需要进行图片的分割处理。医学图象分割的研究多 年来一直受到人们的高度重视,分割算法也层出不穷。多数图象分割技术归根到底 不是基于区域的就是基于边缘的 6 4 , 6 5 。基于区域的图象分割技术强调的是同一对象 内部特征的相似性,这类分割算法的目的是将目标与背景或多个目标与背景的区域 分割出来。基于边缘的图象分割技术强调的是不同对象问特征的不连续性,这类分 割算法的目的是正确地划分这些区域的分界线。 基于区域的分割方法主要有两类:阈值法和区域生长法: ( 1 ) 阈值法。根据整幅图象的整体信息( 如该幅图象的灰度直方图) 或根据图 象的局部信息来选择一个或几个灰度阈值,从而把该图象分割成目标与背景或多个 目标与背景的区域。阈值法的核心是如何选择合理的闽值达到将背景与目标分开的 目的。最普遍、最简单的方法是利用灰度直方图求双峰( 目标与背景类图象) 或多 峰( 多目标图像) 的谷底作为阈值。由于现实的图片并不是都具有明显的双峰或多 峰特性,传统的阂值分割法在这类图片中失效。在这情况下,又提出了许多其它确 定阈值的改进方法,如基于最大熵原则选择阈值方法【6 6 侧,这种方法的目的在于将 图象的灰度直方图分成两个或多个独立的类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业信息化建设实施计划与管理制度
- 河北科技学院《书写技能训练》2024-2025学年第一学期期末试卷
- 重庆能源职业学院《施工方法与组织课程设计》2024-2025学年第一学期期末试卷
- 二零二五年度节能环保装修材料采购合同标准模板
- 二零二五年度企业数字化转型技术顾问聘用合同范本
- 二零二五年度家电销售公司销售主管劳动合同
- 2025版抗震防裂房屋搭建施工合同范本下载
- 2025版游戏角色设计独立设计师授权合同模板
- 二零二五年度冷链运输冷库仓储综合服务合同
- 二零二五年幼儿园特色课程开发与承包运营合同
- 《患者安全目标解读》课件
- 甲状腺功能亢进症课件
- 锂离子电池正极材料研究进展
- 二手房屋买卖物品交接清单
- 技师论文 变频器的维修与保养
- 非标自动化设备项目进度表
- 诊断学教学胸部查体
- 桥梁安全事故案例警示
- SB/T 10460-2008商用电开水器
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- GA 1800.2-2021电力系统治安反恐防范要求第2部分:火力发电企业
评论
0/150
提交评论