(控制理论与控制工程专业论文)基于流形学习的肿瘤基因表达数据分类研究.pdf_第1页
(控制理论与控制工程专业论文)基于流形学习的肿瘤基因表达数据分类研究.pdf_第2页
(控制理论与控制工程专业论文)基于流形学习的肿瘤基因表达数据分类研究.pdf_第3页
(控制理论与控制工程专业论文)基于流形学习的肿瘤基因表达数据分类研究.pdf_第4页
(控制理论与控制工程专业论文)基于流形学习的肿瘤基因表达数据分类研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(控制理论与控制工程专业论文)基于流形学习的肿瘤基因表达数据分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

曲阜师范大学硕士学位论文原创性说明 本人郑重声明:此处所提交的硕士论文基于流形学习的肿瘤基因表 达数据分类研究,是本人在导师指导下,在曲阜师范大学攻读硕士学位 期间独立进行研究工作所取得的成果。论文中除注明部分外不包含他人已 经发表或撰写的研究成果。对本文的研究工作做出重要贡献的个人和集 体,均己在文中以明确的方式注明。本声明的法律结果将完全由本人承担。 作者签名: 羡阻日期:加口年午周 曲阜师范大学硕士学位论文使用授权书 基于流形学习的肿瘤基因表达数据分类研究系本人在曲阜师范大 学攻读硕士期间,在导师指导下完成的硕士学位论文。本论文的研究成果 归曲阜师范大学所有,本论文的研究内容不得以其他单位的名义发表。本 人完全了解曲阜师范大学关于保存、使用学位论文的规定,同意学校保留 并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本 人授权曲阜师范大学,可以采用影印或其他复制手段保存论文,可以公开 发表论文的全部或部分内容。 作者签名: 导师签名: 日期:堡生旦 日期:j 。年,问 摘要 肿瘤是影响人类健康的主要疾病之一,然而目前的肿瘤诊断方法和治疗效果都不是很 理想。基于基因表达谱的肿瘤分子诊断方法是一种全新的快速而准确的诊断方法,它还能 检测肿瘤的进展、恶化程度以及抗癌药物的耐药性等,为临床医生诊断肿瘤分型、提供治 疗方案以及分析预后提供一种重要参考。目前,具有“高维,小样本”特征的微阵列数据 不断积累,如何有效地从这些高维数据中获取有用信息或规律己成为当今信息科学与技术 所亟待解决问题之一。 从基因表达谱的成千上万个基因中选择分类能力强,数量少的特征基因极具复杂性。 通常情况下,在如此大的基因空间中进行穷尽搜索是不可能的。因此选择合适的特征提取 方法是非常重要的。 本论文中,我们在总结流形学习算法成果的基础上,我们应用一种新的特征提取方法 和一些流形学习算法对两类和多类分类问题进行了研究比较,最后我们利用c m v m ( c o n s t r a i n e dm a x i m u mv a r i a n c em a p p i n g ,c m v m ) 和局部线性判别嵌入算法( 1 0 c a l l y 1 i n e a rd i s c r i m i n a n te m b e d d i n g ,l l d e ) 算法对跨平台肿瘤数据进行了分类比较研究。 本文主要作了以下研究工作:第一,把一种肿瘤基因表达数据特征提取方法基于 约束最大差异投影的特征提取方法( c o n s t r a i n e dm a x i m u mv a r i a n c em a p p i n g :c m v m ) 应 用于肿瘤样本基因特征提取,然后我们用k n n 分类器进行分类:在两类分类实验中,我 们对前列腺癌数据集和乳腺癌数据集进行了特征提取及识别率的分析;在多类分类实验 中,我们对白血病数据集和中枢神经系统肿瘤数据集进行了特征提取及识别率的分析。通 过对不同的肿瘤样本基因特征提取及识别率的分析实验验证了该方法的可行性和有效性。 第二,把流形学习算法用于跨平台肿瘤样本基因表达数据的特征提取,然后用k n n 分类 器进行分类,从而比较它们的识别效果。 本文最后指出了目前肿瘤基因表达数据特征提取及分类研究存在的一些问题以及今 后需进一步开展的研究工作。 关键词:流形学习,特征提取,l d a ,p c a ,p l s ,s l l e ,c m v m ,子空间,跨平台,基因 表达谱数据,l l d e a b s tr a c t t u m o ri so n eo fm a j o rd i s e a s e st h a ta f f e c t i n gh u m a nh e a l t h h o w e v e r , a tp r e s e n t ,t u m o r d i a g n o s i sa n dt r e a t m e n t s n e e dt ob ei m p r o v e d c o m p a r e d 谢t hc o n v e n t i o n a lm e t h o d ,t h e m o l e c u l ed i a g n o s i sm e t h o db a s e do ng e n ee x p r e s s i o np r o f i l e si sm o r ea c c u r a t e i tc a nd e t e c tt h e p r o g r e s s i o na n dd e t e r i o r a t i n gd e g r e eo f t h et u m o ro rt h et o l e r a n c eo ft h ea n t i c a n c e rd r u ga n ds o o n ,w h i c hc a no f f e rt h ec l i n i c a ld o c t o r sa ni m p o r t a n tr e f e r e n c ef o rd i a g n o s i n gt h et u m o rt y p e , p r o v i d i n gt r e a t m e n tp r o g r a m sa n da n a l y z i n gp r o g n o s i s a tp r e s e n t ,t h em i c r o a r r a yd a t aw i t ht h e c h a r e c t e r i s t i c so fh i g hd i m e n s i o na n ds m a l ls a m p l ec o n t i n u e st oa c c u m u l a t e h o wt oo b t a i n u s e f u li n f o r m a t i o no rl a wf r o mt h e s eh i g h 。d i m e n s i o n a ld a t a se f f e c t i v e l yh a sb e c o m eo n eo ft h e p r o b l e m sn e e d e dt ob es o l v e du r g e n t l yi nt h ef i e l do fi n f o r m a t i o ns c i e n c ea n dt e c h n o l o g y h o w e v e r , i t sv e r yd i f f i c u l tt o s e l e c tt h ef e a t u r eg e n e sw h i c hh a v eag o o dc l a s s i f i c a t i o n c a p a b i l i t ya n ds m a l lq u a n t i t yf r o mt h o u s a n d so fg e n e si nt h eg e n ee x p r e s s i o np r o f i l e u s u a l l y , i t i si m p o s s i b l et oa p p l ya nc o n f i n e ds e a r c hi ns u c hal a r g eg e n es p a c e s oi t sv e r yi m p o r t a n tt o s e l e c tas u i t a b l ef e a t u r ee x t r a c t i o nm e t h o d i nt h i st h e s i s ,w ea p p l i e dan e wf e a t u r ee x t r a c t i o nm e t h o du s i n gm a n i f o l dl e a r n i n ga l g o r i t h m t h e nw em a k ear e s e a r c ha n dc o m p a r i s o na m o n gt h et w o - - c l a s so rm u l t i - c l a s sc l a s s i f i c a t i o n p r o b l e m sb yt h em e t h o da n ds o m em a n i f o l dl e a r n i n ga l g o r i t h m l a s t l y , w ec o n d u c tas t u d ya n d a t e g o r y - c o m p a r i s o no nt h ec r o s s - p l a t f o r mt u m o rd a t ab yc m v m ( c o n s t r a i n e dm a x i m u m v a r i a n c em a p p i n g ) a n dl l d e ( 1 0 c a l l yl i n e a rd i s c r i m i n a n te m b e d d i n g ) a l g o r i t h m s t h em a i nr e s e a r c h e so ft h i st h e s i sa r ed e s c r i b e da sf o l l o w s :f i r s t l y , w ea p p l i e dam e t h o do f p i c k i n gu p t h et u m o rg e n ee x p r e s s i o nd a t a af e a t u r ee x t r a c t i o nm e t h o dn a m e da s c o n s t r a i n e dm a x i m u mv a r i a n c em a p p i n g ( c m v m ) i n t oe x t r a c t i n gt u m o rs a m p l e sg e n e sf e a t u r e t h e nw em a d eac l a s s i f i c a t i o nb yk - n nc l a s s i f i e r i nt h et w o c l a s sc l a s s i f i c a t i o ne x p e r i m e n t s , w ep e r f o r m e daf e a t u r ee x t r a c t i o na n dr e c o g n i t i o nr a t ea n a l y s i st ot h ep r o s t a t ec a n c e rd a t a s e ta n d t h eb r e a s tc a n c e rd a t a s e t i nt h em u l t i - c l a s sc l a s s i f i c a t i o ne x p e r i m e n t s ,w ep e r f o r m e daf e a t u r e e x t r a c t i o na n dr e c o g n i t i o nr a t ea n a l y s i st ot h el e u k e m i ad a t a s e ta n dt h ec e n t r a ln e r v o u ss y s t e m t u n o r sd a t a s e t w ec o n f i r m e dt h ef e a s i b i l i t ya n dt h ee f f e c t i v e n e s so ft h em e t h o dt h r o u g ht h e f e a t u r ee x t r a c t i o na n dr e c o g n i t i o nr a t ea n a l y s i se x p e r i m e n t so fd i f f e r e n tt u m o rs a m p l e sg e n e s s e c o n d l y ,w ea p p l i e dt h em a n i f o l dl e a r n i n ga l g o r i t h mt ot h ef e a t u r ee x t r a c t i o no fc r o s s p l a t f o r m t u m o rs a m p l e sg e n ee x p r e s s i o nd a t a t h e nw ec l a s s i f i e dt h e mb yk n nc l a s s i f i e rf o rc o m p a r i n g t h e i rr e c o g n i t i o ne f f e c t f i n a l l y , t h i sp a p e rp o i n t e do u tt h a tt h e r ew e r es t i l ls o m ee x i s t i n gp r o b l e m sa b o u tt h ep r e s e n t t u m o rg e n ee x p r e s s i o nd a t af e a t u r ee x t r a c t i o na n dc l a s s i f i c a t i o n ,a n daf u r t h e rr e s e a r c hs t i l l n e e d e dt ob ed o n ei nt h ef u t u r e i i k e y w o r d s : m a n i f o l dl e a r n i n g ,f e a t u r ee x t r a c t i o n ,l d a ,p c a ,p l s ,s l l e , c m v m ,s u b s p a c e ,c r o s s p l a t f o r m ,g e n ee x p r e s s i o nd a t a ,l l d e i 目录 摘要i 第1 章绪论1 1 1 课题研究的意义。l 1 2d n a 微阵列技术2 1 3d n a 微阵列数据分析现状一4 1 4 本文的内容安排与创新点6 第2 章流形学习8 2 1 模式识别基本步骤8 2 2 流形学习算法9 2 3 流形学习方法的应用1o 2 4 几种代表性的流形学习算法1 1 2 4 1 等度规映射方法( i s o m a p 1 0 】) 1 1 2 4 2 局部线性嵌入( l l e 1 1 , 1 2 j ) 一1 2 2 4 3 拉普拉斯特征谱( l e 4 7 7 4 ) 1 2 2 4 4h e s s i a n 特征映射( i t e 【t s l ) 1 2 2 4 5 局部切空间排列( l t s a 4 5 1 ) 1 3 2 4 6 最大差投影( m v u i7 5 j ) 1 4 2 4 7r i e m a n n 流形学习( r m l t 7 6 , 7 7 j ) 1 4 第3 章基于c m v m 特征提取方法的肿瘤样本分类15 3 1 引言1 5 3 2 基因表达数据的流形分布1 6 3 3 约束最大差异投影( c m v m ) 算法一1 7 3 3 1 局部结构一1 7 3 3 2 流形之间的非相似性一1 8 3 3 3c m v m 算法的目的18 3 3 4 调整1 8 3 3 5 核扩展1 9 3 4 实验结果2 0 3 4 1 两类分类实验2 l 3 4 2 多类分类实验。2 4 3 4 3 讨论2 7 3 5 本章小结2 8 第4 章l l d e 与c m v m 的跨平台肿瘤样本分类比较研究2 9 4 1 引言2 9 4 2 局部线性判别嵌入( l l d e ) 算法3 0 4 2 1l l d e 算法的目的3 0 4 2 2l l d e 算法3 2 4 3 约束最大差异投影( c m v m ) 算法3 6 4 4 实验与分析3 7 4 4 1 实验数据描述3 7 4 4 2 实验方法3 7 4 4 3 实验结果与分析3 7 4 5 本章小结3 9 第五章总结与展望4 0 5 1 本文的主要研究工作4 0 5 2 主要创新点及展望4 0 参考文献4 1 在校期间的研究成果及发表的学术论文4 8 致谢4 9 2 课题研究的意义 第1 章绪论 众所周知,肿瘤是威胁人类健康的主要疾病之一,特别是恶性肿瘤。目前全世界肿瘤 已经超过1 0 0 0 万,死亡率非常高。虽然随着肿瘤治疗技术与方法的进步,早期肿瘤的 率不断上升,但是利用目前的肿瘤诊断方法诊断出的肿瘤往往已经发展到中晚期,治 果往往不理想。而且肿瘤的发因一般非常复杂,因此传统的肿瘤诊断方法有时会不适 d n a 微阵列技术的出现为癌症的进一步研究带来了希望n q l 。 作为可以同时检测成千上万条基因在细胞中表达水平的d n a 微阵列是一类新型的、具 泛应用前景的生物学技术拉4 吲。作为“功能基因组学”实验基础之一的c d n a 微阵列 一出现,就在药理学和生物医学研究领域产生了很大的影响。在医学和生物学研究中, 列实验正帮助研究人员解决越来越多的问题。例如为了更好的找到癌症诊断和治疗方 法,微阵列在癌症研究中可以用于研究肿瘤中分子的变异n ,。 伴随着分子生物学的飞速发展,人们已经能够在基因水平上认识肿瘤,并且发现了很 多与肿瘤相关的基因和在基因水平上诊断肿瘤及其亚型。现代医学表明:肿瘤的产生与发 展一定表现在肿瘤细胞基因表达谱的改变和肿瘤相关基因的表达差异上。从分子生物学的 意义上来说,由于某些染色体上d n a 损伤,从而导致细胞内基因异常表达、细胞生长失控、 缺乏分化和异常增生,进而发展为肿瘤。以基因表达谱为基础的肿瘤分子诊断方法是一种 全新的准确而快速的诊断方法,它还可以检测肿瘤的恶化程度和抗癌药物的耐药性等,从 而为临床医生诊断肿瘤分型、提供治疗方案和分析预后提供一种非常重要的参考。 然而在其本身迅速发展的同时,如何有效地应用这一技术的困难也在不断增加。研究 者在微阵列实验所产生的数据不断积累时所面对的新问题是:人们从实际应用中获得的数 据正以指数形式快速增长,越来越多的海量模糊数据和大量不确定性数据都体现了“高维 小样本”阻1 的特征。实际上,在图像分析、计算机视觉、基因微阵列数据分析、网络数据 检索、视频检索和生物特征识别中获得的数据都是高维的。目前人们还没有有效的方法来 处理这些相应的数据,在处理这些数据时,传统的数据分析方法往往收效不大甚至失效, 以至于人们无法理解和探索蕴含在数据中的信息或规律,从而导致“数据资源”变成“数 据灾难”。然而信息技术的发展急切需要人们去揭示和探索存在于这些数据之间的奥秘。 因此,如何有效地从高维数据中获取规律和信息已成为当今信息技术与科学所面临的基本 问题之一。 利用流形学习算法能够探测非线性数据的内部结构,有效地发现非线性高维数据的本 质维数,从而有利于进行数据分析和维数约简,并且它还能保留数据的局部结构。而由微 阵列实验得到的肿瘤基因表达谱数据一般是非线性分布的,并且它们是高维的,因此我们 可以应用流形学习算法抽取特征基因表达值,从而为我们进一步的分类做好准备。 1 2d n a 微阵列技术 d n a 微阵列技术是在不同学科和技术的基础上产生的,是典型的多学科、多技术交叉 的结晶,它涉及物理学、化学、材料科学、生物化学、核酸化学、分子生物学、遗传学、 毒理学、电子工程、机械工程、光学、统计学及计算机科学等,这些学科的研究和先进技 术的发展都直接或间接促进了d n a 微阵列技术的发展n 1 。与其他传统的基因检测技术相比, d n a 微阵列技术的最大特征在于能同时定量或者定性地检测成千上万的基因信息。它具有 传统的生物技术不可比拟的高效、快速、多参量等特点,是生物技术发展史上的一次飞跃, 已成为生命科学领域一项最强大也最具有应用前景的生物技术之一。其基本原理是:在对 两个互补m r n a 分子杂交信号进行监测时,充分利用碱基对之间的互补杂交性能以获取待 测生物样本的基因表达丰度。d n a 微阵列技术主要应用于以下两个方面:( 1 ) 它可以从转 录水平测定一种细胞在特定时间内的基因表达概貌,由于基因表达与基因功能密切相关, 是基因型和表型之间的基本连接点,它对于研究基因调控、发育、疾病等复杂的生物系统 和过程起了主要的作用,因此可以研究基因功能、生长发育、疾病的产生等生物学命题。 d n a 微阵列表达谱技术将为同时检测生物体所有基因在特定组织、特定条件下r n a 表达水 平的基本面貌提供可能。( 2 ) d n a 微阵列还可以用于高通量基因组分析,如比较基因组杂 交( c g h ) 、s n p 和甲基化分析等,其中典型的用途是用于检测基因序列及其变异,用于基 因分型。基于基因芯片的基因分型技术将为同时检测生物样本中成千上万位点的基因型提 供一线光明,这将为人类从整个基因组范围内研究复杂的基因型差异对遗传的影响,特别 是对疾病产生与治疗的原因的理解产生深远影响。 伴随着不同的d n a 微阵列加工、制造方法的发展应用,产生了很多不同类型的d n a 微 阵列( 基因芯片) ,比如以预合成为基础的e d n a 微阵列( e d n am i c r o a r r a y s ) 、以原位合 成为基础的寡核甘酸微阵列( o li g o n u c l e o t i d ea r r a y s ) 和液相微阵列等。目前,我困在 2 d n a 微阵列技术方面的科研要比国外滞后2 3 年1 。中国进行d n a 微阵列规模化生产的企 业非常少,主要有博奥、上海生物芯片和中美合资陕西超英生物科技有限公司三家。我国 使用和销售的微阵列一般是代理的国外产品,比如主要代理a f f y m e t r i x 公司的寡核甘酸 微阵列的基因公司最早把d n a 微阵列引进中国。 d n a 微阵列一般以尼龙或玻璃材质做底基,面积约l o o m m 2 左右,如图1 1 所示。按d n a 微阵列的制备方式分类,d n a 微阵列可分为原位合成微阵列和直接点样( 又叫合成后点样) 微阵列。原位合成法由美国a f f y m e t r i x 公司率先研究并应用于基因芯片的制作,是在固相 介质表面特定区域逐个碱基地合成已知序列的寡聚核苷酸探针。由于a f f y m e t r i x 公司的专 利保护,原位合成法并没有得到普及,目前仅有a f f y m e t r i x 、安捷伦等少数的基因芯片生 产商采用此类技术制造d n a 微阵列。商业制作由于高额投入可以根据不同的要求选用不同 的制作方法,而自制主要采用直接点样法,尤其是一些小型实验室,仍然采用以膜为支持 片基的低密度微阵列。 图1 1 一张d n a 微阵夕u 实物照片 原位合成法和直接点样法存在较大的区别,各自有优势和局限。原位合成法的优点如 下: 可直接从c d n a 数据库中得到信息合成寡核苷酸,避免了c d n a 样品制备中的不确定 因素。直接点样法的探针样品必须事先制备和保存。 原位合成减小了微阵列批间的差异,可保证微阵列质量的高精确度。 原位合成法制备的微阵列密度高,目前最高可达4 0 0 0 0 0 个寡核苷酸片段1 6 c m 2 。 而直接点样法目前最高只有6 4 5 0 0 个基因6 5 硎2 ,通过技术的改进将来可望达到1 0 0 0 0 0 个基因6 5 c 聊2 。 原位合成法与直接点样法相比,也有以下的缺点: 成本高。 设计和制造烦琐、耗时多。 同相合成的寡聚核苷酸长度有限、特异性差,而且随长度的增加合成错误率随之增 高。 原位合成微阵列仅能用于检测己知序列的基因,而直接点样微阵列还可以用来发现 和研究新的基因的功能。 由于直接点样法微阵列成本低、容易操作、适用面广,而且方便快捷,技术、设备都 较为经济,不但适合于商业化生产,也可以满足科研工作者自制微阵列的要求,因此在基 因微阵列生产厂家和自制微阵列的科研工作者中得到了广泛的应用。 1 3d n a 微阵列数据分析现状 d n a 微阵列技术不仅能够帮助人们探索生物体内基因调控及其相互作用的机理,而且 它能够联系人类基因组序列与临床医学,因此它为人类疾病的诊断和防治开辟了全新的途 径。其中,癌症是应用微阵列芯片研究最多的疾病,而基于癌症的研究论文占微阵列芯片 疾病研究论文总数的8 4 左右。一般来说,癌症的病因复杂,涉及基因组水平、调控水平, 从而常规的检查方法很难进行全面调查。癌症d n a 微阵列数据分析技术能够让人们进行正 常和疾病两种状态下基因表达状况的比较,从而帮助人们更好地识别致癌基因、癌症诊断 与分类和癌症防治等相关课题的研究。 2 0 0 2 年,新型癌症诊断基因芯片由德国科学家研制成功;2 0 0 4 年7 月1 4 日“癌症诊 断晶片”技术在台湾高雄医科大学发布。这些成果表明在临床诊断中微阵列数据正在起着 越来越重要的作用。1 9 9 9 年,g o l u b 等人在白血病微阵列数据上成功进行基因识别和癌症 诊断与分类5 。,从此以d n a 微阵列技术为基础的癌症研究为人们所接受并逐渐成为生物信 息学研究的热点之一。 许多生物实验表明,在相同的微阵列杂交实验中具有相似功能的基因会产生相似的表 达模式。因此若能将基因功能与基因表达联系起来,并且将未知功能的基因归类到已知功 能分类中,就能用计算方法分析基因表达数据从而区分不同的基因,进而对未知的基因进 行分类。与此同时,还能够依据基因表达值的变化对病例的癌症类别进行分类判别。 目前,主要有两大类癌症微阵列数据分析方法:无监督学习法和有监督学习法。为了 能有目的地学习有用模式结构,有监督学习法需要预先知道类别标签信息。然而对于精确 的样本标签等教师信号,有监督学习法有较大的依赖性。而无监督学习法不存在这种缺陷。 因为该学习法具有无偏性学习的优点,而且在发现隐含在数据集里的未知结构模式时不需 要用任何先验信息或假设。无监督学习法的本质是聚类问题,即把表达值相似的基因归为 4 一类,并希望具有相似功能的基因能够聚成同类。但在一个复杂的数据集中很可能通常隐 含许多不同的模式结构,而类与类之间可能是相互渗透且扩散,这样一来由无监督学习法 所揭示的结构模式就不一定是我们所感兴趣的知识或信息。因此虽然在癌症微阵列数据分 析中已经应用了许多的数据分析技术,但离我们理想的分析效果还很远。因而在发展新 的更强大的癌症微阵列数据分析方法中涌现出了许多研究者睛5 瑚1 。 1 9 9 9 年,基于s n r 的加权投票癌症诊断与分类方法由g o l u b 7 1 等人创建,并把它成功 地应用于白血病数据分析,自此许多的诊断与分类方法不断地被提出和应用。比如,h u a n g 等结合惩罚性判别算法,提出了一种基于i c a 的肿瘤样本分类方法隅9 | 。k h a n 等人用人工神 经网络技术进行s r b c t 癌症的诊断与分类畸引。此外,在癌症诊断与分类应用中,有一些相 关文献对各种分类技术进行了比较。比如,在公开发表的癌症微阵列数据上d u d o i t 叫等人 系统比较了常用的分类器,而在1 1 个数据集上s t a t n i k o v 门等人对各种分类器进行了评价, 结果发现在对1 1 个数据集的分类应用中具有最高分类精度的是支持向量机技术。并且在 分析了几种常用的微阵列数据分析方法后p o c h e t 纠等也得到相同的结论。 2 0 0 3 年,g h o s h 阳朝提出使用规则化的回归模型对肿瘤进行分类。该方法主要使用了三 种规则化的回归模型:主分量回归、脊回归和最小二乘回归,并取得了非常好的分类效果。 基于主分量分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 等虽然能获得较高的识别率4 6 5 1 , 但它们只是对二阶信息敏感的数据分析方法进行癌症的诊断与分类。我,f f j i h 道对于分类而 言,更有价值的分类信息有可能包含在数据的高阶信息中。因此,有必要充分挖掘数据中 的高阶信息,探讨各种扩展技术,最终提高癌症微阵列数据的分类效率。例如,能提供更 符合实际统计模型的独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 对高阶信 息更敏感,因而在微阵列数据分析中它具有更有意义的应用前景拍9 眠6 7 3 。 此外,用半监督方法对微阵列数据的分类进行讨论( 因为微阵列数据的有效样本数 一般很少) 也是一种非常有意义的尝试呻1 。目前,以智能计算方法( 如遗传算法、遗传规 划等) 为基础的癌症微阵列数据关键基因筛选与分类也是一个较热的研究课题哺9 7 引。总之, 在机器学习方法不断发展的前提下,解决微阵列数据这样高维小样本问题的方法越来越 多,这为提高以微阵列芯片为基础的癌症诊断准确率创造了良好的前提条件。 揭示不同疾病或同一疾病的不同亚型的表达模式特征,并用于疾病的临床诊断是基因 表达谱的一个重要应用。因此,我们称基因表达谱为某一病理或生理现象的分子图像。通 过比较不同病理条件下的分子图像,研究人员可以识别出引发癌症等复杂疾病的标志基 因。目前,这些标志基因还有待于大量研究以进一步验证其与肿瘤的联系程度。 对于研究对象是某一生物学通路的基因,使用针对该类基因的功能分类甚因芯片比使 用高密度基因表达谱芯片更加有效。正因为如此,所以许多科研人员已经把注意力投向密 度相对较低的功能分类基因芯片。邹健等鲥综述性地研究了功能分类基因芯片在医学研究 中的应用。目前已上市的功能分类基因芯片产品种类包含了生命科学研究中的各个方面 ( 细胞周期基因芯片盯引、肿瘤基因芯片n3 。、细胞凋亡基因芯片m 1 和常见疾病基因芯片等) 。 1 9 9 9 年l o 月,m i t 癌症基因组研究中心的g o l u b 博士等嘲3 在美国科学杂志上发表研 究论文:从基因表达谱芯片的7 1 2 9 个基因中发现了对急性白血病的分类与诊治有着重要作 用的5 0 个基因。这一组基因不仅可以用于区分原始淋巴细胞白血病与急性骨髓性白血病, 而且还解决了传统病理研究工具所无法解决的诊断难题,从此丌创了以基因表达谱为基础 的肿瘤分类研究的先河。但在临床疾病研究中使用表达谱芯片同时检测几千个基因存在许 多问题,因此研究人员希望基因芯片上被研究的基因数量尽可能的减少,因为有很多与肿 瘤无关的基因所提供的基因表达数据是无用的甚至是错误的信息。 表达谱基因芯片与功能分类基因芯片的本质区别就是剔除基凶芯片上与研究对象无 关的基因。例如,科学家们在对急性白血病分类的研究中根据基因表达谱芯片结果选择了 7 0 个基因并制成低密度功能分类基因芯片,它是欧美第一个以芯片技术为基础的临床诊断 产品。因此,尽可能多地发现肿瘤相关基因也是我们肿瘤分类研究的目的,从而为研制肿 瘤分类基因芯片奠定基础。 1 4 本文的内容安排与创新点 本论文主要研究了基于流形学习算法的肿瘤基因表达数据分类,在前人研究的基础 上,将流形学习算法用于提取特征基因,从而将高维空间的肿瘤基因表达数据映射到一个 低维空间。并与p c a ( p r i n c i p a lc o m p o n e n ta n a l y s i s ) 、s l l e ( s u p e r v i s e dl o c a l l yl i n e a r e m b e d d i n g ) 、l d a ( 1 i n e a rd i s c r i m i n a n ta n a l y s i s ) 和p l s ( p a r t i a ll e a s ts q u a r e s ) 等特征提取方法进行了比较;将l l d e 和c m v m 特征提取方法应用于跨平台肿瘤样本分类。 实验结果表明:流形学习算法对于高维的癌症微阵列数据分类是有效可行的。论文由以下 几部分组成:第一章,绪论。主要介绍了基于流形学习算法的肿瘤基因表达数据分类的研 究背景、目的和意义,并简要介绍了d n a 微阵列技术。第二章,简要介绍流形学习算法。 第三章,基于c m v m 特征提取方法的肿瘤样本分类。首先利用c m v m 、p c a 、s l l e 、l d a 和p l s 等特征提取方法对d n a 微阵列数据进行处理,提取出特征基因,然后利用k n n 分类器进 6 行分类。本章对两类和多类分类问题进行了研究,实验结果表明流行学习算法是有效的。 第四章,l l d e 与c m v m 的跨平台肿瘤样本分类比较研究。即首先利用l l d e 和c m v m 特征提 取方法对两个跨平台肿瘤样本进行处理,提取出特征基因,然后利用k n n 分类器进行分 类。通过实验给出了应用在跨平台肺癌样本和跨平台急性白血病样本上的分类结果。第五 章,总结和展望。对整个研究工作进行总结,并进一步讨论了今后的研究内容和方向。 本文的主要创新点如下: 第一,本文应用了一种肿瘤基因特征提取方法一基于约束最大差异投影的特征提取方 法( c m v m ) 。该方法首先创建一个使不同流形的差异最大化的目标函数。在这个目标函数 中,类信息已被考虑在内。其次,为了保持每个流形的局部特性,一个约束条件被附加到 目标函数中。最后,我们应用的方法也采取了线性近似策略。一方面,样本外点问题能够 成功地被解决;另一方面,由于引入了线性变换,计算量将大大地减少。在这种限制下, 这个映射能够把带有相同标号的局部点映射的更近,把属于不同类的局部点映射的更远, 以有助于分类。通过对不同的肿瘤样本的实验表明,该方法具有较好的特征提取效果。 第二,把流形学习算法用于跨平台肿瘤样本的特征提取,然后用k n n 分类器进行分类, 并比较了它们的识别效果。 第2 章流形学习 2 1 模式识别基本步骤 随着信息技术突飞猛进的发展,人们从实际应用中获得的数据正以指数形式飞速增 长,越来越多的海量模糊数据和大量不确定性数据都体现了“高维小样本 的特征。目前 人们还没有非常有效的方法来处理这些相应的数据,处理这些数据最有可能的选择是将人 的高智能与现代计算机的高性能相结合,这是当今处理高维数据最核心、最有效的途径与 技术,其中比较有效的数据处理和分析方法是机器学习和数据挖掘。计算机对高维数据的 识别和处理过程一般包含以下四个步骤: 1 ) 信息获取。通过传感器或其它的采集装置采集图像、语音、基因、蛋白质和字符 等原始数据。 2 ) 数据预处理。对获得的原始数据经过一些必要的处理,从而获得需要的数据。 3 ) 数据的特征提取与选择。研究如何从众多特征中找出那些对分类识别最有用的特 征是特征选择与提取的主要任务,从而实现特征空间维数的压缩。在满足某种约束条件的 基础上实现目标优化,通过相应的变换将高维数据映射到低维空间中,从而得到所需要的 特征就是数据的特征提取。 4 ) 分类器设计和分类决策。通过己知数据的相关信息建立一种分类决策学习算法和 分类器模型,并且能够根据这种模型和学习算法有效地探索存在于数据中的未知规律及对 其实现正确的预测就是模式识别的目的。 图2 1 数据模式识别的流程图 图2 1 是数据模式识别的流程图。分类器设计和特征提取是模式识别整个过程研究的 重点。特征提取方法根据其变换方式是否是线性的可以分为非线性的和线性的。一直以来, 机器学习的主要模型一直是线性模型。 事实证明,线性特征提取方法对全局线性数据是有效的。然而,现实应用中的许多数 据并不是全局线性的。在数据的采样过程中,人们经常发现现实世界的一些模式通常服从 一定形式的非线性分布规律。遗憾的是存在于非线性数据中的内在规律并不能用传统的线 性特征提取方法有效地探索到。因此,只有建立非线性学习模型,发展非线性特征提取方 法,才能探索非线性分布数据中所蕴涵的非线性分布规律。许多研究者提出了很多的非线 性特征提取方法来研究非线性分布数据。按照其计算方式这些方法可分为基于( 广义) 特 征值分解和基于循环迭代求解的方法。 目前,数据处理过程中已经应用了一些基于广义特征值分解或特征值的方法。其中流 形学习方法和核变换方法是代表性的方法。通过核变换将具有非线性结构的数据投影到核 空间,使其在核空间线性可分就是核变换方法。因此通过核变换扩展原有的线性方法就变 成了一种非线性方法,这为处理非线性数据提供了一种非常有效的途径。 2 2 流形学习算法 作为应用对象是嵌入在高维空间的非线性低维流形上数据的流形学习方法是近几年 来才发展起来的一类新的非线性维数约简方法。人们在认知过程中一般是利用这种非线性 低维流形来识别事物的。流形学习方法能自动地找出低维流形的本征特征,这证明应用流 形学习方法进行数据处理是合理、可行的。同时,流形分布数据的非线性给流形维数约简 方法的建模带来了非常大的困难。r o w e i s 和t e n e n b a u m 提出了一种基于全局非线性、局部 线性的解决方案,并以此为基础构建了两种流形学习算法:局部线性嵌入算法( l o c a l l y l i n e a re m b e d d i n g ,l l e ) n h1 ”1 和等度规映射算法( i s o m a t r i cm a p p i n g ,i s o m a p ) i o 。自此, 流形学习的新流派在机器学习领域中开创了。流形学习方法随着研究的不断推广和深入也 从原来的无监督学习推广到了半监督学习和有监督学习,从非线性化扩展到张量化、核化 和线性化n 引,在机器学习领域得到了越来越多的重视和关注。 流形学习方法为研究非线性流形分布数据的内在结构提供了一种有效的途径。但流形 学习方法在实际应用中仍然存在泛化能力差、要求稠密取样和对噪声敏感等缺点。为此, 涌现出了不少相关的算法。由c h a n g 等口4 3 提出的一种鲁棒局部线性嵌入算法( r o b u s t l o c a l l yl i n e a re m b e d d i n g ,r l l e ) 主要是用来消除原始的局部线性嵌入算法对噪声敏感 的问题。为了解决数据必须稠密取样的问题提出了海森特征谱方法。为了提高i s o m a p 算 法的泛化能力,c h o i 等n 5 1 6 1 将m e r c e r 核成功地引入到该算法中,并且新算法能有效地抑 制噪声的影响。目前流形学习方法中存在的一些问题由于这些方法的提出在一定程度上解 决了,但还需进一步的完善和充实。 9 2 3 流形学习方法的应用 流形学习是以局部线性假设为基础来进行数学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论