




已阅读5页,还剩72页未读, 继续免费阅读
(控制科学与工程专业论文)偏最小二乘法在肿瘤基因表达谱数据分析中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 舢j i j | l l j | i j j j i i lj | i | | | j l | j j l | | j l j j | | l j l j j | i i i 17 8 7 6 9 9 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知。除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:塑远 关于论文使用授权的说明 日期;丝f 堕塑 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:塑遗 导师签名:口期:出 摘要 摘要 基因芯片技术是随着“人类基因组计划”而发展起来的一门新兴技术,能同 时对大量的遗传信息进行高效、快速的检测,因而被广泛的应用于研究肿瘤发 生发展过程中的基因表达情况。由此产生的基因表达谱数据具有小样本、高维 度的特点,给数据分析提出了新的挑战。如何选择合适的方法进行肿瘤样本分 类,提取尽量少的具有分类识别能力的特征基因,认识肿痛产生和发展的机制 并最终达到i 床治疗的目的,是当前面临的关键性问题。因此,本文将研究重 点放在利用偏最小二乘法法分析肿痛基因表达谱数据、选择分类特征基因上, 主要做了如下工作: ( 1 ) 对偏最小二乘法的数据降维性能进行了评价。利用s v m 验证提取的 p l s 成分对样本的分类效果。与2 种常用的降维算法主成分分析( p r i n c i p a l c o m p o n e n t sa n a l y s i s ,p c a ) 和随机森林( r a n d o mf o r e s t ,r f ) 进行比较。在实 验所选的5 组肿瘤数据上的结果显示,偏最小二乘法是一种处理高维数据的有 效方法。 ( 2 ) 提取的p l s 成分虽然能很好的将肿瘤样本分类,但是很难对成分进 行解释,不能直接得到相关的特征基因,因此本文提出了一种直接利用偏最小 二乘提取特征基冈的方法逐步回归提取基冈子集法。在提取p l s 成分过程 中,得到所有参与实验的基因的权重,计算所有大于0 的权重的平均值w l ,和 所有小于0 的权重的平均值w :,将w l 和w :作为阈值,权重大于w l 或者小于 w 2 的基因取出继续下一步实验。在每一步提取过程中都用提取的基因子集进行 分类验证,使得偏最小二乘法能直接进行特征提取。将这种方法用于北京肿瘤 医院提供的两组肿瘤数据中,分别得到5 个和8 个特征基因,并进行了样本分 类验证,取得了很好的效果。 ( 3 ) 将偏最小二乘法与遗传算法结合,改善了传统偏最小二乘法的内部映 射机制,将遗传算法强大的非线性拟合能力引入到偏最小二乘算法巾,形成一 个更加稳健的算法模型。将遗传算法偏最小二乘( g a - p l s ) 应用于两组胃癌 表达谱数据,提取5 5 个和5 3 个被选择频率较高的基因,并用s v m 验证所选 特征基因的分类效果。 ( 4 ) 由于每种提取特征基冈的方法都有其局限性,冈此,本文最后将逐步 回归提取基因子集法、g a p l s 方法和微阵列显著性分析方法分别用于肠型胃 癌和弥漫型胃癌的数据表达谱中,各自提取出7 2 ,5 7 ,7 6 个特征基因子集,然 后取这3 个子集的交集,最终得到4 个特征基因:z n f 5 8 3 、u b e 2 c b p 、r p e 6 5 、 l o c l 5 2 7 4 2 。在文献r f l 能找到关于前三个基冈的介绍,第四个基冈口前还没有 北京工业大学工学硕士学位论文 人研究。用这4 个基冈对样本进行分类的正确率为9 3 9 4 并且用这四个基冈做 了g e n eo n t o l o g y 分析。 关键词基因表达谱数据:偏最小二乘:遗传算法偏最小二乘;特征提取 - a b s t r a c t a b s t r a c t g e n ec h i pt e c h n ol o g y , an e wt e c h n ol o g yw h i c hd e v e l o p e dw i t ht h e h u m a n g e n o m ep r o j e c t ,”i sc a p a b l eo fd e t e c t i n gl a r g ea m o u n to fg e n e t i ci n f o r m a t i o n s i m u l t a n e o u s l y s o ,i ti sw i d e l yu s e di nt h ef i e l do ft u m o rd e v e l o p m e n t t h eg e n e e x p r e s s i o np r o f i l i n gd a t ah a st h ef e a t u r e so fs m a l ls a m p l es i z ea n dh i g hd i m e n s i o n , w h i c hp u tn e wt a s k sa n dc h a l l e n g e st od a t aa n a l y s i s i ti sn e c e s s a r yt oc h o o s et h e a p p r o p r i a t em e t h o df o rc l a s s i f i c a t i o no ft u m o rs a m p l e s ,a n de x t r a c tf e a t u r eg e n e sa s f e wa sp o s s i b l e t h eu l t i m a t ep u r p o s ei st ou n d e r s t a n dt h em e c h a n i s m so ft u m o r e m e r g e n c ea n dd e v e l o p m e n t s o ,t h i sa r t i c l ew i l lf o c u so nt h eu s eo fp l st oa n a l y s i s o ft u m o rg e n ee x p r e s s i o np r o f i l i n gd a t a , a n ds e l e c tt h ef e a t u r eg e n e s t h em a i nw o r k i sa sf ol l o w i n g : ( 1 ) t h ep e r f o r m a n c eo fp a r t i a ll e a s ts q u a r e so nt h ed i m e n s i o nr e d u c t i o ni s e v a l u a t e d p l sc o m p o n e n t sa r eu s e dt ov e r i f yt h ep r e c i s i o no fc l a s s i f i c a t i o no n s a m p l e s c o m p a r ew i t ht w oc o m m o n l yu s e dd i m e n s i o nr e d u c t i o na l g o r i t h m 一- p r i n c i p a lc o m p o n e n t sa n a l y s i s ( p c a ) a n dr a n d o mf o r e s t ( r f ) ,o nt h e5c a n c e r d a t a s e t s t h er e s u r ss h o wt h a tt h ep l sm e t h o di se f f e c tt oa d d r e s sh i g hd i m e n s i o n a l d a t as e t ( 2 ) p l sc o m p o n e n t sc a ne f f e c t i v e l yd i f f e r e n t i a t ed i f f e r e n ts a m p l e so ft u m o r s , b u ta r ed i f f i c u l tt ob ei n t e r p r e t e d i nt h i sp a p e r ,t r a d i t i o n a lp l si si m p r o v e dt oh e u s e di nf e a t u r eg e n es e l e c t i o n ac e r t a i nt h r e s h o l do fg e n ew e i g h t si ss e ti nt h e p r o c e s so fe x t r a c t i n gp r i n c i p a lc o m p o n e n t s w ii saa v e r a g ew e i g h to fa l lw e i g h t s t h a t g r e a t e rt h a n0a n dw 2i s aa v e r a g ew e i g h to fa l lw e i g h t st h a tl e s st h a n0 a c c o r d i n g t ot h et h r e s h o l dw la n dw 2 ,t h eg e n e st h a tt h ew e i g h t sa r eg r e a t e rt h a nw l o rl e s st h a nw 2a r es e l e c t e df o rn e x ts t e p i ne a c hs t e p ,t h eg e n es u b s e ti su s e di n c l a s s i f i c a t i o nt om a k ep l sf o rf e a t u r ee x t r a c t i o nd i r e c t l y t h i sm e t h o di su s e di nt w o c a n c e rd a t a s e t sp r o v i d e db yb e i j i n gc a n c e rh o s p i t a l r e s p e c t i v e l y , 5a n d8g e n e sa r e o b t a i n e da n da r ec a r r i e do u ti ns a m p l ec l a s s i f i c a t i o nv e r i f i c a t i o n ( 3 ) p l sm e t h o di sc o m b i n e dw i t hg e n e t i ca l g o r i t h mt oi m p r o v et h ei n t e r n a l m a p p i n gm e c h a n i s mo ft r a d i t i o n a lp a r t i a ll e a s ts q u a r e s p o w e r f u lc a p a b i l i t yo f n o n l i n e a rf i t t i n go fg e n e t i ca l g o r i t h mi si n t r o d u c e di n t op a r t i a ll e a s ts q u a r e s ,s oa m o r er o b u s ta l g o r i t h mm o d e li sf o r m e 士g e n e t i ca l g o r i t h m - p a r t i a ll e a s ts q u a r e s ( g a - p l s ) g a p l si sa p p l i e dt ot w og r o u p so fg a s t r i cc a n c e re x p r e s s i o np r o f i l i n g d a t a ,e x t r a c t i n gf e a t u r e s5 5a n d5 3g e n e sa n dt h e s eg e n e sa r eu s e dt ov e r i f yt h e i n 北京工业大学工学硕士学位论文 s a m p l ec l a s s i f i c a t i o n ( 4 ) a se a c hm e t h o df o rf e a t u r ee x t r a c t i o nh a si t sl i m i t a t i o n s t h i sa r t i c l e o b t a i n e dt h r e eg e n es u b s e t sr e s p e c t i v e l y u s i n gp l s 、g a - p l sa n ds i g n i f i c a n c e a n a l y s i s o fm i c r o a r r a y ( s a m ) o ng a s t r i cc a n c e ra n dd i f f u s e g a s t r i c c a n c e r e x p r e s s i o np r o f i l i n gd a t as e t t h en u m b e ro fg e n e si nt h r e es u b s e t si sr e s p e c t i v e l y7 2 , 5 7a n d7 6 t h e n ,t h ei n t e r s e c t i o no ft h e s et h r e es u b - s e t s f o u rg e n e s ( z n f 5 8 3 u b e 2 c b p , r p e 6 5 ,l o c 15 2 7 4 2 ) ,a r eu s e di ns a m p l ec l a s s i f i c a t i o na n dt h ep r e c i s i o n i s9 3 9 4 t h ef h - s tt h r e eo ft h ef o u rg e n e sc a nb es c a r e h e di nl i t e r a t u r e sa n dt h el a s t o n ei sn o tr e p o r t e db yn o w k e y w o r d sg e n ee x p r e s s i o n p r o f i l i n gd a t a ;p a r t i a l l e a s t s q u a r e ;g e n e t i c a l g o r i t h m - p a r t i a ll e a s ts q u a r e s ;f e a t u r eg e n es e l e c t i o n i v 几录 目录 摘 要i a b s t r a c t i i i 目 录一v 第l 章绪论1 1 1 课题背景及意义l 1 2 生物芯片技术3 1 2 1 基因芯片技术4 1 2 2 基因表达谱数据分析6 1 3 模式识别与生物信息学9 1 4 基于肿瘤基冈表达谱数据的研究1 l 1 4 1 研究水平和现状1 1 1 4 2 面临的问题和挑战1 4 1 5本文结构1 5 第2 章相关理论及研究1 7 2 1 偏最小二乘法1 7 2 1 1 偏最小二乘方法的产生和发展1 7 2 1 2 偏最j 、- - 乘法原理1 9 2 1 3 交叉有效性2 0 2 2 支持向量机2 l 2 3 特征选择2 4 2 3 1 特征选择相关概念2 5 2 3 2 特征选择方法2 5 第3 章基于偏最小二乘法的肿瘤基因表达谱数据降维与分类研究2 7 3 1 引言。2 7 3 2 实验方法2 7 3 2 1 基于偏最小二乘法的数据降维原理2 7 3 2 1 主成分分析法2 8 3 2 2 数据缺失值填补方法3 0 3 3 实验数据及结果分析3 0 3 3 1 数据来源一3 0 3 3 2 实验结果3 l 3 3 3 讨论31 3 4 本章小结3 3 第4 章基于偏最, j 、- - 乘法的胃癌基因表达谱数据的特征提取3 5 4 1 引言。3 5 4 2 基于偏最小二乘的特征提取方法原理3 5 4 3 实验步骤3 5 4 3 1 数据来源一3 5 v 北京工业大学工学硕士学位论文 4 3 2 数据的预处理3 7 4 3 3p l s 法提取成分并进行特征提取以及结果分析3 8 4 4 本章小结4 l 第5 章遗传算法偏最小二乘在肿瘤基因表达谱数据分析中的应用4 3 5 1 引言4 3 5 2 非线性偏最小二乘方法发展4 3 5 3 遗传算法偏最 b - - 乘4 3 5 4 实验过程与分析4 4 5 4 1 数据来源4 4 5 4 2 实验步骤4 5 5 4 3 实验结果与分析4 6 5 5 本章小结4 8 第6 章基于基因公约集合的特征基因提取4 9 6 1 引言。4 9 6 2 实验原理4 9 6 2 1 基于基因公约集合的特征基因提取步骤4 9 6 2 2 微阵列显著性分析4 9 6 4 实验过程5 l 6 4 1 实验数据。5l 6 4 2 公约集合的提取5 l 6 4 3 用逐步回归提取基因子集方法提取的特征基因5 l 6 4 4 用g a p l s 方法提取特征基冈5l 6 4 5 用s a m 方法提取特征基因5l 6 4 6 结果分析5 5 6 5 本章小结一5 6 结论与展望5 7 参考文献。5 9 攻读硕士学位期间所发表的学术论文6 5 致谢6 7 v l 第l 章绪论 1 1 课题背景及意义 第1 章绪论 生命的奥秘是人类白诞生以来一直探索的主题,特别是进入2 0 世纪后,随 着生命科学的进一步发展,人们对生命的认知从器官、组织、细胞、生物大分 子等各个层次一直深入到基因水平。为了更深入地了解和认识生命本质,美国 科学家于1 9 8 5 年提出了! 人类基凶组计划”( h u m a ng e n o m ep r o j e c t ,h g p ) ,旨 在为3 0 多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并弄清楚 其在染色体上的位置,进而破译人类全部遗传信息( 图1 1 ) 。随着d n a 自动 测序技术的快速发展,d n a 数据库中的核酸序列公共数据量以每天1 0 6 b p 速度 增长,生物信息数据迅速地膨胀。这些海量数据包含了丰富的生物知识,如何 能够充分利用这些数据,从这些海量数据中挖掘出对人类有用的信息,是人们 所面临的一个严峻的挑战。在这种背景下,产生了一门新的学科一生物信息 学( b i o i n f o r m a t i c s ) 。 图1 1 人类基因纽计划( 选自辽宁科普网) f i g 1 1h u m a ng e n o m ep r o j e c t ( f r o mh t t p j w w w 1 n k p g o v e n ) 生物信息学【i l 是在分子生物学、计算机数学、数理统计学等学科基础上产 生的交叉学科。它通过对生物学实验数据的获取、j n - r 、存储、检索与分析, 北京m , j k 大学工学硕士学位论文 进而达到揭示数据所蕴含的生物学意义的口的。图1 2 显示了生物信息学与计 算机的关系。 生塑铲 + 数据 。 计算机 计算 图1 2 生物信息学与计算机技术 f i g 1 2b i o i n f o r m a t i c sa n dc o m p u t e rt e c h n i q u e 生物信息学是内涵非常丰富的学科,包含基因组生物信息学、数据库生物 信息学、序列生物信息学、结构生物信息学、微阵列生物信息学、统计生物信 息学、化学信息学、临床生物信息学等分支,其核心是基因组信息学,包括基 凶组信息的获取、处理、存储、分配和解释。现阶段,生物信息学大致可以分 为三个层面的内容。初级水平是指在现有的基因组资源和数据库基础上,能利 用相应的网站或软件分析核酸和蛋白质的序列和结构,并进行必要的预测。中 级水平需要利用统计学原理进行有关生物数据的分析,主要是统计遗传学和统 计生物信息学的内容。高级水平则是能通过自行编程,建立生物信息处理中的 合适模型或数据库,以解决实际工作中的问题。生物信息学的发展主要经历三 个阶段:( 1 ) 基凶时代;( 2 ) 基凶组时代;( 3 ) 后基凶组时代【2 】。人类基凶组 草图基本绘就之后,基因组学的发展由此进入到后进基因组时代,生命科学研 究的重点也南基凶序列研究上升为基凶功能研究,旨在弄清从基凶组到蛋白质 组,再到复杂生命系统运行的奥秘。后基因组工作的推进和发展将使生物工程 技术在医学和农业等相关科学领域得到j 泛应用,造福全人类。 目前,生物信息学已经产生多个重要研究课题,其中包括大规模基因功能 表达谱的分析以及生物信息学分析方法的研究。南于基凶芯片等微阵列检测技 术的发展而带来的生物信息数据的爆炸式增长,以及数据的复杂性、高维性的 第1 章绪论 特点,传统的数据挖掘技术已经不能满足生物数据分析的要求,常规的计算机 算法虽仍可以用于生物数据中,但越来越不适用于序列分析问题,需要有新的 思想和方法加入。而机器学习方法可以有效地进行大样本、多变量的数据分析 工作,通过与常规的生物学方法的合理结合,机器学习方法可以进行基因表达 谱的分析,并利用计算机从海量的生物信息巾提取有用知识,发现数据背后隐 藏的信息。此外,数学在生物信息学中占了很大比重,如统计学、如概率论、 运筹学、最优化理论、群论等均或多或少在生物学研究巾发挥作用【3 1 。 生物信息学研究是从理论上认识生物本质的必要途径,通过生物信息学研 究和探索,可以更为全面和深刻地认识生物科学r f l 的本质问题,了解生物分子 信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。由于生物信 息技术的重要性越来越突出,生物信息学的成果不仅对相关基础学科起着巨大 的推动作用,而且还将对农业、医药、卫生和食品等产业产生巨大的影响。因 此,各国纷纷开始了自己的生物信息学科的建设。1 9 8 8 年,美国成立国家生物 技术信息中心( n c b i ) ,主要进行计算分子生物学的基础研究,构建和散布分 子生物学数据库;1 9 9 3 年3 月,欧洲生物信息学研究所( e b i ) 成立;1 9 9 5 年 4 月,日本组建了信息生物学中心( c i b ) 。我国也非常重视生物信息技术的发 展,相继成立了北京大学生物信息学叶1 心、华大基冈组信息学研究巾心、r f l 国 科学院上海生命科学院生物信息中心等科研机构。同时,国家自然科学基金委 于2 0 0 2 年在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项 目,并列入生命科学部优先资助的研究项目。国家8 6 3 计划特别设立了生物信 息技术主题,从国家需求的层面上推动了我国生物信息技术的大力发展。第三 次技术革命写到:“一场与工业革命和以计算机为基础的革命有相同影响力的 变化正在开始。下一个伟大时代将是基冈组革命时代,它现在处于初级阶段。” 4 1 可见基因组研究乃至整个生物信息学的发展对今后人类社会将产生的深远影 响。 本课题由北京市教育委员会科技计划项目( j c 0 0 2 0 1 1 2 0 0 9 0 3 ) 和北京市自 然科学基金( g r a n tn o 4 0 9 2 0 2 1 ) 资助。本论文以多种肿瘤基冈表达谱数据为研究 对象,结合机器学习的方法进行肿瘤特征基因选择及亚型分类的研究,研究重 点是偏最小二乘方法。口的是寻找可靠的特征基冈选择方法,以较高准确率识 别肿瘤亚型与正常样本,为肿瘤的临床诊断和治疗提供依据。 1 2 生物芯片技术 生物芯片技术是2 0 世纪9 0 年代初伴随人类基因组计划产生的一项新的生 物技术,它一出现便引起国际上的广泛关注,并在1 9 9 8 年被国际权威杂志 北京工业大学工学硕士学位论文 s c i e n c e 列为年度十大科技突破之一。生物芯片是指通过微加工和微电子技术在 固相介质表面构建微型生物化学分析系统,以实现对细胞、蛋白质、核酸以及 其他生物分子等进行准确、快速、高通量检测。生物芯片作为我国重点发展的 高新技术领域之一,在疾病诊断、药物筛选和新药开发、中药基因组学研究和 巾药现代化、环境保护及其他等于生命活动有关的研究和应用领域均具有重大 应用前景。目前常见的生物芯片分为三大类:基因芯片、蛋白质芯片、芯片实 验室( l a b - o n - a - c h i p ) 【5 】。 1 2 1 基因芯片技术 基因:签片( g e n ec h i p ) 又称为d n a 微阵列( d n am i c r o a r r a y ) ,是将大量 探针分子固定于支持物上后与标记的样品分子进行杂交,通过检测每个探针分 子的杂交信号强度进而获取样品分子的数量和序列信息。基因芯片是基因表达 谱数据最主要的来源,它通过应用平面细微加工技术和超分子自组装技术,把 大量分子检测单元集成在一个微小的固体基片表面,可同时对大量的核酸和蛋 白质等生物分子实现高效、快速、低成本的检测和分析。微阵列技术得以关注 和普及的原因是能同时j i 【测成千上万个基因的表达,并能在同一阵列上对d n a 或r n a 进行定量。d n a 微阵列技术的应用数量呈指数级增长这一现象已证实 这一预测【6 1 。图1 3 为基因芯片设计和处理数据过程。 图1 3 基冈芯片设计及信息处理 f i g 1 3g o n ec h i pd e s i g na n di n f o r m a t i o np r o c e s s 对微阵列的需求源于基因表达的问题,这是分子生物学的核心问题。尤其 是当人类基冈组和其他生物基冈组序列破译后,常常需要面对的一个问题是: 在某种因素影响下,全基因组水平的表达谱是怎么样的? 例如,对于癌症的研 第1 章绪论 究,尽管许多基冈组水平的分析技术有助于阐明肿瘤生物学的某些机制,基冈 表达谱分析更有利于理解癌症细胞中的遗传改变所导致的一系列结果,即成千 上万个基冈表达方式的变化。此外,微阵列技术已经成为肿瘤r f l 新的“分子生物 学”技术,7 并用于鉴定诸如人皮肤黑色素瘤等不同肿瘤中新的致病基因。 微阵列广泛应用的另一重要原冈是为了理解基冈网络( n e t w o r k ) 或途径 ( p a t h w a y ) 。传统的分子生物学方法基本上是针对“一个基因一个实验”的设计 思路,其通量非常有限。同时,很难获得基冈功能的整体框架。例如,传统方 法用来解析基因之间相互关系的方法之一是通过“敲除”某种组织中表达的基 冈,仅在很小规模上观察对相同或者不同组织巾对其他基冈的表达的影响。这 种方法在多个基因功能研究中显得尤为缓慢,效率极低。微阵列可在单一芯片 上同时监测整个基冈组的变化,冈而可同时理解成千上万个基冈之间的相互作 用,对整个表达谱( e x p r e s s i o np r o f i l e ) 有一全面认识。这种基因表达谱可以是 来自正常或异常样本。尽管要从所得结果巾推断基冈间的相互作用仍是当代功 能基因组中最具挑战性的一项任务,但获得这些资料后无疑可进一步了解该基 冈所处的途径及其相互作用的信息。另外,一个基冈是如何影响另一个基冈的 表达,有利于阐明某一途径的启动基因,并以此用作药靶。可以肯定的是,微 阵列技术将不仅仅在基础分子生物学的基冈研究巾起非常重要的作用,也将在 疾病机制的了解、诊断和预后,以及药物靶分子鉴定中发挥重要作用。 根据功能,基冈芯片可分为基冈表达谱芯片和d n a 测序芯片两类。基冈表 达谱芯片将克隆的成千上万个基因特异的探针或c d n a 片段固定在一块d n a 芯片上,能对基冈表达的个体特异性、组织特异性、发育阶段特异性、分化阶 段特异性、病变特异性、刺激特异性进行综合的分析和判断,极大加快基因功 能的确定,同时可进一步研究基冈间相互作用的关系。d n a 测序芯片是基于杂 交测序发展起来的,可以检测d n a 和r n a 序列的亚序列,重新组建原序列。 根据芯片所用基冈探针的类型不同,基冈芯片又可分为c d n a 微阵列和寡核苷 酸阵列( o l i g o n u c l c o t i d em i c r o a r r a y ) 两大类。寡核苷酸是根据反向杂交的原理, 把事先设计并合成好的十几至几十个碱基的寡核苷酸通过点样仪或原位合成技 术固定到玻片上,与荧光标记的待检序列在一定条件下杂交,经洗涤后扫描获 得检测信息。c d n a 微阵列将无数预先设计好的寡核苷酸、c d n a 或基冈组d n a 有序地高密度固定排列在载体上制成点阵,并利用全新的反向固相杂交技术, 一次性检测和分析样品巾的大量序列。c d n a 微阵列技术在基冈表达检测上具 有十分广泛的用途,与之相关的文献占各种微阵列引文总数的6 5 左右【7 】。从 应用领域出发可将基冈芯片分为各种专用型芯片,如毒理学芯片( t o xc h i p ) 、 表达谱芯片、测序芯片等【5 1 。图1 - 4 是利用c d n a 芯片测定样本中基因表达情 况。 北京工业大学工学硕士学位论文 鸳孓潞 l 嚣l 晰,卜y 姗: :黜 图1 4e d n a 芯片测定样本基冈表达嘲 f i g 1 4d e t e c t i o no f g e n ee x p r e s s i o nw i t he d n ac h i p 目前生物信息学在基因芯片中的应用主要体现在三个方面:( 1 ) 确定芯片 检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列 数据,通过序列比对,找出特征序列,作为芯片设计的参照序列;( 2 ) 芯片设 计。主要包括两个方面,即探针的设计和探针在芯片上的布局;( 3 ) 实验数据 管理与分析。对基因芯片杂交图像处理,给出试验结果,并运用生物信息学方 法对实验进行可靠性分析,得到基因序列编译结果或基因表达分析结果。 基因芯片有着极为光明的市场前景,相关的产业也正在崛起。目前基因芯 片的生产主要掌握在a f f y m e t r i x 、m o l e c u l a rd y n a m i c s 和g e n o m i c ss o u t i o n 等国 外大公司手中。中国也及时制定了自己的芯片发展战略,在2 0 0 2 年的8 6 3 高技 术项目中正式启动了功能基因组和生物芯片重大专项。生物芯片技术所带来的 革命性技术进步,将对生物医学研究和疾病诊断起到巨大革新作用,所以其未 来的成长和发展空间是巨大的。 1 2 2 基因表达谱数据分析 基因表达谱数据反映的是直接或间接测量得到的基因转录产物m r n a 在细 胞中的丰度,其重要来源是基因芯片。一次微阵列实验能获得细胞在某一条件 尹甲 瞰、 第1 革绪论 下的全基冈组表达数据,包含成千上万个基冈在细胞巾的相对或绝对丰度,不 同条件( 细胞周期的不同阶段、药物作用时间、肿瘤类型及不同病人等) 下的 全基因组表达数据就构成了一个s x n 的数据矩阵协其中每一个元素五,代表 第f 个基冈在第,个条件下的表达水平值。行向量葺= ( 薯l ,而2 ,轴) 表示基 因f 在个条件下的表达水平,列向量x ,= ( 墨,惑, 一,h ) 表示条件,下各基因 的表达水平。通常情况下数据矩阵中s 羚,若将每一列看成一个样本,则基因 表达谱数据具有典型的小样本、高维度的特点。如何处理和分析这些数据并挖 掘背后隐藏的重要信息成为摆在人们而前的难题【9 1 。目前,对基因表达数据的 分析主要是在3 个层次上进行1 3 :( 1 ) 分析单个基凶的表达水平。例如,根据 表达差异的显著性确定肿瘤分型相关的特征基因。( 2 ) 基因组合分析,将基因 组合,研究其共同功能、相互作用等。( 3 ) 基凶调控网络分析,从机理上解释 观察到的基因表达数据。 基凶表达数据的具体分析过程可以分为以下3 步: ( 1 ) 数据预处理。是指在分类和特征基因选择之前对数据进行包括丢失数 据填补、噪音过滤、数据转换等处理。受检测技术和芯片质量的影响,许多用 来分析的数据会出现部分缺失值。数据的缺失对于某些后续数据分析方法,如 层次聚类( h i e r a r c h i c a lc l u s t e r i n g ) 和p c a ( p r i n c i p a lc o m p o n e n t sa n a l y s i s ) 来 说有着非常大的影响。一个简单的处理方法是将包含缺失值的行或者列剔除, 这将同时丢失部分有用的信息。也可以设定一个阈值,计算行或者列中缺失值 的数量,超过阈值则剔除该行或列,否则以0 或表达谱中的平均值或中值代替。 这种方法与前一种有相同问题,也难以评估其与真实值是否相近。较为可靠的 方法是利用k 近邻法( k - n e a r e s t n c i g h b o r ,k n n ) b o 思想,根据相邻数据点之 间的关系选择填补值。此外,为了使数据适应数据挖掘方法,常进行数据转换, 如数据标准化等。 ( 2 ) 数据标准化。微阵列技术使得研究者可同时监测成千上万个基凶的 表达情况。但是微阵列实验中会出现许多不合需要的系统误差 6 】。表1 1 总结了 c d n a 微阵列实验中常见的误差来源。 北京工业大学工学硕上学位论文 表1 1 微阵列实验误差来源 t a b l el 一1s o u r c eo f e r r o ri nm i c r o - a r r a ye x p e r i m e n t s 误差来源评价 m r n a 样品制备因组织类型、试剂盒、对r n a 降解的敏感度不同,样品间的 靶分子可出现差别 标记方法 受标记方法、操作过程及核苷酸组成的影响 扩增方法 p c r 扩增难以避免扩增量的差别 点样针点样针的表面性能有差别 探针体积 即使用同一点样针也会出现移液量的细微差别 探针固定尚不清楚c d n a 探针中究竟有多少量被结合到玻片表面 杂交反应 受许多参数的影响,如温度、时间、缓冲液和靶分子数量的影 响 玻片的不均一性 可能因为表面封闭的不均匀,导致探针分布或杂交反应不均一 非特异性杂交无法完全消除的一种常见误差 非特异性背景非特异信号的产生可来自邻近点的信号或背景的平均强度的 加深 图像分析非线性传递特性、饱和效应和点型可导致误差 图像分割光是一种污染信号 点形 点形不规则很难从背景中分割出来 标准化是进行数据准确分析的关键,从统计学角度,微阵列数据的标准化 是通过不同的数据转换方法以便不同样品或实验具有可比性。最基本的正态化 方法是将荧光强度或强度比值进行对数转换以达到接近正态分布,从而减少荧 光强度或其比值的变异性,使其不受绝对值中数量级差别的影响。另一种数据 转换过程,也就是通常意义下的标准化过程,是将来自不同实验的数据转换后 具有可比性。最常用的方法是将数值转换为z 值。微阵列数据处理中最常用的 数据转换方法又称中心化,就是将某个分布移到预计均数处使之对称,便于两 个或多个样本比较。所有这些方法的最终目的是将数据正态化,使得各基凶相 应的数值间具有可比性。 ( 3 ) 数据分析过程。表达谱数据分析是生物信息学研究的最重要一环,目 的是充分利用表达谱数据,挖掘数据背后隐藏的深层次的生物学知识。肿瘤亚 型分类和寻找特征基凶是肿瘤表达谱分析的主要内容。通过显著性分析计算特 征基因在不同条件下的表达差异是否显著,以减少微阵列实验次数,降低成本; 利用各种聚类算法和分类算法进行肿瘤分类,达到诊断和预测肿瘤的目的:建 立基因调控网络,可以研究基因之间的相互联系。 第1 章绪论 ( 4 ) 结果解释。基冈表达谱数据分析的结果需要进行合理的生物学解释。 以肿瘤的分类和特征基因选择为例,一方面,需要验证利用表达谱数据构建的 分类器的分类效果是否准确可靠。通过交叉检验( c r o s sv a l i d a t i o n ) 和对新样本 的分类准确率来验证。另一方面,选择的特征基因是否具有显著的表达差异, 能否对肿瘤的预测和治疗起积极作用。对特征基冈的解释通常借助于医学手段, 例如,可以使用荧光实时定量p c r ( o r t - p c r ) 【1 1 】来对比所选基因在两类样 本巾的表达强度。 基因表达谱数据分析是生物信息学最重要的研究内容之一。通过数据分析, 发现数据之间的关系,认识数据的本质,进而解释与生物分子信息复制、传递 和表达有关的生物进程,是生物信息学的一个重要任务。而围绕它所展开的大 量的课题和研究必然会推动人类了解自身的进程。 1 3 模式识别与生物信息学 模式识别( p a t t e r nr e c o g n i t i o n ) b 2 i 又称作模式分类,是一种从大量信息和 数据出发,在专家经验和已有认识的基础上,利用计算机和数学推理的方法对 形状、模式、曲线、数字、字符格式和图形自动完成识别的过程。从处理问题 的性质和解决问题的方法等角度划分,模式识别分为有监督( s u p e r v i s e d ) 和无 j l 【督( u n s u p e r v i s e d ) 的模式识别。模式识别与统计学、心理学、语言学、计算 机科学、生物学、控制论等都有关系,被广泛应用于文字和语音识别、图像处 理、医学诊断等各个方面。 在2 0 世纪6 0 年代之前,模式识别中主要用于统计学领域的基础研究。而 随着基因芯片技术的兴起,模式识别技术在生物学领域得到广泛使用,成为分 析生物信息数据最重要的工具之一。通常,模式识别包括相互关联的两个阶段, 即学习阶段和实现阶段。前者是对样本进行特征选择,寻找分类的规律;后者 是根据分类规律对未知样本集进行分类和识别。在芯片表达谱数据分析过程中, 两个阶段分别对应特征基因选择和肿痛分类。由于模式识别方法可以方便地处 理基冈芯片检测的大量生物信息数据,所以在生物信息学尤其是肿瘤的研究巾 得到了极其重要的应用。通过特征基因的选择寻找与肿瘤的产生和发展相关的 标志基因,进而构建分类器进行肿瘤的分类和预测,最终达到临床上诊断和治 愈癌症的目的。模式识别已经形成了完整的知识体系,表1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环保型塑料丝绳回收再利用-洞察与解读
- 2025年消防安全教育培训考试题库(应急处理)理论试题及答案
- 南昌事业单位招聘考试综合类职业能力倾向测验真题模拟试卷
- 2025年事业单位招聘考试综合类无领导小组讨论面试真题模拟试卷(2025年考前模拟训练)
- 2025年事业单位招聘考试综合类专业能力测试试卷(管理类)2025年真题模拟解析与应用
- 2025年卫生类药学专业知识事业单位招聘考试重点难点解析及答案
- 绿色食材供应链优化-第1篇-洞察与解读
- 2025年中国硒化砷(III)行业市场分析及投资价值评估前景预测报告
- 2025年中国无线电伺服马达行业市场分析及投资价值评估前景预测报告
- 高频信号传输优化-第1篇-洞察与解读
- 第2课 第一框 中国特色社会主义的开创和发展
- 大学军事理论课教程第三章军事思想第一节军事思想概述
- 鱼池净化系统施工方案
- 新概念第一册语法汇总
- 流化床粉尘分级机持料量的控制
- 第八届全国小动物医师技能大赛考试复习题库(含答案)
- 公司职级职务管理办法RL
- 《环境化学》(第二版)全书教学课件
- 红光镇商业市调报告
- 《同分母分数减法》教学设计
- 货物采购服务方案
评论
0/150
提交评论