（应用数学专业论文）基因表达数据的判别分析与变量选择方法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：103 大小：4.87MB 积分：0 举报 版权申诉

已阅读5页，还剩98页未读，继续免费阅读

（应用数学专业论文）基因表达数据的判别分析与变量选择方法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要基因表达数据的判别分析与变量选择方法研究专业：应用数学博士生：石玉导师：戴道清教授摘要随着人类基因组草图绘就的完成，人类基因组研究计划( h u m a ng e n o m e p r o j e c t ，h g p ) 进入了后基因组时代。后基因组时代研究的重点由基因序列研究上升为基因功能的研究。2 0 世纪9 0 年代开发的微阵列技术使研究人员可以同时测定成千上万个基因的表达水平。这为研究基因之间表达控制的复杂关系，生物标志物的检测 ( b i o m a r k e ri d e n t i f i c a t i o n ) 以及癌症分类( c a n c e rc l a s s i f i c a t i o n ) 提供了重要依据。然而基因表达数据高维数、高噪声的特点对分析方法提出了更高的要求。如何在海量基因表达数据中，发现肿瘤组织的基因表达模式，成功地将临床表征不明或容易误诊的恶性肿瘤准确、快速地区分开，是一项具有挑战性的研究课题。这将为癌症的早期诊断与及时治疗做出重要的贡献。近年来，多种判别分析和变量选择的方法用于基因表达数据的分析。生物标志物的检测就是从成千上万的基因当中检测出那些与肿瘤的起因、发展紧密相关的关键基因。一个有效的生物标志物检测应该使癌症的诊断更准确而且更容易解释。本文围绕在判别分析中利用稀疏惩罚实现变量选择的方法，及其在基于基因表达数据进行生物标志物检测和癌症诊断的应用，做了三个方面的研究工作，概括如下： ( 一) 将惩罚高斯混合模型应用于有监督学习，并应用到癌症分类和生物标志物第1 页中山大学博士学位论文的检测中。该方法将高斯混合模型与惩罚似然估计相结合，通过对对数似然函数增加一个关于类均值的l 1 惩罚项，使得类均值产生一个稀疏解。将该方法用于一个稀疏模拟数据和几个基因表达数据集中，实验结果显示该方法在具有稀疏结构的数据中，均可以取得比较准确且稳定的分类结果。该方法具有不受类数限制和对变量预选择个数不敏感等优点。 ( 二) 将惩罚高斯混合模型的特殊情况稀疏判别分析应用于乳腺癌的生物标志物检测和癌症分类中。该方法不仅可以正确的将癌症分类，而且在分类过程中自动提取出生物标志物。深入分析这一过程的实现，本文给出了一个数学的合理性解释。挑选出的生物标志物亦得到了生物医学研究的验证，并用三个生物标志物对乳腺癌样本进行可视化检视。 ( 三) 提出稀疏极大边界的特征提取方法，并应用于基因表达数据分析中。该方法结合极大边界准则的高效性和弹性网的解的稀疏性，使得提取到的最佳分类特征仅仅是少数原始变量的线性组合。应用在基因表达数据分析中，该方法不仅可以取得良好的癌症分类效果，而且具有很好的生物解释意义，为寻找致病基因提供了重要依据。关键词：稀疏，变量选择，高斯混合模型，极大化惩罚似然，极大边界准则，微阵列，基因表达，生物标志物，癌症分类。第1 i 页英文摘要场r i a b l es e l e c t i o no f a n a l y s i sa n d g e n ee x p r e s s i o nd a t a m a j o r ：a p p l i e dm a t h e m a t i c s n a l t l e ：y us 1 1 i s u p e r v i s o r ：p r o f e s s o rd a o - q i n gd a i a bs t r a c t w i t ht h ec o m p l e t i o no ft h eh u m a ng e n o m ep r o j e c t ，t h ec o r eo ft h eb i o l o g i c a lr e s e a r c h i sc h a n g i n gf r o mg e n e s e q u e n c et og e n ef u n c t i o n t h ec d n am i c r o a r r a yt e c h n o l o g y , w h i c h w a sd e v e l o p e di nt h en i n e t i e so ft h e2 0 t hc e n t u r y , m a k e si tp o s s i b l et os i m u l t a n e o u s l y m e a s u r et h ee x p r e s s i o nl e v e l so ft h o u s a n d so fg e n e s t h i st e c h n o l o g ys p u r st h er e s e a r c h o nb i o m a r k e ri d e n t i f i c a t i o na n dc a n c e rc l a s s i f i c a t i o nu s i n gg e n ee x p r e s s i o nd a t a h o w - e v e r ，h o wt oe f f e c t i v ee x p l o i tt h eu s e f u li n f o r m a t i o nf r o mt h e s eu n p r e c e d e n t e da m o u n to f m i c r o a r r a yd a t ab yc o m p u t a t i o n a lm e t h o d si sa no p e na n dc h a l l e n g i n gi s s u e i nr e c e n ty e a r s ，v a r i o u sd i s c r i m i n a n ta n a l y s i sa n dv a r i a b l es e l e c t i o nm e t h o d sh a v eb e e n u s e df o rc a n c e rc l a s s i f i c a t i o na n db i o m a r k e ri d e n t i f i c a t i o n ，w h i c ha r et w oh i g h l yc o r r e l a t e d p r o b l e m s i nt h i sd i s s e r t a t i o n ，w ef o c u so ns o m ei n t e g r a t e df r a m e w o r kt h a te m b e dv a r i - a b l es e l e c t i o ni n t od i s c r i m i n a n ta n a l y s i s o u rm e t h o dc a nc a p t u r et h er e d u n d a n c ya n d t h ei n t e r a c t i o ni n f o r m a t i o nb e t w e e nv a r i a b l e sa n ds e l e c tv a r i a b l e sd i r e c t l yo p t i m i z i n gt h e p e r f o r m a n c eo ff i n a lc l a s s i f i e r t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r es u m m a r i z e d a sf o l l o w s ： f i r s t l y , p e n a l i z e dg a u s s i a nm i x t u r em o d e li su s e df o rc a n c e rc l a s s i f i c a t i o n t h i s m e t h o du s e sp e n a l i z e dl i k e l i h o o de s t i m a t i o nt oc a l c u l a t et h ep a r a m e t e r si ng a u s s i a n 第1 i i 页中山大学博士学位论文 m i x t u r em o d e l a nl 1 一n o r mp e n a l t yi m p o s e do nc l a s sm e a nv e c t o rr e s u l t si nas p a r s e e s t i m a t i o n i t sa p p l i c a t i o no nas p a r s es i m u l a t e dd a t aa n ds e v e r a lg e n ee x p r e s s i o nd a t a s e t sd e m o n s t r a t e st h a tt h i sm e t h o di se f f e c t i v ea n dr o b u s tf o rs p a r s ed a t a s e c o n d l y , a sas p e c i a lc a s eo fp e n a l i z e dg a u s s i a nm i x t u r em o d e l ，t h es p a r s ed i s c r i m - i n a n ta n a l y s i si sp r o p o s e df o rb r e a s tc a n c e rb i o m a r k e ri d e n t i f i c a t i o na n dc l a s s i f i c a t i o n s i m u l t a n e o u s l y w ea l s og i v eam a t h e m a t i c a lj u s t i f i c a t i o na b o u ta u t o m a t i cb i o m a r k e r i d e n t i f i c a t i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o dc a ni d e n t i f yk e yg e n e s t h a th a v eb e e nv e r i f i e di nb i o c h e m i c a lo rb i o m e d i c a lr e s e a r c ha n dc l a s s i f yt h eb r e a s tc a n c e r t y p ec o r r e c t l y m o r e o v e r ，w ep r e s e n tav i s u a l i z a t i o ni n s p e c t i o no nt h r e eb i o m a r k e r s t h i r d l y , as p a r s em a x i m u mm a r g i nf e a t u r ee x t r a c t i o nm e t h o di sp r o p o s e d ，a n da p p l i e d t og e n ee x p r e s s i o na n a l y s i s w ei n s p e c tt h em a x i m u mm a r g i nc r i t e r i o np r o b l e mi na r e g r e s s i o n - t y p ev i e wa n dt h e nu s et h ee l a s t i cn e tt op r o d u c es p a r s em a x i m u mm a r g i n f e a t u r e i t sa p p l i c a t i o no i lt h r e eg e n ee x p r e s s i o nd a t as e t ss h o wt h a tt h es p a r s em a x i m u m m a r g i nf e a t u r ec a nc a p t u r et h em o s td i s c r i m i n a n ti n f o r m a t i o nf r o mf e wg e n e sf o rc a n c e r c l a s s i f i c a t i o n i ti ss i g n i f i c a n tf o rb i o m a r k e r si d e n t i f i c a t i o nt h a tt h e s ef e a t u r ec a nb e i n t e r p r e t e di n t u i t i v e l y k e yw o r d s ：s p a r s e ，v a r i a b l es e l e c t i o n ，g a u s s i a nm i x t u r em o d e l ，m a x i m u mp e n a l t y l i k e l i h o o d ，m a x i m u mm a r g i nc r i t e r i o n ，m i c r o a r r a y , g e n ee x p r e s s i o n ，b i o m a r k e r ，c a n c e r c l a s s i f i c a t i o n 第页插图插图 l l 基因的转录与翻译过程 4 】 3 1 2 酵母基因芯片的伪彩图 5 】 4 1 3c d n a 芯片的制作过程f 6 1 6 1 - 4 基因芯片分析流程图【1 0 】 8 1 5 基因表达数据的分层聚类分析结果示意图【1 7 】1 0 2 一l 最佳分离超平面示意图2 1 3 - l 模拟数据3 6 3 - 2 ( a ) 表示不同惩罚参数相应的识别率，( b ) 表示不同惩罚参数相应的变量个数3 7 3 - 3 八个方法在六个数据库上识别率的对比4 0 3 - 4 本文方法在不同基因预选择数目下的识别率4 l 3 - 5 惩罚参数对基因个数与识别率的影响4 l 4 - l2 2 个乳腺癌样本的三维p c a 可视化检视，其中包括7 个b r c a l 突变样本，1 5 个b r c a 2 突变和散发性乳腺癌样本，分别用红色小圆圈、和绿色小星表示。图( a ) 用全部3 2 2 6 个基因的前三个主成份，图( b ) 使用b s s w s s 准则预选的2 0 0 个基因的前三个主成份，图( c ) 用文中方法挑选出的2 0 个基因( 见表4 - 1 ) 的三个主成份5 1 4 22 2 个乳腺癌样本在三个生物标志物下的可视化检视，其中包括7 个b r c a l 突变样本，1 5 个b r c a 2 突变和散发性样本，分别用红色小圆圈、和绿色小星表示。图( a ) 用表4 1 中的第一、第二、第三个生物标志物a n x a l 、c a t e n i n a l p h a l 和c u l l i n l ；图( b ) 用表4 1 中第二、第三、第四个生物标志物c a t e n i n - a l p h a l 、c u l l i n l 和h i s r s ；图( c ) 第三、第四、第五个生物标志物c u l l i n l 、h i s r s 和a t d c 5 4 第8 3 页中山大学博士学位论文 5 _ 1 5 - 2 5 3 5 6 实验流程图7 0 单个特征的稀疏变量个数比较7 5 前列腺癌数据集在提取特征上的可视化检视，( a ) ：s m m f ，( b ) - m m f ，( c ) ：s p c a ，( d ) ：p c a 7 6 白血病数据集在提取特征上的可视化检视，( a ) ：s m m f ，( b ) ：m m f ，( c ) ：s p c a ，( d ) ：p c a 7 7 小圆形蓝色细胞瘤数据集在提取特征上的可视化检视，( a ) ：s m m f ，( b ) - m m f ，( c ) ：s p c a ，( d ) - p c a 7 8 1 0 0 次稀疏极大边界特征提取选取次数最多的1 0 个基因，左图为对应基因的挑选次数，右图为挑选出的基因在1 0 2 个样本中的表达谱7 9 第8 4 页表格表格 2 1 基因表达数据分析中的主要变量选择方法2 6 3 - 1 数据集的结构3 8 孓2 几个不同方法之间的比较3 9 孓3 本文方法在不同基因预选择数目下的识别率4 0 3 4 本方法在不同基因预选择情况下需要的时间4 0 4 一l 检测出的生物标志物5 3 4 - 2 分类效果比较5 5 5 - 1s m m f 与m m f 、s p c a 、p c a 三种方法在取k 一1 个特征时识别率的比较7 2 5 - 2 s m m f 与m m f 、s p c a 、p c a 三种方法在取k 个特征时识别率的比较7 3 第8 5 页论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年学位论文使用授权声明芦厶 g 窍se l 本人完全了解中山大学有关保留、使用学位论文的规定，即：学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版，有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅，有权将学位论文的内容编入有关数据库进行检索，可以采用复印、缩印或其他方法保存学位论文。学位论文作者签名：万b 日期：砷年石月s 日导师铭叭6 峰日期：矿气年6 月毛e l 第一章绪论第一章绪论 1 1引言人类d n a 序列是人类生命的决定性因素，人类生命活动中发生的一切事情，都与这一序列息息相关。为了更深入的了解和认识生命奥秘，早在1 9 9 0 年，美国科学家率先提出并实施了人类基因组计划( h u m a ng e n o m ep r o j e c t ，h g p ) 。该计划旨在阐明人类基因组3 0 亿个碱基对( b a s ep a i r ，b p ) 的序列，破译人类全部遗传信息。h g p 被誉为生命科学的“阿波罗登月计划”。h g p 建立的人类基因组图将成为疾病预防、预测、诊断、治疗及个体医疗的参照，为在分子层次上进行生物医学研究提供了科学依据。随着人类基因组图绘就的完成、序列的解码，我们已经进入“后基因组一( p o s t g e n o m i c s ) 时代。当前基因组学的研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平上对基因功能的研究。后基因组的任务是进行基因组功能注释，了解基因的功能，认识基因与疾病之间的关系，掌握基因的产物及其在生命活动中的作用1 1 。在后基因组时代，基因组信息的收集、储存、分析显得越来越紧迫和重要。实验数据和可利用信息急剧增加，为研究者提供了不可想像的巨量生物学信息资源，同时也对数据分析能力提出了巨大的挑战。随着计算机技术的发展，序列测定技术日益向工业化发展，基因重组、微阵列技术和多维核磁共振等各项新技术得到了广泛应用，这些工作使得生物学实验数据呈爆炸趋势增长。由高通量的d n a 测序技术带来的序列数据，后基因组时代的功能基因组研究产生的蛋白质结构数据和蛋白质相互作用信息，微阵列技术带来的表达和突变数据，为生物学研究走向定量化奠定了基础。然而，数据并不等于信息和知识，过去的信息收集、储存、处理和分析方式已经远远不能满足现今实际研究的需要。如何从这些数据中获取有用的生物学信息是现今研究问题的关键所在。结合各学科的优势，对生物分子数据进行收集与管理、提供数据库搜索及序列比对、基因组序列分析、基因表达数据的分析和处理、蛋白质结构预测等是后基因组时代的重要研究课题。数理科学和计算机科学的方法与手段能够更好的处理大规模数据，抽取所需信息，从而为生命科学更好的认识生命，揭示生物界的奥秘提第1 页中山大学博士学位论文供了有效的研究工具【2 】【3 】。分析基因表达数据是当前生物信息学研究的热点和重点。在以往生物信息数据的分析处理中，一次数据处理的对象往往只是单个或几个生物分子，而现在一块基因芯片就可以产生上千个基因的表达数据。数据处理量大幅度增加，数据之间的关系也更加复杂。对基因表达数据，在大规模数据集上进行分析、归纳，可以了解基因表达的时空规律，探索基因表达的代谢控制，了解基因的功能，理解遗传网络，提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。作为本文的重要应用领域、研究背景，本章对基因表达数据的产生，应用及主要研究方法做一个介绍。 1 2 基因表达数据的产生基因( g e n e ) 作为一个基本的遗传功能单位，也称为遗传因子，它的原始功能是编码组成蛋白质或多肽的氨基酸序列。基因是可以转录成r n a 的基因组片段，如果这种r n a 是编码蛋白质的，称为信使r n a ( m r n a ) ；它能翻译成蛋白质，这类基因就成为编码蛋白质基因。如果r n a 是非编码的核糖体r n a ( r r n a ) 和转运r n a ( t r n a ) ，它不能翻译成蛋白质，这类基因就称为编码r n a 基因。基因的转录是基因表达的第一步，也就是基因表达调控的关键步骤，在这一过程中，基因组中的基因将在不同的转录信号调控下，开放或关闭该基因的表达，呈现不同的表达程度及不同的表达方式。基因转录的几个关键步骤为：转录起始、转录延伸、转录后加工。转录起始指转录起始蛋白复合物在基因上游的组装，这些蛋白复合物负责将d n a 转录成r n a ，基因能否表达是由这一步决定的。转录延伸是r n a 聚合酶沿基因移动合成初级转录本，即基因的拷贝。转录后加工是对初级转录本的加工和修饰。转录的调控也针对这三个步骤，其中最重要的是在转录起始阶段的调控。这是基因能否表达的关键。基因的转录与翻译过程见图l 一1 。基因表达数据反映的是直接或间接测量到的基因转录产物m r n a 在细胞中的丰度，这些数据可以用于分析哪些基因的表达发生了改变，基因之间有何相关性，在不同条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾第2 页第一章绪论图1 - l基因的转录与翻译过程4 病发生机制等方面有着重要的应用。 12 1 生物芯片生物芯片( m i r m m t y ) 是目前高通量检测基因组m r n a 丰度的土要方法，包括c d n a 微阵列、寡核昔酸微阵列、蛋白质微阵列和小分子化台物微阵列。基因芯片又称d n a 芯片，是专门用于核酸检测的生物芯片，也是目前运用最广泛的微阵列芯片。住学科交叉不断深入的基础上诞生的生物芯片技术目前已成为国际上的前沿研究热点。生物芯片的概念是f o d o r 等人于1 9 9 1 年在s c i e n c e 上提出的，源自计算机芯片。生物芯片是指能快速并行处理多个生物样品并对其包含的生物信息进行解析的微型器件，它的加工运用了微电子工业中十分成熟的光刻技术和微机电系统加工中采用的各种方法，由于处理对象是生物样品，故称之为“生物芯片”。在生物芯片出现的初期，主要研究对象是d n a 芯片，以用j ：d n a $ 4 序、基因袭达谱鉴定和基崩突变体的枪测和分析，所以它又被成为d n a 芯片或者基因芯片。经过十多年的发展，生物芯第3 页图1 - 2酵母基因芯片的伪彩图【5 片的范围己远远超出了d n a 芯片本身。迄今己有近百家公司，从事各种生物芯片相关工艺、设备、检测手段和软件的研发工作。其中，最著名的为a f f m c r t i x 公司，目前最大也是最早生产基因芯片的厂商，利用原位合成法制作了一系列的寡核普酸探针阵列芯片，包括人、小鼠、大鼠和其它生物模式的基因表达芯片。图1 - 2 为整个酵母基因组芯片。基因芯片是生物芯片技术中发展最成熟和最先实现商品化的产品。基因芯片是基于核酸探针互补杂交技术原理研制而成的。所谓核酸探针只是一段人工合成的碱基序列，在探针上连接了一些可检测的物质，根据碱基互补的原理，利用基因探针到基因混合物中识别特定基因。基因芯片由高度集成的成千上万的网格状密集排列的基因探针构成，通过己知碱基顺序的d n a 片段，来结合碱基互补序列的单链d n a ，从而确定相应的序列，通过这种方式来识别异常基因或其产物等。目前，比较成熟的产品有检测基因突变的基因芯片和检测细胞基因表达水平的基因表达谱芯片。第4 页第一章绪论 1 2 2 生物芯片的制备1 c d n a 微阵列、寡核苷酸微阵列等各种生物芯片的制作原理是相同的，即利用4 种核苷酸之间两两配对互补的特性，使两条在序列上互补的单核苷酸链形成双链，这个过程被称为杂交。基本技术线路是：制备芯片，在一个约1 c m 2 大小的玻璃片上，将称为探针的c d n a 或寡核苷酸片段固定在上面；从细胞或组织中提取m r n a ，通过r t p c r 合成荧光标记的c d n a ，与芯片杂交；用激光显微镜或荧光显微镜检测杂交后的芯片，获取荧光强度，分析并得到细胞中m r n a 丰度的信息。 c d n a 微阵列是在1 9 9 5 年由斯坦福大学率先验证成功并应用于基因表达分析的。在制备样本时，点样点的大小是不能保证完全一样的，点的排列也可能是不规则的，这意味着要比较不同微阵列图像的绝对荧光强度是不合理的，因此通常使用双色荧光系统来纠正样点之间的差异。图1 3 显示了c d n a 芯片的制作过程。芯片制备中使用两个样本，一个称为控制样本( c o n t r o ls a m p l e ) 或对照样本( r e f e r e n c es a m p l e ) ，通常用绿色荧光素( c y 3 ) 标记其c d n a ；另一个称为测量样本( t e s ts a m p l e ) ，用红色荧光素( c y 5 ) 标记其c d n a 。这两个样本按照相同的实验方案分别制备不同荧光素标记的c d n a ，并按1 ：1 的比例混合，然后与c d n a 微阵列杂交，用不同波长的激光扫描杂交后的微阵列，分别获取荧光强度并成像。如果来自两个样本的基因以相同水平表达则显示黄色，而如果表达水平有差异，则图像显示红色或绿色。因此，c d n a 微阵列的实验数据反映了两个样本中基因的相对表达水平。由于c y 3 和c y 5 的标记效率不相等，以及存在系统噪声等原因，通常需要对c d n a 微阵列实验中获取的原始图像数据进行归一化。例如，如果用c y 3 、c y 5 两种荧光素分别标记的一些基因的表达水平相等，那么这些点的实验结果中c y 3 c y 5 荧光强度比率值( r a t i o 值) 的期望为1 ，但实际得到的r a t i o 值往往不等于1 ，这些实验偏差可以通过归一化来纠正。对微阵列进行归一化的指导思想包括基于全局的强度值调整、强度相关归一化、基片之间的对比归一化等，具体方法包括总密度( 假设两个样本中的总r n a 是相等的) 归化、线性回归、r a t i o 统计、迭代l o g ( r a t i o ) 平均值中心化等，与微阵列扫描系统配套的软件可以完成归一化工作。 c d n a 微阵列实验得到的值反映了基因的相对表达水平，即测量样本与对照样本之间荧光信号强度的比率或者对数化的比率，这是一个无量纲的值，可用于比较一组第5 页飞。尹 m “少u 一口图1 - 3c d n a , 芯y ；f f j 制作过程【6 】6 实验中的基因相对表达水平。如果对照样本的信号非常低，那么这个比率就可能非常大，可能主要是噪声信号，因此它很可能是无意义的。这些数据往往被看作是不确定的点或异常点( o u t l i e r ) ，在后续分析时要注意这些数据，根据需要确定是否保留以及如何纠正其值。 12 3 基因芯片图像处理微阵列检测设备通过激发芯片表面的荧光染料，将光子转化为能储存在计算机中的数字值来采集发射出的荧光。因此数字式的微阵列图像足荧光点的数字表达。微阵列图像的每一像素包含一个离散的值，代表芯片相应区域荧光信号的平均强度。微阵列扫描仪的调准图像格式是t i f f 。图像分析的目的是从图像中精确地提取并得到各个样点真正的数据信息。图像信息的准确提取也是下一步基因表达数据分析合理有据的重要保证f 7 ，8 1 。就目前的研究而言，生物芯片的图像分析涉及了图像分割、图像匹配、图像增第6 页第一章绪论强、几何变换、模式识别等算法和方法，主要包括网格定位、靶点分割两个步骤。网格定位是进行芯片分析的第一步，也就是在基因芯片图像上确定各探针的杂交信号点的位置，在此基础上准确地提取各探针的杂交信号。这是进行后续芯片分析的前提。网格定位的自动化是生物芯片所面临的难点之一，如何在自动化的基础上保证定位的准确性是目前研究中需要攻克的问题。网格定位只能确定靶点阵列的大致位置，必须通过图像分割算法将芯片阵列上每个靶点的准确位置确定下来。生物芯片图像的靶点分割是在完成网格定位的基础上进行的。基因序列或蛋白质在载体上进行特异性反应后形成的结合区域经过扫描形成图像后，将表现为排列规则的样品斑点区域，基因序列或蛋白质特异性反应的程度与斑点的荧光强度成正比。因此靶点分割的目的就是将基因序列或蛋白质特异性反应的荧光斑点区域从图像的背景中提取出来。提取出的荧光信号最后以数据列表的形式输出【9 】。目前图像分析的工作已比较成熟，b i o d i s c o v e r yi m a g e n e7 0 等分析软件可以完整完成图像分析的一系列过程。 1 3 基因表达数据的主要分析方法经过一系列的生物实验、芯片制作、图像提取之后得到基因的表达数据，还需要专门的数据分析方法来进行分析、判断推理，从而深入认识基因，了解各种生命现象。生物芯片分析的完整流程图见图1 4 。 1 3 1 数据预处理一次微阵列实验能获得细胞在某一条件下的全基因组表达数据，包含成千上万个基因在细胞中的相对或绝对丰度。不同条件( 细胞周期的不同阶段、药物作用的不同时间、不同肿瘤类型、不同病人等) 下的基因表达数据构成一个p n 的数据矩阵x ，，x l i x = i 观 l 二 x 1 2。x l n z 2 2 x 2 n x , p 2 。x p n 通常情况下p n ，其中每一个元素表示第i 个基因在第歹个条件下的表达水平。矩阵的每一行翰= ( 规1 ，x i 2 ，x i n ) 代表基因i 在几个条件下的表达水平，称为基因z 的表达谱；矩阵的每一列z j = ( x l j ，z 巧，锄) r 代表某一条件下各基因的表达水平。第7 页图1 - 4 基因芯片分析流程图1 0 基因芯片实验所涉及的不确定因素很多，不可避免地产生备类偶然误差，使得实验数据往往存在较大的噪声。数据的预处理就是要剔除这些噪声的影响，保证数据的准确性。消除偶然误差的通常做法是设计重复实验并采用相应的数据过滤和填充方法，去除不可靠的信息，同时保留可信的信息，从而保证实验数据的可靠性。数据的预处理主要包括数据归一化、清除不完整数据以及缺失数据填充。基因芯片的偶然误差主要来自随机扰动，理论上在重复实验中，这种随机因素造成的误差之和趋近于零，因此重复实验的平均值比单次实验的测定值更为可靠。进行归一化处理可有效地屏蔽或消除实验的系统误差，其主要包括三类方法：片内归一化、荧光通道间的成对归一化、多个芯片间的归一化。针对不同的实验条件和实验设计方案，可采用不同的归一化方法。基因芯片的数据过滤是通过某种标准对实验中的不可靠数据进行过滤的过程。例如，实验过程中低表达水平的样本所产生的信号往往很弱，难以与背景分开，应尽可第8 页第一章绪论能去除；如果一个基因谱中仅仅存在单个特别大的r a t i o 值，则称之为异常数据点。这往往是由于噪声造成的，这个异常点必须去除。常用的数据过滤方法有：标准差或奇异值过滤法、变异系数法、最小信号值法、信号背景比率法等。基因表达数据中，数据的缺失对于诸如聚类分析和主成份分析等后续的数据分析方法有着非常大的影响，甚至是致命性的。对于一些奇异点或者缺失的数据，一个简单直接的办法是直接过滤掉这些存在缺失数据项的行向量或者列向量，但这往往会造成诸多数据的损失。因此一个更好的选择是进行缺失数据的填充。常用的方法有用基因表达谱中的平均值或中值进行插值，用相邻数据点估算缺失值等 1 l ，1 2 1 。近来应用于基因表达数据的缺失值问题的最小二乘和贝叶斯等新的方法可参考【1 3 ，1 4 ，1 5 ，16 】。 1 3 2变量选择在d n a 微阵列实验中，基因数目成千上万，但实际上影响样本分类的往往只有很少一部分的关键基因，其他的基因往往是不相关、冗余的或者显著性较小的。对于生物医学研究来说，检测出那些关键基因，对了解生命机制、掌握疾病的发展起着至关重要的作用。变量选择是生物医学应用的实际需要。对于分析过程来说，过多的基因会导致噪声的增加，影响到分类和聚类的效果，增加计算复杂度。因此在基因表达数据分析中，变量的选择有助于降低计算复杂度，有利于克服过拟合现象。常用的变量选择方法依据选择的个数可以分为单变量、多变量法，依据变量选择在整个分析过程中的阶段分为过滤法、包装法和嵌入法。具体内容我们将在下一章节详细介绍。 1 3 3 聚类分析聚类分析( c l u s t e ra n a l y s i s ) 是将一组个体( o b j e c t s ) 按其相互之间的相似程度归入几个子类。根本思想是在某种相似性度量下，使得同一类内个体相似，而不同类间的个体相异。因此在进行聚类分析之前，必须首先确定反映不同个体相似程度的度量函数d ( x ，可) ，常见的相似性度量有欧氏距离、相关关系、互信息等。给定佗个个体的集合x = ( x l ，x 2 ，z n ) ，假设c = c x ，岛，o k 为集合x 的一个k 类划分，其中u 冬1c k = x ，且对任意1 k 2 k ，有靠i 1 白= m 。每一子集c k ，1 k k 为一个聚类，划分c 叫做聚类结果。常用的聚类方法有：分层聚类、k 均值聚类、和自组织映射等。图1 5 为一分层聚类分析的示意图。第9 页中山大学博士学位论x 哥 | | | | | | | | | | 褰| | | | | 麓 c d j g 图l5 基因表达数据的分层聚类分析结果示意图【1 7 第1 0 页第一章绪论聚类是探索性数据分析和模式发现的一种基本手段，其目的是提取数据中隐含的类结构。由于基因数量大，生物网络复杂，聚类分析成为目前处理基因表达数据的一种常用的有效技术。对基因表达数据的聚类分析主要包括关于基因聚类、关于样本聚类以及双聚类f 1 8 1 。在基因聚类分析中，聚类个体为基因，此时，每个基因的表达谱x i 为聚类算法的输入样本，各实验样品被视为特征。表达模式相似的基因可能具有共同的特征，如共同的调节元件，共有的生物功能，或者共同的细胞起源等。对基因进行聚类分析的主要任务是确定具有相似表达模式的基因，即将表达谱相似的基因归纳成类。基因表达聚类分析能推导和补充基因的功能注释。功能相关的基因通常共同表达，同一类基因往往具有相似的功能。根据同一类中已知基因的功能，可以提示未知功能基因的可能作用；对属于同一个类的基因进行功能分类、功能通路和信号通路分析，更增加了这些基因的各种功能注释。因此，检测具有相似表达谱的基因群，是研究基因功能的一种有效方法。基因聚类有助于鉴别典型的时间空间表达模式。在样本聚类分析中，聚类个体为实验样本z 巾此时，样本在各个基因上的表达被视为特征。样本的聚类分析能判别细胞所处状态或组织类型。通过聚类分析，可以确定肿瘤的类型，利用肿瘤样本表达谱的模式预测未知样本的诊断和分类，寻找不同肿瘤或同一肿瘤的不同亚型的特征性基因，以及肿瘤不同发病时期的特征性基因，这样既可以研究肿瘤发生、发展、转移等过程的分子机制，又可以从这些特征基因中筛选诊断靶和药靶。因此，聚类分析被大量用于肿瘤和疾病研究。对实验样品进行聚类，还有助于探测实验伪迹或不可靠的杂交，以对微阵列实验质量进行控制。此外，近几年新发展的一种双聚类方法，同时对基因和样本聚类，旨在发现样本与基因的局部相关模式。由于在基因表达数据中，相互调控的基因可能只有在测试样本的某些条件下才会体现相似的表达模式。而相同肿瘤亚型的样本可能只在某些基因上表达相似，而在整个基因表达上这种相似模式反而是不存在的。因此寻找这种局部相似的模式可能在揭示基因间的调控机制中起关键作用。2 0 0 0 年，c h e n g 1 9 】等将双聚类的概念引入到基因表达领域，随后各种各样的双聚类算法被提出【2 0 】【2 1 】 2 2 】，并应用于挖掘基因中的一致模型【2 3 1 ，推断全局调控网 2 4 】，识别统计显著的样本子类和标注基因f 2 5 】等等。第1 1 页中山大学博士学位论文 1 3 4 模式分类模式分类是从训练数据中找出一组能够描述数据集合典型特征的模型以便能够识别未知数据的归属或类别。基于表达数据的肿瘤分类就是根据已知肿瘤类型的样本数据来构建分类器，然后利用它对新的表达数据进行分类分析，从而确定肿瘤的类型。基于基因表达数据的肿瘤分型诊断通常包括三个过程。第一是数据降维。数据降维包括特征提取和变量选择。高维空间中的样本，通过映射( 或变换) 的方法可以用低维空间来表示，这个过程叫做特征提取。所谓特征提取在广义上就是指一种变换。特征提取的基本任务是如何从许多原始特征中找出那些最有效的特征。对于一个维数确定的样本集，样本的每一维都是该样本的一个变量。变量的选择非常重要，它对分类器的设计和性能有重大影响。基因表达数据最大的特点就是原始特征维数远远大于样本数( 一般达到几个数量级) 。在这样的情况下设计的分类器，无论从计算的复杂度还是分类器性能来看都是不适宜的，容易产生过拟合现象。因此，研究如何把高维特征空间有效压缩到低维特征空间，以设计出性能优越的分类器是非常必要的。第二是构建分类器。利用已知类别的数据，通过训练来建立分类决策规则或者构建分类器。统计模式识别和机器学习的发展为基因表达数据的分析提供了重要的理论支持。如贝叶斯分类法，k 最近邻法、支持向量机等等。但由于基因表达数据往往具有维数高，样本少的特点对传统的分析方法带来了挑战。此外，生物医学家期望构建性能优越的分类器达到更精确的分型诊断，同时期望了解是哪些因素促使了这样的结果，比如治病的基因是哪些。因此一个适合于基因表达分析的模型除了需要有精确的识别率以外，仍需具备一定的解释意义。本文的主要工作将以此展开，期望结合变量选择与分类器的构建，旨在构建精确的分类器，同时寻找出治病基因。第三是检验分类预测结果的有效性。在对肿瘤样本分类结果进行评价时，通常采用的方法是留一法( l e a v eo n eo u t ) 和独立检验法。留一法是指每次去除一个样本，构建新的分类器，然后对所去除的样本进行分类，统计错误分类的次数。独立检验法则将样本分为测试集和训练集。随机将数据分为口个子集合，一次取出一个子集作为测试集，而其余的钉一1 个子集作为训练集，利用分类器，对测试集的样本分别进行分类，计算错误分类的次数，以此循环钞次。第1 2 页第一章绪论 1 4 基因表达数据的应用在过去的2 0 年里，众所周知，癌症治疗一无论是手术治疗还是化疗、放疗，治疗的及时与否，直接决定了治疗效果。但令人遗憾的是由于诊断的失误或者延迟，造成了进入临床治疗阶段的癌症大部分是属于中晚期恶性肿瘤。近年来，诊断设备较过去有了较大的进步，如超声、c t 、磁共振等技术的应用，使许多过去无法及时发现的病症得以及时确诊，但是很多不同类或不同型的癌症，如急性白血病、恶性胸膜间皮瘤、前列腺癌等恶性肿瘤仍容易出现误诊情况。只有少数隋况下，具有相似形态学表征的癌症亚型可以依照不同的发病机理进行分类。 1 9 9 9 年，g o l u b 等人 2 6 】的研究证明了肿瘤亚型之间在基因表达上的差异，通过对一组特异基因的表达检测，可以进行临床诊断，并指导治疗方案的制定。首

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）基因表达数据的判别分析与变量选择方法研究.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）基因表达数据的判别分析与变量选择方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档