




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要随着d n a 芯片技术的广泛应用,基因表达数据分析已成为生命科学的研究热点。国内外学者都对基因表达数据的各种经典聚类方法进行了广泛研究,但用基于高斯混合模型的聚类方法进行研究的比较少。d n a 微阵列技术是一种研究细胞中基因表达模式的非常有效的技术。这种技术目前面临的主要挑战是如何分析由此产生的大量基因表达数据。如前所述,各种聚类技术被广泛地应用在基因表达数据的分析上,本文采用基于高斯混合模型的聚类方法来分析基因表达数据,并引入了置换检验和较为保守的后验概率调整策略来改进这种方法,取得了较好的效果。本文用到的实验数据是在带有肺炎球菌感染和没有感染的两种实验条件下包含1 1 7 6 个基因的小白鼠基因表达数据。关键词:d m 微阵列技术基因表达水平基于高斯混合模型的聚类置换检验后验概a b 出a c ta b s t r a c ta i o i 培w i t ht h er e s e 缸c h 孤de x t e n s i v ea p p l i c a t i o n so fd n ab i o c h i pt e c h n o l o g y ,g e n ce x p 麟i 帆d a t aa n a l y s i sh a v eb c o d m cah o t s p o ti n1 j f cs c j e n c cf i c l d m a n yc l a 鹃i c a lc l l l s t c r i n gm e t h o d sh a v eb c c nw i d e l ys t u d i e db yr e s e a r c h e r sa th o m ca n da b 啪d h 0 w c v e r ,g a u s s i 柚m i 】【t u r cm o d e l - b a s c dc l u s t e r i n gh a sm r c l yb c e ni n v o l v e d a sw cl m o w ,d n a 面c r o a a yt e c h i o g yi sav c r yl l s c f l i l t 0 0 1w h i c hi s n t r i b u t c dt ot h ep a n e mo fg c n 鹤c x p f e s s c di nac c l l _ 1 1 l em a i nc h a l l e n g cn o wi sh o wt o 卸a l y z ct h cr e s u l t i n gi 缸g c 锄咖t so fg e n e - 既p r e s s i o nd a t a a sm c n t i c da b ( c ,c i u s t c r i n gt c c h n i q u 酷h a v cb c w i d e i ya p p l i e di n 柚a l y z i n gm i 口o a r r a yg c n cc x p r 鹤s i d a t a h c r ew cu s cg a u 船i a nm i 】【t i l r cm o d e l - b a s c dc l u s t c r i i 培t oa n a l y 孔g c n c - c x p r c s s i o nd a t a w oa l s oi n 涮u c ep e 皿u t a t i o nt e s t 柚d s e v a t i v cp o s t c d o fp m b a b i l i t ya d j u s s t n t c g yt 0i m p r o v et h cp e r o n n a n c co ft h i sm e t h o d o u r 瞄u l t si n d i c a t ct h a t t h cm c t h o di sau s c f i l ls t a t i s t i c “t o o lt oc x p l o i tt h ed u s t c r i n gs t 八l d u r co ft h cm i c m n r r a yg c n ee x p m 鼹i o nd a t a 1 五em c t h o di sa p p l i c dt oad a t as c tc o n t a i n i n gc x p r c s s i o ni c v c l so f1 1 7 6g c n 髂o fn t s 诵t h 柚dw i t l l o u tp n e u m o 【:o c c a lm i d d k c a ri n f e d i o n k y 舯r d :d n am l c r 魄m yt e c h o l o 盯g 蚰eh p r 嘲t 蛐山hg - u 蟠t i m t x t u n删阿e l - b i s e dd 1 i s t e r i 鸣衅m u b 6 蚰恼tp o s t e 渤rp m h b m t yy8 5 9 07 0独创性( 或创新性) 声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:纽圭垫。日期趔:兰关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定)本学位论文本人签名:导师签名:年解密后适用本授权书。日期! :! 盟三日期2 :! 盟!第一章绪论第一章绪论1 1d n a 微阵列与基因表达研究概况基因芯片( g e n ec h i p ) 是近年来生命科学与微电子等学科相互交叉产生的一项新技术,在序列分析、基因表达、基因组研究及基因诊断等领域显示出重要的理论和实际应用价值。基因芯片是生物芯片( b i o c h i p ) 的一种,有多种叫法,如d n a芯片( d 小队c h i p ) 、d n 磁阵列( d n am i c m a m y ) 等。基因芯片技术是随着人类基因组计划的发展应运而生的,初衷是为了研究更快的测序方法。1 9 9 6 年,美国a 时m c t r i 】【公司充分结合照相平板印刷、计算机、半导体、激光共聚焦扫描、d n a合成、荧光标记、探针杂交及其他分子生物学技术,创造了世界上第一块基因芯片。基因芯片作为一门新兴技术,已经在生物医学的各个领域得到广泛应用”1 ,简介如下。1 ) 基因测序和突变检测。d n a 芯片用于测试是基于杂交测序法( s b h ) 发展而来的,该技术增加了微阵列中寡核苷酸的有效长度,从而增加了测序的准确性可对较长的d n a 片段进行测序,另外也适用于对不同基因组同源区序列的比较及含有内部重复序列d n a 片段的序列分析。2 ) 致病微生物的快速诊断。a 九t h o n y 等人建立了一个在4 小时以内便可检测和识别出致病微生物的方法,该方法的具体过程是使用随机引物通过p c r 法扩增细菌核糖体d n a ,后通过检测系统来识别。3 ) 癌症的诊断及治疗。目前基因芯片技术已应用于癌相关基因突变的快速检测。由于可以利用基因芯片对某一细胞的基因表达情况进行一个全面的了解,所以基因芯片技术还可进步应用于癌症的精确诊断及治疗,利用该技术可对包括白血病、淋巴瘤、皮肤黑色素瘤及乳腺癌等多种癌症的癌细胞亚群进行区分,还可利用它对治疗方案进行评估和新药药效评价,此外还能对癌症的发生、发展和转归进行预测。此外,可利用基因芯片技术观察药物对肿瘤细胞基因表达谱的影响,评估药物对肿瘤治疗的可行性,从中筛选出抗肿瘤候选药物,对肿瘤药物的研究和开发提供了极具价值的参考资料。基因芯片技术在癌症基因研究及f 临床治疗领域的应用将不但使我们能更快速可靠地对癌症进行诊断对其发生的内在分子机理也将有更深入的了解,同时也将为癌症治疗药物的,r 发提供极大帮助。4 ) 寻找新基因。定量检测大量基因表达水平在阐述基因功能、探索疾病原凶及机理、发现可能的诊断及治疗等方面是很有价值的。基因芯片技术在发现新基因及分析各个基因在不同时空表达方面是一项十分有用的技术,它具 l 辛羊品用量极少,自动化程度高等优点,便于大量筛选新基因。目前,人量人类e s t s 给c d n a!基于高斯混合模型的微阵列基因表达数据聚类分析微阵列提供了丰富的资源,数据库中4 0 0 0 个e s t s 代表了所有人类基因,成千上万的e 了r s 微阵列将为人类基因表达研究提供强有力的分析工具。这将大大地加速人类基因组的功能分析。5 ) 后基因组研究。基因组测序完成后,未知基因的功能研究是一个十分诱人的后基因组研究课题。斯坦福大学的d a v j s 研究小组的研究提示d n a 芯片技术将来可能应用于人类基因组测序完成后阐明开放读码框架o r f 生物学功能的研究,可能会对深刻认识生命现象及药物设计带来重大影响。此外,基因芯片还广泛地应用于药物筛选、药物作用机制研究、毒理学研究、基因扫描、环境化学毒物的筛选、耐药菌株和药敏检测等多个应用领域。人们相信,在新的世纪中,基因芯片将会在人类疾病的基因诊断中发挥巨大的作用,为整个世界带来巨大的社会效益。1 2 基因表达聚类分析技术的现状, 目前所知,基因表达数据至少可以从以下三个逐渐复杂的层次上进行分析:第一。分析单条基因的表达水平,此时人们着眼于一定实验条件下每条基因的表达是否与对照不同;第二,考虑基因组合,将基因分成不同的类别以研究基因的共同功能、相互作用以及协同调控等;第三,尝试推断潜在的调控区域及基因网络,以从机理上解释观察到的图谱。目前对基因表达数据的研究主要集中于第二层,而第三层则是更深一步的研究目标。已有多种数据挖掘和信息处理技术被应用于基因表达数据分析,主要包括:聚类分析、多元统计、模式识别及神经网络等几大类。功能相关的基因通常共同表达,检测具有相似表达谱的基因群是研究基因功能的一种有效方法。因此,基因表达敷据分析的一类重要方法就是聚类分析”1 。聚类分析是指将一组个体按其相互间的相似程度归入几个子类,根本思想是确定类群,使周一类内的各个体间差异最小,而不同类问的差距最大。基因表达数据的聚类问题包括两个方面:基因聚类僧cd u s t c 血g ) 和组织样本聚类( t i s s u ec l u s t e r i n 曲。基因聚类作为基因表达数据处理的基础首要目标是将表达谱相似的基因归纳成类,然后聚焦于那些可能参与某些生物过程的基因群,对这些类进行生物学注释,同时获得新的生物学知识”1 。组织样本聚类关注的是根据各个样本的基因表达谱,把宏观特征相似的样本归纳成类,可以利用来帮助诊断、检验基因功能、观测药物疗效等。基因聚类主要用于基因功能研究,研究工作开展得比较广泛,已经开始应用于基因聚类分析的方法主要有分层( h i c 豫r c h i c a ld u s 把f i n g ) ”1 、k - 均值法( c m e a n s )1 、和自组织图( s e l f - o r g a n i z i n gm 印s ) 1 等;但基于模型聚类尤其是基于高斯混合模型聚类的方法还没有多少研究,基于高斯混合模型的聚类方法在聚类准则上有着明确的定义,并且有一些统计方法可以被用来估计聚类的类别数目,所以非常适第一章绪论合基因表达数据的聚类分析。长远来看,生物学越来越成为可以量化的学科,今后基因表达数据分析方法将会有很好的发展。1 3 基于高斯混合模型的聚类方法我们本文采用基于高斯混合模型的聚类方法分析基因表达数据,有限混合模型是一种既灵活又严密的适于对各种随机现象建模的方法。对连续型数据,例如基因表达数据,比较适合在混合分布中使用高斯分量。这种方法相对于其它聚类方法的优势是可以很好地确定聚类的类别数目,清楚地用特定分布( 在这里是高斯分布) 定义每个类别,这体现了该方法在效学上的严密。不过单纯使用这种方法会导致聚类结果有些过于简单主观,致使查全率和查准率都不高,我们在本文中引入了置换检验和较为保守的后验概率调整策略来改进这种方法,明显地提升了查全率和查准率,取得了不错的效果。1 4 本文结构与安排作者在前人研究基因微阵列数据处理的基础上,对基因表达数据的基因聚类和基于高斯混合模型聚类问题进行了深入的研究,并引入了置换检验和较为保守的后验概宰调整策略来改进基于高斯混合模型的聚类。具体章节的内容安捧如下:第一章简单介绍了基因微阵列和基因表达聚类分析技术的现状,并对基于高斯混合模型的聚类方法做一简要介绍;第二章介绍了本文用到的实验数据,并对其进行了预处理,在此基础上建立了统计模型;第三章在全面介绍各种聚类分析技术和e m 算法的基础上,重点讲述了混合模型和基于高斯混合模型的聚类技术,并将其用在了第二章建立的统计模型和实验数据上,产生了初步的实验结果并对其作了讨论;第四章介绍了置换检验的基本原理和基于后验概率的调整策略,并将其用在了第三章得到的初步实验结果上。实验表明,这种改进方法可以显著提升查全率和查准率,取得了较好的效果;第五章总结本论文的主要研究成果及意义,同时也指出了研究工作中存在的不足和进一步的解决思路。本论文的研究工作在国家自然科学基金项目( n o 6 0 5 7 4 0 3 9 、n o 6 0 0 7 1 0 2 6 )和国家留学基金项目的支持下完成。!基于高斯混合模型的微阵列基因表达数据聚类分析第二章实验数据及统计模型的建立2 1 原始实验数据肺炎球菌中耳炎是一种非常普遍的少儿疾病,为了了解这种疾病的发病机理,识别出那些导致肺炎球菌感染的基因并研究它们在疾病中起到的作用是很重要的。我们在实验中采用的数据是根据m i 皿c s o t a 大学的一项研究得到的数据v 。该研究将放射性标识d n a 微阵列技术应用到感染了肺炎球菌中耳炎的小白鼠的1 1 7 6 个基因上。数据含有8 个d n a 微阵列实验样本,2 个样本在没有肺炎球菌感染的实验条件下得到的而另外6 个是在带有感染的条件下得到的,有9 0 个基因在两种实验条件下的表达水平发生了明显变化,其中有1 2 个基因在医学上被证明是致病基因咖l 表2 1 ) 。表2 1 ;1 2 种致病基因m 6 3 1 2 2t l m m rn e 潲i sf a c t o ri l i n 锄m a t o r yf c a c i i o nx 9 1 8 1 0z 1 7 2 2 3d 1 0 6 4x 7 4 8 d 6d 3 0 0 4 1d 3 0 d 4 0m 8 6 3 8 9z 2 7 1 1 8d 1 7 6 9 5m 6 3 8 3 7比a 雷瞳0 r ls t a t 3 ,s i 炉a lt 舢s d u c c ra n da c t i v a t o ro ft m n s a r i p t i o n3g 瓤母硼a r 瞄t - s p i 洒f i co t c i l li d 3 ,d n a - b i n d i i l g口f o t e i ni n h i b i t o f、,o nc b n c f sg i a n dp r o t c i nn l c b e t as c r i n c j f 吐l 瑚i l i n ek i n a s ca c u t ep h a r c s p o n 趾f a c t o rt h n s c f i p 虹o n 丘i d 【o r ,毋f o w t ha h e s tc c 玎c y d ep f o 孕e 骆i o n ,毋砌m i d d l ce 缸醇卸d p f o t e i nm i t o g e n i cs i 印a l i n g( m c p k b e 哪;a j mr a c b c t as e f i n c t i i r n j n cm i t o g e n i cs i g n a l i n gk j n a s c( r a c p k - b c 哪;p m t e i nk i n a s c bh c a ts h o c k2 7 k d ap r o t e i n ( 1 i s p 2 7 )h c a ts h o d 【7 m k d ap r o t e i n ( i i s p 7 0 )w a t e fc h 籼c la q u a p o t i n3 ( a q p 3 )p l a t e l e t d c r i v e d 舯w t hf a c t o ra l p h ar e c c p t o r俾d g f r a lc e l l u a rp m t e c t i o nc e l l u a rp r o t e c t i o nw a t e rt r 柚s p o r t a t i o np r o l i f e m t i o nu 0 3 4 9 1t r a n s f o m l i n g 日d w t ha n t i p f o l i f c r a t i o n一垒! ! ! ! ! ! ! ! ji ! 曼呈:! ! 望1 2第二章实验数据及统计模型的建立2 2 实验数据预处理我们首先对得到的基因表达水平矩阵做自然对数变换,这样可使数据更有可能呈现一个类似高斯形式的分布,也可减少用基于混合模型聚类方法得到的聚类类别数目。之后,对每个微阵列样本做标准化,方法是减去它们的均值再除以他们各自的标准差,这样我们就完成了对实验数据的预处理工作。2 3 建立统计模型我们的目标是识别出那些在两种实验条件下平均表达水平发生变化的基因基本思想是先假设所有的基因其平均表达水平在两种实验条件下没有发生变化,然后根据实验数据检验这个假设,很明显,这可以归结为一个经典的假设检验问题。2 3 1 古典假设检验基本的假设检验原理如下。我们从定义两个互补的假设开始:零假设( n u l lh y p o m 髂i s ) 和备选假设( a l t e m a t i v ch y p o t h 船i s ) 。零假设经常是某一点的值( 例如,对讨论的问题影响为o 的那个点) ,而各选假设就是零假设的补。例如假定我们要得到关于参数口的结论。零假设,用h 。表示,可能是一- 瓯,于是备选假设可能就是口一钆。使用观察到的数据,我们可以计算一个统计量( 统计量的形式最好由被检验假设的属性决定1 。统计量会因样本的不同而不同是个随机变量。如果我们假定零假设是正确的,那么我们可以求出选出统计量的期望分布,并且统计量的观察值是来自这个分布的一点。如果观察值位于分布的很远的末端,那么我们将不得不做出结论:要么是发生了一个低可能事件,要么零假设事实上并不正确。观察到的值越是靠近末端,我们对零假设的信心越小。我们可以量化这个过程。看一下统计量分布继个分布基于零假设为真的假定)的末端,我们可以找到发生概率加在一起为0 0 5 的那些潜在值。这些是统计量的极端( c x 仃c m c ) 值假定零假设是正确的,这些值与大多数值偏离的足够远。如果这个观察到的极端值确实位于这个末端区域,我们就会“在5 的显著水平上”拒绝这个零假设:要是零假设是正确的,那么就仅有5 的可能我们看到发生在这个区域的结果。因此,这个区域被称为拒绝区( r c i c c i o nr c 舒o n ) 或临界区( c “i j c a lr c g i o n ) 。当然,我们可能不仅仅对零假设在一个方向的偏离感兴趣。也就是说,我们可能对分布的低端末尾以及高端末尾都感兴趣。这种情况下,我们或许把拒绝域定义为概率分布最低端2 5 概率对应的检验统计量的值和概率分布的最高端2 5 概率对应的检验统计量的值的联合。这就是双边检验( t w o t a i l c dt c s t ) ,。j 此相对前面描述的叫单边检验( o n e t a i l e dl e s t ) 。拒绝域的大小,被称为检验的娃著性水平( s i g n m c a n c el e v e l ) ,可以任意选取。常见的值为1 、5 和1 0 。!基于高斯混合模型的微阵列基因表达数据聚类分析我们可以按照不同检验过程的能力( p a w e r ) 比较它们。检验的能力就是它正确拒绝错误的零假设的概率。为了评估检验的能力,我们需要指定一个备选假设,目的是计算检验的统计量在备选假设正确的情况下落入拒绝域的概率。一个重要的基本问题是如何找到适合特定问题的好的检验统计量。一种策略是使用似然率o i k c h dn t i o ) 。用来检验假设h 。:口一岛和备选假设日。:口一吼的似然率被定义为;扣煮ds “工似i d )其中,d 伽( 1 ) ,毒加) 。也就是说,当口一时似然率达到当疗不被约束时似然的最大值。显然,当a 很小时应该拒绝零假设。这个过程可以被简单地推广到零假设不是单点假设而是包括8 的一系列可能值的情况。某些类型的假设是被频繁使用的。它们包括不同均值的检验,比较方差的检验,和比较一个观察分布和一个假设分布的检验( 所谓的拟合程度( g o o d n c 鹳一o f f i t ) 检验) 我们将在下面描述常见的比较两个独立总体均值问差异的t 检验。设i ) ,z o ) 为从一个高斯分布( 以,盯2 ) 随机抽出的 个观察值,并设y ( 1 ) ,y ( m ) 为从一个高斯分布( 一,仃2 ) 随机抽出的m 个观察值。假定我们希望检验这两个分布均值相等的假设,h 。:心一p ,。这种情况下似然率统计量被简化为:f :下! 兰三兰( 2 2 )扣2 ( 1 n + 1 册)其中,s 。s :二i ;:;! i + s ;二i :;:j :i( z 一。)九+ ,h z肛+ ,”一z其中,5 ;= 罗o i ) 2 似一1 )( 2 4 )是x 样本的估计方差,s :是对于y 的同样系数。于是5 就是两个样本的样本方差的加权求和,检验的统计量就是两个样本均值问的差异,再除以估计的差异标准差。在零假设下,f 服从自由度为n + m 一2 的f 分布。尽管这里被比较的两个总体被假定为服从高斯分布,但是这个检验对于非高斯的情况也具有相当好的鲁棒性,尤其是当两个样本的大小和方差大体相等时。这个检验的应用非常广泛。2 3 2 基因表达数据的统计模型基因表达数据的统计模型看上去像是面介绍的经典统计学的两类样本比较第二章实验数据及统计模型的建立问题。但是微阵列数据有它自身的特殊性,我们可以做如下假设:对于每个基因i ,f 一1 2 ,我们有在第一种实验条件下得到的m 个样本的基因表达水平z 。,石一和在第二个实验条件下得到的n 个样本的表达水平k ,k 。由实验数据可以看到,基因数量是很大的( 1 0 0 0 ) 而微阵列数据的样本数州和n 是很小的( 典型的( 3 0 ) 。因此传统的统计检验,如t t c s t 和m k - b 弱c d 假设检验在这个问题上是不适用的。不过我们可以用基因表达水平j 。,x 。和匕,k 构造如下的检验统计量z :z =x ;一x7 2 = 2 = = = = = = = = = = 一v ( 1 v 胁+ v ( 2 v 月+ 口o( 2 5 )夏一二。x ,序i 一:。匕乒( 2 6 )y ( 1 v 。薹k 一对少叫v5 喜眈一耳f )( 2 - ,)这样可充分利用很大的基因数量。2 4 本章小结本文用到的实验数据是在带有肺炎球菌感染和没有感染的两种实验条件下包含1 1 7 6 个基因的小自鼠基因表达数据。我们对其进行了基本的预处理。然后我们介绍了经典假设检验的原理,但是微阵列数据因其自身的特殊性:基因数量是很大的( l 0 0 0 ) 而微阵列数据的样本数m 和 是很小的( 典型的 3 0 ) 。因此经典的统计检验:如t t e s t 和r a n k - b a s e d 假设检验在这个问题上是不适用的。我们用基因表达水平建立了检验统计量z j ,为以后的研究工作打下了良好的基础。基于高斯混合模型的锾阵歹i j 基因表达数据聚类分析第三章基于高斯混合模型的聚类算法随着人类基因组计划( h g p ) 的开展和深入,产生了海量的基因组序列数据和信息。如何利用这些研究成果进行基因功能的解析和开发,己成为功能基因组学研究的重要任务。基因芯片技术给基因功能研究一个全新的契机。它自1 9 8 9 年由s 伽m c m 提出后,即受到多方重视和广泛应用,被评为2 1 世纪最有发展前途的2 0项高新技术之一。利用这一技术,可以同时观察成千上万个基因在不同状态下的表达水平( 即基因表达谱) ,由此不仅将基因的功能信息比较完整地展现出来,也可以在基因水平上探讨样本的特征,如肿瘤发生、细胞分化等生命现象,并在此基础上进行样本分型等研究。目前,基于基因表达谱的样本分型研究主要应用于肿瘤方面,事实上,与基于形态学或组织学的肿瘤分型相比,基于基因表达谱的肿瘤分型研究更能触及肿瘤的本质,并可同时找出与肿瘤相关的基因群;然而,基因芯片所提供的只是庞大的数据集即基因表达矩阵,所蕴藏的用于肿瘤分型的基因信息并非一目了然,相反,需要复杂的统计学方法从中挖掘相关的生物信息。这里的统计学方法是指使用模式识别方法处理数据的方法。我们在生活中时时刻刻都在进行模式识别,我们能认出周围的物体是桌子、椅子,能认出对面的人是张三、李四,能区分是汽车驶过还是玻璃破碎,是猫叫还是人语。潜意识中我们已将人类的这种能力看作是想当然的。但是随着计算机的出现,当人们希望计算机能够像人一样识别各种各样的物体时,才发现让计算机具备这些人类甚至更低级的动物都具备的能力是一件多么困难的事情。这时研究者们开始广泛关注如何使计算机能够识别环境,能够将感兴趣的事物从其背景中提取出来,能够对事物的属性和种类做出正确的合理的判断等,种种类似的问题归结在一起即是我们今天所称的模式识别。模式识别已经历了5 0 多年的发展,目前为止研究者已经积累了大量的知识。把模式识别运用到基因数据处理中,必将发挥巨大的作用,指导和检验生物科学的研究进展。本章就是在这一背景下,运用聚类方法对肿瘤样本进行分型。模式识别系统的基本构成如图3 1 所示,由图3 1 得知一个模式识别系统大致包括:预处理、特征提取和分类器等三部分,而本章的工作重心为特征基因选择和组织样本聚类,属于后两部分。接下来我们将详细阐述基因数据处理的发展现状以及我们在此方面己经取得的成果。第三章基于高斯混合模型的聚类算法j i l 咻过程图3 ,1 模式识别系统的基本构成3 1 基因芯片原理9微阵列( i c r o a r r a y ) 又称d n a 芯片、基因芯片( g e n ec h i p ) ,是9 0 年代兴起的一种对成百上千甚至上万个基因同时进行检测的新技术,广泛应用于基因表达、预测基因功能、检测基因突变和多态性分析、发现新药物和药物靶器官以及疫苗设计等方面。微阵列的产生包括下列基本步骤:芯片和样品制备、杂交反应、芯片信号检测和数据的生成。( 1 ) 基因芯片的制各。基因芯片的实质是高度集成的寡核苷酸阵列,制造基因芯片首先要解决的技术是如何在芯片片基上定位合成高密度的核酸探针。目前基因芯片的制备”1 主要采用三种方法:即光蚀刻合成法、压电印刷法、点样法。( 2 ) 样品的制备。生物样品成分往往比较复杂,所以在与芯片接触前,必须对样品先进行处理。为了提高结果的准确性,来自血液或组织中的d n a m r n a 样本须先行扩增,然后再被荧光素或同位素标记成为探针。( 3 ) 杂交。影响杂交的因素很多,但主要是时间,温度及缓冲液的盐浓度。如果是表达检测,需要长历时,低温和高盐条件的较严谨性杂交。而如果是突变检测,需要短历时,高温和低盐条件高严谨性杂交。总之,杂交条件的选择要根据芯片上核酸片段的长短及其本身的用途来定。( 4 ) 杂交图谱的检测和读出。与芯片发生杂交的探针上的荧光被激发后经过棱镜恰好能通过共聚集小孔被探测器检测到,而芯片之外的其它荧光信号则不能被探测器检测到,检测到的荧光信号通过计算机处理后就可直接读出杂交图谱,此法灵敏度和精确度较高,但是扫描所需时间较长。此外,近年来还发展了多种检测方法,如质谱法,化学发光法,光导纤维法等”一1 。产生过程如图3 2 所示。塑基于高斯混合模型的微阵列基因表达数据聚类分析图3 2 徽阵列数据的产生过程计算机读出的矩阵xo x 肘) 表示一个基因在脱个样本( 如m 个不同的实验条件) 上的表达矩阵,其中为基因f 在试验j 上表达水平比的对数。取对数的目的在于克服以下差异:当基因高表达时,表达比在( 1 ,+ m ) ,而当基因低表达时,表达比在( o 。1 ) 。两者存在不对称性。c 5 i iz 玎2l o g2 :i 2( 3 1 )l j 可式( 3 一1 ) 中,c 知为基因f 在试验,上的c y e 一5 荧光测量值:c 为基因f 在试验,上的c y e 一3 荧光测量值。基因芯片实验中的变异来源很多,如荧光标记效率、扫描参数的设置、空问位置的差异等都可能对基因表达水平的测量产生影响。因此,原始数据需经过标准化以消除由于系统变异引起的误差,使得基因表达数据真实地反映测量样品的生物学差异。常规标准化包括:( 1 ) 均敷或中位数中心化包括基因中心化和序列中心化。通常在实验中使用的共同参照样本与实验本身是独立的,而分析时也应该把参照样本表达水平的影响去除,基因中心化就可以实现这一目的。基因中心化是把每个基因在各实验中的表达值减去该基因在各实验中表达值的均数或中位数。基因中心化后的值就反映了该基因在不同序列下的变异。而当参照基因是实验的一部分,或要了解基因差异表达的程度时,不适宜进行中心化。序列中心化也很重要,可以消除某些类型的偏倚,如基因在芯片的不同空间位置造成的影响,背景的差异造成的影响。第三章基于高斯混合模型的聚类算法( 2 ) 除以标准差其作用在于把数据的变异设定在与感兴趣的基因变异相同的范阐内放大弱信号而抑制强信号,但同时存在把噪声纳入真实信号中的危险。微阵列具有高通量和并行化的特点微阵列技术及其数据分析已成功应用丁=许多领域:临床诊断,如可通过分析肿瘤基因突变情况对肿瘤患者进行早期诊断;指导用药,对感染的病菌进行耐药性鉴定,从而指导临床用药:药物筛选,阐明药物的靶基因及作用机制,筛选药物的有效成份;基础医学方面,用于表达谱研宄,基因突变研究,基因组分型及测序等。另外,在预防医学、环境保护、军事、农业等领域都有应用1 。但微阵列技术仍处于发展阶段,随着该技术的发展和完善,将产生海量数据,对于这些数据的快速、合理的分析,发现其中所隐藏的信息,是一项重要而艰巨的工作,统计学、信息科学等学科的发展与结合期望为微阵列数据信息的提取提供新的思路和方法。3 2 基因数据处理基本任务和方法目前,基因芯片的数据处理已成生物信息学研究的热点之一引起了广泛的重视。特别是高密度的微阵列( m i c r o a r r a y ) ,由于其荷载了成千上万个基因片段,可用于高通量的生物学检测,其开发和利用已进入商业化阶段而其信息处理和信息挖掘更受关注。近年来,有关的报导日益增加。3 2 1 基因芯片的信息预处理为了对商密度基因芯片实旌信息挖掘,首先得将芯片的资料读入计算机,形成特殊格式的计算机数据文件。这一阶段主要是根据基因芯片的特点,利用图像处理技术从芯片上读取信息。这阶段的工作可称为基因芯片的信息预处理。信息预处理的质量好坏直接关系到后续的信息挖掘。因此研究工作者都非常蕈视信息预处理,针对高密度芯片的特点,设计了各种有效的信息预处理方法。这阶段的1 作主要是利用专用的扫描仪扫入基因芯片,生成计算机图像文件通过网格划分( g r i d d i n g ) 确定杂交点范围( s e g i e n t a t i o n ) 并通过信号强度提取等步骤,得到基因表达的荧光信号强度值并以列表形式输出。在高密度基因芯片( 如d n 微阵列) 的图像处理过程中面临的主要问题。有:( 1 ) 样点的重叠,高强度的样点可能会影响邻近的样点( 图3 3 ) :( 2 ) 由于实验类型不同,可能产生不同的样点外形( 图3 4 ) ;( 3 ) 由实验过程中的污染而产生的噪声干扰。为有效地解决上述主要问题,需对基因芯片作信息预处理。信息预处理一般包含以下四个步骤。对基因芯片作信息预处理。信息预处理一般包含以下四个步骤。基于高斯混合模型的锻阵列基因表达数据聚类分析图3 3 重叠的样本图3 4 不同外形的样点( 1 ) 网格划分。对输入计算机中的微阵列图需要了解每行每列的样点个数,此外还需要了解相邻样点之间的距离,但由于芯片设计不同、实验情况不同,所以不可能有确切的数据,因此要对图片进行网格划分以便了解这些信息。( 2 ) 样点范围确定。从网格中鉴别样点区域,每个样点近似环形。这是由于机器手在玻片上放置c d n a 的方式及处理玻片的方式所致。目前已有许多固定外形的方法可用来对微阵列图像进行分割,例如固定周长法、可变周长法等。比较好的方法是可变外形的分割方法,主要有m a n n 一帅i t n e y 检验和s r g ( s e e d e dr e g i o ng r o - i n g ) 1 法等( 3 ) 信号强度提取。此步骤包括背景强度估计、饱和补偿以及信号强度值的提取。由于高值样点存在饱和与重叠干扰的问题。所以不能简单地将当前位置的样点强度值作为信号强度。需要建立精确的样点理论模型,并在此基础上进行样点的饱和补偿和干扰校正,实现精确的信号强度的提取。( 4 ) 标准化处理。由于样本差异、荧光标记效率和检出率的不平衡,需对原始提取信号进行均衡和修正才能对实验数据作进一步分析。上文已经提过的标准化处理( n o 瑚l i z a t i o n ) 正是基于此种目的而进行的。3 2 2 基因芯片的数据挖掘在一块基因芯片上往往含有成千上万个基因,一次可以同时检测这些基因的表达。利用同一种芯片在不同条件下( 不同时问、不同对象、不同外界条件) 进行基因表达实验。所搜集的表达数据同原始数据放在一起,可形成一个数据表格作为迸一步分析的初始资料,这个表格可看作是一个二维矩阵,即通常讲的微阵列。目前芯片数据分析有两个主要的研究方向:( 1 ) 用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中,以某些在不同样品中表达差异显著的基因作为模板,通过判别分析就可建立有效的疾病诊断方法。( 2 ) 分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析。第一种应用明显是基础和简陋的,只是建立在对数据的简单观察上。第二种方法使用统计分析,深入挖掘海量数据内隐藏的基因之间或样本之间的本质联系,对于了解基因功能、判断疾病都具有前一种方法无法比拟的精确性,必将对生命科学的发展起到巨大的推动作用。第三章基于高斯混合模型的聚类算法统计方法分析基因数据,有分类和聚类两个方向。聚类方法有上文介绍过的c m e a n s 、分层法、自组织网( s 0 m ) 等:分类方法主要有:支持向量机、决策树、贝叶斯分类、神经网络法等。由于生物学家对基因功能知识的缺乏,聚类方法就显得更基础和重要,没有正确的聚类方法,没有聚类提供的基因功能信息,分类方法就不会取得好的结果。本文正是出于这一考虑,研究基因和样本的聚类问题。下文将详细阐述我们的研究成果。3 3 聚类分析介绍r ,聚类分析”1 是模式识别理论的个重要组成部分,人们先后提出了实现聚类的多种方法,例如有谱系聚类法、c 一均值法、模糊c 一均值法和神经网络法等。8 0年代以来,由于目标函数法具有设计简单,解决问题的范围广,并且最终可以归结为优化问题的优点,已成为聚类分析的主流方法。由于该方法采用数值迭代算法,因此在大数据量聚类中,运算速度较慢。到8 0 年代后期和9 0 年代,由于神经网络的兴起,利用神经网络实现基于目标函数的聚类取得了许多成果。自组织神经网络是一种常用的神经网络,具有强自学习能力、并行分布式信息存储与快速识别等优点,特别是自组织网具有临近相似性,在实现基因数据聚类方面有着不同一般的效果。3 3 1 聚类分析的概念及任务在很多实际应用中由于缺少形成模式类的知识,或者由于实际工作中的困难( 例如卫星遥感照片上各像元的分类问题) ,我们往往只能用没有类别标签的样本集进行工作。这就是通常所说的非监督学习方法。一般来说非监督学习方法可j 以分成两大类,即基于概率密度函数的直接方法和基于样本间相似性度量的问接聚类方法。不论哪一种方法,再把样本集划分为若干子集( 类别) 后,我们或者直接用它解决分类问题,或者把它作为训练样本集进行分类器设计。3 3 1 1 聚类分析的基本思想聚类分析的基本思想非常朴素、直观和简单,它是根据各个待分类的模式特征相似程度进行分类的,相似的归为一类,不相似的作为另一类。简单的说,相似就是两个特征矢量之间各分量分别比较接近。聚类分析包括两个基本内容:模式相似性的度量和聚类算法。由于在分类中不需要用训练样本进行学习和训练故此方法称为无监督分类。3 3 1 2 方法的有效性基于模式相似准则而建立的分类方法的有效性,从根本上讲,首先取决于模式特征点在特征空间的分布情况。如果同类的模式特征点密集,不同类的模式特征点相距较远,即特征点按类群聚,一般的分类方法通常是有效的;反之,如聚不同类的模式特征点混杂散步,许多分类方法往往无效或效果1 i 佧。既然泉此肘坐基于高斯混合模型的徽阵列基因表达数据聚类分析象属于不同的类别,它们之间必然有一些重要特征显著不同,之所以出现上述特点混杂情况,原因是特征选得不当,可能是对于所选取的特征,不同类的模式的特征值差别不大,换句话说,有显著差别的特征没有选取。这时应该重新提取特征选取它们之间显著不同的特征而产生新的特点。另一个可能的原因是,虽然各分量满足上述要求,但它们组合起来未必能使这些特征点按群聚类。从技术上讲,方法的有效性取决于分类算法和特征点的分布情况的匹配。在本论文中,我们主要讲述和讨论聚类算法。3 3 2 传统聚类算法介绍3 3 2 1 聚类的技术方案聚类分析有许多具体的算法,有的比较简单,有的相对复杂和完善,从算法的基本策略上看。可以分为如下三种:1 根据相似性阈值和最小距离的简单聚类方法。针对具体问题确定相似性阙值,将模式到各聚类中心问的距离与阈值比较,都大于阈值时该模式就作为另一类的类心,小于阙值时按最小原则将其分划到某一类中。这类算法运行中模式的类别及类的中心一旦确定下来将不会改变。2 按最小距离原则不断进行两类合并的方法。首先视各类模式自成一类,然后将距离最小的两类合并成一类,不断的重复这个过程,直到成为两类为止。这类算法运行中,类心不断的修正,但模式类别一旦指定后就不再改变,就是说模式一旦划为一类后就不再被划开。这类方法称为谱系聚类方法。3 。依据准则函数动态聚类法。设定一些分类的控制参数,定义一个能表征聚类过程或结果优劣的准则函数,聚类过程就是使准则函数去极值的优化过程。算法运行中,类心不断的修正,各模式的类别的指定也不断的更改。3 3 2 2c 一均值算法( c 一鹏a n s 算法)1 条件及约定设待分类的模式特征矢量集为缸。,x :,妇 ,类的数目c 是事先取定的。2 基本思想该方法取定c 类和选取c 个初始聚类中心,按最小距离原则将各模式分配到c类中的某一类,之后不断地计算类中心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方和塌小。3 算法步骤( 1 ) 任选c 个模式特征矢量作为初始聚类中心:z :“,z p ,z j ”,令t = o 。( 2 ) 将待分类的模式特征矢量集扛。) 中的模式逐个按最小距离原则分划给c 类中的某一类,即如果d 。= m j n k 萝j ,f = 1 ,2 ,( 3 2 )第三章基于高斯混合模型的聚类算法则判毛r “) 。式中d 表示t 和珊的中心z 的距离,上角标表示迭代次数。于是产生新的聚类甜r ”( ,= 1 2 ,c ) 。( 3 ) 计算重新分类后的各类心z 牛方。委,m 2 ,c( 3 。3 )式中 ( i “为类中所含模式的个数。因为这一步采取平均的方法计算调整后各类的中心,且定为c 类。故称c 一均值法。( 4 ) 如果z r “z ( j 一1 2 ,c ) ,则结束,否则,七一t + 1 ,转至( 2 ) 。4 性能c 均值法是以确定的类数及选定的初始聚类中心为前提,使各模式到其所判属类别中心距离( 平方) 之和最小的最佳聚类。显然,该算法的分类结果受到取定的类别数目及聚类中心的初始位置的影响,所以结果只是局部最优的。但其方法简单,结果尚令人满意,故应用较多。如模式分布呈现类内团聚状,该算法是能达到很好聚类结果的。在实际应用中需要试探不同的c 值和选择不同的聚类中心初始值,以进一步达到更大范围的最优结果上述算法的特点是所有待分类模式按最小距离原则分划类别之后,再计算各类的中心,这称为按批修改法另一种方法是每向算法输入一个模式后就将它进行分类,并计算该模式所进入类的类心,这称为逐个修改法,因而其还受模式读入次序的影响按批修改和逐个修改方式的动态聚类法的收敛性已于1 9 7 4 年和1 9 6 9 年分别给出了严格证明。3 3 2 3 模糊c 一均值法在上一节介绍的c - m c 姐s 聚类法的目的是把 个样本划分到c 个类别中的一个中,使各个样本与其所在类均值的误差平方和最小。在本小节中,我们讨论如何将这种硬分类变为模糊分类,从而得到模糊c 一均值法。将问题的有关符号规定如下: 毛,f = 1 2 ,厅) 是j 1 个样本组成的样本集合,c 为预定的类别数目,m 。,f _ 1 2 ,c 为每个聚类的中心,p ,o 。) 是第i 个样本对于第,类的隶属度函数。用隶属度函数定义的聚类损失函数可以写成为:驴毫骞k 愈) 佩一- - 2( 3 _ 4 )其中,6 ,1 是一个可以控制聚类结果的模糊程度常数。在不同的隶属度定义方法下最小化( 3 4 ) 的损失函数,就得到不同的模糊聚类方法。其中最有代表性的是模糊c 一均值法,它要求一个样本对于各个聚类的隶属度为1 ,即兰基于高斯混合模型的徽阵列基因表达数据聚类分析p ,瓴) 一1 ,f 一骣,n( 3 5 )在条件式( 3 5 ) 下求式( 3 4 ) 的极小值,令,对m ;和芦,“) 的偏导数为o ,可得必中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特殊教育教师培训经费计划
- 教师青蓝工程学科带头人培养计划
- 家政服务工作流程详解
- 北师大版四年级数学个别辅导教学计划
- 税前扣除管理办法细则
- 企业高效沟通培训课件
- 施工项目疫情防控培训措施
- 土地整治与农业开发契约
- 企业运营成本分析标准化模板
- 淘宝汽车配件店铺策划书范文
- 绿化工(四级)理论知识考试复习题库(含答案)
- 宣讲《无障碍环境建设法》PPT
- 大学生送外卖社会实践心得体会
- 第6章生物质能发电与控制技术
- 某电厂水泥搅拌桩技术标书
- 《中国字中国人》
- 疼痛基础相关知识及止痛药物的应用
- 初步设计合同范本
- GB/T 4857.17-2017包装运输包装件基本试验第17部分:编制性能试验大纲的通用规则
- GB/T 34400-2017消费品召回生产者指南
- 二级医院评审自评自查表
评论
0/150
提交评论