已阅读5页,还剩55页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于基因表达谱的肿瘤基因及其网络结构研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 人类基因组计划的实施,产生了大量的生物医学数据。生物信息学是基于 信息科学的理论和方法,利用计算机技术,分析和研究生物医学数据的新兴学 科。基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息 学研究的重要课题。本文应用人工智能的方法,对肿瘤基因表达谱进行了分析 和研究,取得的研究成果主要有: 第一:提出了一种肿瘤基因表达数据残缺值处理的方法。本文以g e 0 数据 库中的g s e 4 0 4 5 系列结肠癌数据为研究对象。设定数据中样本的残缺值个数阈 值为口,去掉残缺值个数大于口的样本,残缺值等于与残缺值样本类别相同的 同一基因的均值。对处理后的数据进行聚类分析,结果显示出很好的聚类有效 性。 第二:本文建立了一种通过评价备选特征基因子集的分类性能来确定肿瘤基 因表达数据特征基因的方法,并基于胃癌基因表达谱提取了胃癌特征基因集合。 首先应用分类信息指数、r e l i e f 、t 检验、秩和检验算法,通过“肿瘤基因表达 数据残缺值的处理一数据标准化一搜索差异表达基因一去冗余分析”等步骤,提取 数据中的备选特征基因,再采用s v m 分类器评价备选特征基因子集对样本的分类 正确率。分类正确率最高,元素个数最多的备选特征基因子集即为特征基因。本 文以h i p p o y 等提供的胃癌基因表达数据为研究对象,应用本标准确定了特征基 因提取的算法和可有效应用于聚类分析的特征基因。分析结果可视化程度好,可 解释性强,具有很好的统计学和生物学意义。 第三:应用边介数聚类算法提取了结肠癌基因网络的模块结构,并用模块 度函数对聚类效果进行了定性评价。边介数聚类算法是一种基于图论的算法, 计算网络中通过某条边的最短路径的条数即边介数,找出边介数最大的边并将 其删除,从而使网络逐步聚成不同的子网络。这些子网络对应生物网络的功能 模块。本文首先对聚类的有效性进行了研究,利用模块度函数比较了己知聚类 结果的z a c h a r y 空手道俱乐部网络的边介数聚类和层次聚类的结果,证明了边 介数聚类算法的有效性,也解决了无监督聚类算法需要设定聚类数的问题。本 文采用的边介数聚类算法借鉴了g i r v a n 和n e w m a n 提出的社区发现算法。利用 边介数聚类算法对g s e 4 0 4 5 系列结肠癌数据进行了分析,通过检索g o 数据库 验证了边介数聚类所得基因模块具有相似或相同的功能类,从而进一步证明了 算法的可行性和有效性。 本文的研究工作得到了国家自然科学基金( n o 6 0 2 3 4 0 2 0 ) 的支持,相关研 究成果已被d c d i s 国际期刊( s c i 刊源) 、w c c l 2 0 0 8 ( e i 刊源) 和中文核心期 刊北京工业大学学报正式录用。本文研究工作的意义在于通过发现相似性 北京工业大学硕士学位论文 预测未知基因的功能,为肿瘤的诊断和治疗提供参考方案。可广泛应用于肿瘤 相关基因发现、药物靶点发现与基因功能预测等领域。 关键词边介数聚类算法;模块度;肿瘤基因表达谱;特征提取 i i a b s t r a c t a b s t r a c t w i t ht h ei m p l e m e n t a t i o no fh u m a ng e n o m ep r o j e c t ,t h eb i o m e d i c a ld a t ah a s b e e ng r o w i n ge x p o n e n t i a l l nt h ee x p l o s i o no ft h e s ed a t am a k e si tn e c e s s a r ya n d u r g e n tf o rb i o i n f o r m a t i c sr e s e a r c h e r st oa n a l y z ea n du n c o v e rt h e mb i o l o g y w i t ht h e a s s i s t a n c eo fi n t e l l i g e n tc o m p u t i n gt e c h n o l o g y , m a t h e m a t i c s ,d a t am m m ga n d b i 0 1 0 9 ym e t h o d s n o wi ti st h ei m p o r t a n tt a s ko fc a n c e rb i o i n f o r m a t i c st h a ts t u d y c a n c e rf e a t u r e so nt h em o l e c u l a rl e v e lb a s e do ng e n ee x p r e s s i o np r o f i l e t h i sp a p e r f o c u s e so nt h i sp o i n ta n da n a l y z e st h eg e n ee x p r e s s i o np r o f i l e w i t ha r t i f i c i a l i n t e l l i g e n tt e c h n i q u e s t h ea c h i e v e m e n t sa r ef o l l o w e d : 1 、am e t h o df o rp r o c e s s i n gt h em i s s i n gd a t ao fg e n ep r o f i l ew a sp r o p o s e d w 色 s e tm et h r e s h o l do ft h en u m b e ro f m i s s e dd a t ai nt h es a m p l e ,a l lt h eg e n e sw h o s e e x d r e s s i o nd a t ai sb i g g e rt h a nt h et h r e s h o l da r ed e l e t e d ,a n dt h eo t h e r sa r ef i l l e dw i t h t h ea v e r a g eo ft h eg e n e se x p r e s s i o nd a t a t h ep r o c e s s e dd a t a s h o wg o o d p e r f o r m a n c ei nt h ec l u s t e ra n a l y s i s 2 、an o v e la p p r o a c ho fs e l e c t i o n f e a t u r e g e n e s w a sp r e s e n t e d f i r s t c l a s s i 壬i c a t i o ni n f o r m a t i o ni n d e x ,r e l i e f , tt e s ta n dr a n kt e s ta l g o r i t h m sw e r eu s e dt o c h o o s ef e a t u r eg e n e s t h e nt h ep r o c e s s e dd a t a a r en o r m a l i z e da n df i l t e rt h e r e d u i 】da n c vo ft h ec l a s s i f i c a t i o ni n f o r m a t i o no ff e a t u r eg e n e s t h ef e a t u r eg e n e s w e r es e l e c t e d n e x ts v mw a su s e dt o v a l i d a t et h ec l a s s i f i c a t i o na b i l i t yo ft h e s e f ea _ c l l r eg e n e s t h eb e s tp e r f o r m a n c ef e a t u r eg e n e sa r es e l e c t e d w i t ht h eh i g h c l a s s i f i c a t i o na c c u r a c y f i n a l l yt h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h em e t h o da r e v a l i d a t e db yt h eg a s t r i cd a t aw h i c hw a sc o n t r i b u t e db yh i p p o ya n dc a n b e d o w n l o a d e df r o mg e od a t a b a s e 3 、w ep r o p o s e dt h eb e t w e e n e s sc l u s t e r i n ga l g o r i t h mb a s e do ng r a p ht h e o r y 龇l d g i v et h em o d e l o fm o d u l a r i t yf o ra s s e s s i n gc l u s t e r i n gp e r f o r m a n c e o f b d c w e e n n e s s f i r s tt h eb e t w e e n n e s so fe a c he d g ei nt h en e t w o r ka r ec o m p u t e d t h e n f i i l dt h eb i g g e s tb e t w e e n n e s so ft h en e t w o r k a n dd e l e t e t h ee d g ew i t hb i g g e s t b e 啊e e n n e su n t i ln oe d g ei nt h en e t w o r k f i n a l l y , u s i n gm o d u l a r i t y a s s e s st h e d e r f o n n a n c eo fm es u b n e t w o r k sw h i c hi sc a l l e df u n c t i o n a lm o d u l e s t oc o m p a r e t h e e 贰c t i v e n e s so fm em e t h o d ,w eu s e dz a c h a r yc l u bn e t w o r kt of m dt h em o d u l e si n t h i sn e t w o r k a d d i t i o n a l l y , w ea p p l yt h em e t h o do nc o l o nc a n c e rg e n ee x p r e s s l o n d a t a ( g s e 4 0 4 5 ) w h i c hi sd o w n l o a d e df r o mg e o d a t ab a s e t h ef u n c t i o n a lm o d u l e s o fc o l o nc a n c e rg e n e sa r ed i s c o v e r e d t h i sw o r kw a u ss u p p o r t e db yt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fc h i n a i i i u n d e rg r a n tn o 6 0 2 3 4 0 2 0 t h er e s e a r c h e sa r ea c c e p t e db yd c d i s ,w c c l 2 0 0 8a n d t h ej o u r n a lo fb e i j i n gu n i v e r s i t yo ft e c h n o l o g y t h ea i mo ft h i sp a p e ri st op r e d i c t t h ef u n c t i o no f1 m l k n o w r lg e n e sa n dg i v et h er e f e r e n c em o d e lf o rc a n c e rd i a g n o s i s t h ea l g o r i t h ma n dt h et o o l sd e v e l o p e da r ea v a i l a b l ef o rb i o m a r k e rg e n ed e i f i c a t i o n a n dc a n c e rg e n ef u n c t i o np r e d i c t i o n k e yw o r d s :b e t w e e n n e s sc l u s t e r i n g , m o d u l a r i t y , c a n c e rg e n ee x p r e s s i o np r o f i l e , f e a t u r es e l e c t i o n i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:芬洲导师签名:翌塑堡垒垫日期:丝! 翌:乏:三? 第l 章绪论 1 1 课题研究的背景 第1 章绪论 1 1 1 生物信息学 伴随人类基因组计划的实施,生物分子数据发展的速度已经超过了摩尔定 律。这些生物信息有着丰富的内涵,亟待处理。充分利用这些数据、通过数据 的分析和处理解释这些数据的内涵,从而得到对人类有用的信息,是生物学家、 数学家和计算机科学家所面临的挑战。生物信息学( b i o i n f o r m a t i c s ) 就是为分析 和处理海量的生物数据而形成的一门新兴交叉学科。生物信息学以计算机、网 络为工具,采用数学和信息科学的理论、方法和技术去研究生物大分子。力求 从系统科学的层面上发现生命信息的传递和指导功能,在整体水平上认识生命 现象,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子 机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。 生物信息学是伴随基因组研究的需要而产生的,因此它的研究内容就紧随着基 因组研究而发展。 作为一门交叉学科,生物信息学是在生命科学的研究中,综合运用数学、 计算机科学和生物学的各种工具,对生物信息进行获取、处理、储存、检索、 解释和分析,来阐明和理解大量数据所包含的生物学意义。生物信息学自诞生 以来,经历了以下阶段: 第一阶段:人类基因组研究,称为测序基因组( s e q u e n c i n gg e n o m e ) ,以获得 人的完整基因图谱为主要任务。在知道了核酸序列和基因后,它们是如何按照 特定的时间、空间进行基因表达的? 表达量是多少? 很多实验表明,在不同的 组织中表达基因的数目差别是很大的。脑中基因表达的数目最多,约有3 4 万 个转录因子。有的组织中只有几十或几百个基因表达。不确切知道每种组织中 表达基因的数目,以及每个基因的表达量,就无法从分子水平上了解这一组织 在生命活动中的功能。研究工作也表明,同一组织在不同的个体生长发育阶段 表达基因的种类、数量也是不同的。有些基因是在幼年时期表达的,有些是中 年阶段表达的,有些要到老年时期才表达。不考虑伴随着生物的生长发育,基 因表达状况的变更,也无法确切地说明生命的过程。于是基因组研究应当进入 另一个内涵更丰富、更深刻的阶段,即第二个阶段。 第二个阶段的核心是获得基因的功能表达谱,也就是后基因组阶段 ( p o s t g e n o m ee r a ) 其工作重点是功能基因组研究( f u n c t i o n a lg e n o m e ) 。为了阐述 功能基因组的内涵,科学家们给后基因组冠以不同的名称:功能基因组、结构 基因组( s t r u c t u r a lg e n o m e ) 、药物基因组( p h a r m a c e u t i c a lg e n o m e ) 。这些提法的实 质都是相同的,即将基因组的结构信息与一定的生命活动的功能相联系。为了 北京工业大学硕士学位论文 得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。 这就是在核酸层次上的d n a 芯片技术和在蛋白质层次上的大规模蛋白质分离和 序列鉴定技术,也称蛋白质谱技术和蛋白质组研究。利用d n a 芯片测定和研究 在不同的细胞和组织体系中的m r n a 水平,就是所谓的转录组n 1 的研究。 蛋白质组就是基因组的蛋白质产物。现在主要使用二维凝胶电泳和测序质 谱相结合的技术在蛋白质水平上监测基因表达的功能谱。随着功能基因组实验 技术的深入,海量的数据不断涌现,因此数据库将成为支持这些技术的必然组 成部分,如蛋白质序列数据库s w i s s p r o t 口3 ,核酸序列数据库g e n b a n k 1 、三维 结构数据库p d b h l 、翻译后修饰数据库o g l y c b a s e 3 、基因组数据库o m i m 哺1 以及代谢数据库等。没有这些数据库的资料,新技术是很难应用的。 功能基因组研究的内容除了上述的转录组、蛋白质组和结构基因组研究之 外,另一个重要的方面是研究代谢( 包括细胞发育、分化) 的途径以及疾病发生 与发展的途径。很多疾病与基因突变或基因多态有关,有人估计与癌症相关的 原癌基因约有一千个,抑癌基因约有一百个。约有六千种以上的人类疾病与各 种人类基因的变化有关系。更多的疾病是环境( 包括致病微生物) 与人类基因( 基 因产物) 相互作用的结果。在基因组水平上发展起来的疾病诊断手段与以往各种 手段最大差别在于它不仅反应了疾病的共性,而且还反应了不同的致病因素和 药物对每个病人的个体差异和效应。 根据美国科学家胡德的定义,系统生物学是研究一个生物系统中所有组成 成分( 基因、m r n a 、蛋白质等) 的构成,以及在特定条件下这些组分间的相互 关系的科学口3 ,就是说,系统生物学不同于以往的实验生物学仅关心个别的 基因和蛋白质,它要研究所有的基因、所有的蛋白质、组分间的所有相互关系。 显然,系统生物学是以整体性研究为特征的一种大科学。 系统生物学的基本工作流程有这样四个阶段。首先是对选定的某一生物系 统的所有组分进行了解和确定,描绘出该系统的结构,包括基因相互作用网络 和代谢途径,以及细胞内和细胞间的作用机理,以此构造出一个初步的系统模 型。第二步是系统地改变被研究对象的内部组成成分( 如基因突变) 或外部生长 条件,然后观测在这些情况下系统组分或结构所发生的相应变化,包括基因表 达、蛋白质表达和相互作用、代谢途径等的变化,并把得到的有关信息进行整 合。第三步是把通过实验得到的数据与根据模型预测的情况进行比较,并对初 始模型进行修订。第四阶段是根据修正后的模型的预测或假设,设定和实施新 的改变系统状态的实验,重复第二步和第三步,不断地通过实验数据对模型进 行修订和精练。系统生物学的目标就是要得到一个理想的模型,使理论预测能 够反映出生物系统的真实性。 系统生物学与基因组学、蛋白质组学等各种“组学 的不同之处在于,它 第1 章绪论 是一种整合型大科学。首先,它要把系统内不同性质的构成要素( 基因、m r n a 、 蛋白质、生物小分子等) 整合在一起进行研究。系统生物学研究所的第一篇研究 论文,就是整合酵母的基因组分析和蛋白质组分析,研究酵母的代谢网络陋1 。由 于不同生物分子的研究难度不一样,技术发展程度不一样,目前对它们的研究 水平有较大的差距。例如,基因组和基因表达方面的研究已经比较完善,而蛋 白质研究就较为困难,至于涉及生物小分子的代谢组分的研究就更不成熟。因 此,要真正实现这种整合还有很长的路要走。 系统生物学整合性的第二层含义是指研究思路和方法的整合。经典的分子 生物学研究是一种垂直型的研究,即采用多种手段研究个别的基因和蛋白质。 首先是在d n a 水平上寻找特定的基因,然后通过基因突变、基因剔除等手段研 究基因的功能;在基因研究的基础上,研究蛋白质的空间结构,蛋白质的修饰 以及蛋白质问的相互作用等等。基因组学、蛋白质组学和其他各种“组学则 是水平型研究,即以单一的手段同时研究成千上万个基因或蛋白质。而系统生 物学的特点,则是要把水平型研究和垂直型研究整合起来,成为一种“三维 的研究。此外,系统生物学还是典型的多学科交叉研究,它需要生命科学、信 息科学、数学、计算机科学等各种学科的共同参与。 根据系统论的观点,构成系统的关键不是其组成的物质,而是组成部分的 相互作用或部分之间的关系。这些相互作用或者关系,从本质上说就是信息。 基因组是数字化的( d i g i t a l ) 。生命的数字化核心表现为两大类型的信息,第一类 信息是指编码蛋白质的基因,第二类信息是指控制基因行为的调控网络。显然, 由一段d n a 序列组成的基因是数字化的。值得强调的是,基因调控网络的信息 从本质上说也是数字化的,因为控制基因表达的转录因子结合位点也是核苷酸 序列。生物信息是有等级次序的,而且沿着不同的层次流动。一般说来,生物 信息以这样的方向进行流动呻1 :d n a m r n a 一蛋白质一蛋白质相互作用网络一 细胞一器官一个体一群体。系统生物学是后基因组时代的主要研究方向和方法。 它和生物信息学有什么区别? 如前所述,生物信息学定义为从原始数据中提取 信息的一种计算能力,比如:从d n a 序列预测蛋白的三维结构,处理大量数据 的能力等等,它主要是从核心元件( m r n a ,d n a ) 细胞或者细胞部分中产生大 量信息,但是它不能说明基因或者蛋白的相互作用可以产生一个细胞的调控网 络。而系统生物学的目的之一就是要确定这样一个调控网络异揭示生物的功能, 比如:细胞代谢,细胞周期,信号转导,细胞分化等。它需要调控网元件的量 化知识以及元件相互作用关系,它借助于数学模型和计算机仿真技术,预测生 物系统的遗传环境扰动之间的动力学行为,系统的鲁棒性,平衡性,它和关注 于单个网络元件的还原论生物学截然不同。生物信息学挖掘生物的各种组数据 以及数据统计上的相关性,为系统生物学提供工具。生物学最终的目的是获得 北京工业大学硕士学位论文 对生命的一个基本,全面且系统的理解。系统生物学是后基因组时代以假设为 驱动的主动力。 1 1 2 研究的目的与意义 胃肠道癌症是我国最常见的癌症,其发病率和死亡率构成对公众健康最主 要的威胁n 0 | 。 传统的肿瘤分类与识别主要依靠肿瘤组织样本的显微观测、x 光片、核磁 共振图像分析等样本观测手段以及利用免疫组织化学特征进行分析,其缺点在 于:基于组织样本观测进行肿瘤的判断与类型判别的检验手段,其准确性往往 依赖于观测和分析人员的经验与知识,具有较强主观性,肿瘤诊断的准确性与 可靠性差;基于免疫组化特征的肿瘤诊断,过程复杂、耗时较长,难于在一个 实验中对多个免疫特征同时进行分析,可用的分类特征少,精度低。 1 9 5 3 年,w a t s o n 和c r i c k 发现了d n a 的双螺旋结构,以此开创了分子生物 学的新时代。从分子水平上研究生物的生长、发育等现象,使科学家认识到基因 调控的重要意义。近年来,对系统科学的研究正在推动生物学家从系统角度看待 具有高度复杂性的生命现象。生命系统是一个有内外相互作用的自组织系统,即 储存生命信息的各基因并不是孤立地发挥作用,而是通过形成“基因网络”这样 一个复杂系统来推动生命演化的。因此,一些科学家已经开始利用系统动力学的 手段来研究基因网络,并且也取得了较好的效果。 肿瘤的产生也是同样的道理。从分子生物学的角度,恶性肿瘤可视为基因 的疾病。它是由基因突变而导致异常增生的单个细胞克隆出来的后裔所形成的。 肿瘤的产生是一个多方面复杂的过程。单独一种基因的突变不足以致癌,多种 基因变化的积累才能引起控制细胞生长和分化的机制紊乱,使细胞的增生失控 从而导致癌症的产生。在这些基因的变化中最常发生的两类基因的异常变化是: 癌基因及抑癌基因的变化。表现为癌基因的过度活跃和抑癌基因的失活。可见: 从系统科学的角度用基因网络的方法进行肿瘤的识别与分类具有重要意义和临 床应用价值。 1 2 研究现状 截止到2 0 0 5 年,查询p u b m e d 1 数据库,可以找到和人类癌症相关的出版 物,有6 4 6 篇以肿瘤为主要研究对象的文献,其中4 5 3 篇是近两年发表的。g e o n 一基因表达谱仓库,有8 4 个人类肿瘤数据集。o n c o m i n e n 2 3 数据库( 包括l o 个 以上的肿瘤样本) ,划分出了3 0 0 个主要研究文献类,1 1 4 个数据集,8 ,0 0 0 多 个微阵列试验,每个表达谱包含了一个唯一的人类组织样本。在此基础上,产 生了和肿瘤基因表达谱相关的几个新的研究领域。第一,肿瘤分类。通过肿瘤 和正常组织样本的比较对肿瘤分类;第二,肿瘤的亚型研究。基于肿瘤的临床 第1 章绪论 和病理亚型在表达谱上的明显不同研究肿瘤的亚型;第三,基于特征基因的肿 瘤预后。包括预测复发,转移,生存和治疗反应等;第四,基于特征基因表达 谱的异种癌症的分子亚型朝发现:第五,利用肿瘤基因网络诊断肿瘤并设计药 物n4 l 。特征肿瘤基因已经在乳腺癌和淋巴癌的临床诊断中得到了应用n 1 。虽然这 种零碎的特征基因对肿瘤的诊断和治疗具有一定的意义,但是这种单个的基因 不能够说明整个肿瘤系统的情况,人们需要将单一的肿瘤特征基因转化为调控 模块,将一维的肿瘤特征基因转换为多维的网络并且从中抽取出调控机制。 1 2 1 胃肠道肿瘤的分子遗传模型 2 0 世纪9 0 年代以来,胃肠道癌的分子遗传学和分子病理学的研究取得了 突破性进展。约有1 0 , - 一2 0 的结肠癌发生在家族中,提示遗传性因素参与结肠 的致癌过程。寻找遗传性结肠癌综合症的基因导致了发现与结肠癌发病相关的 基因:先发现结肠癌与家族性腺瘤性息肉病( f a p ) 及散发性结肠癌的发病密切 的a p c 基因,并己分子克隆。1 9 9 0 年f e a r o n 和v o g e l s t e i n n 钉根据结肠“腺瘤 一癌顺序”演变中发现的分子变化,提出结肠癌发病过程的多阶段性分子遗传 学模式,首先提出癌症是由多种基因突变积累的概念。见图1 - 1 。不久,又发 现遗传性非息肉病性结肠癌( h n p c c ) 的发病与微卫星体不稳定性 ( m i c r o s a t e l l i t ei n s t a b i l i t y ,m s i ) n 剐有关,并进一步发现这种突变体表型( m u t a t o r p h e n o t y p e ) 是由于d n a 错配修复基因( m i s m a t c hr e p a i rg e n e ) 的突变所致。这是除 癌基因活化和抑癌基因失活以外的另一种致癌分子机制。 染色体5 q 1 2 p1 8 q1 7 p 变化突变或缺失突变丢失丢失 基因f a p kra$dcc?p53 其他 变化 图卜1 结肠、直肠癌变的多阶段性遗传学模型 r i g1 - 1m u l t i s t a g ec a r c i n o g e n e s i sg e n e t i cm o d e lo f c o l o r e c t a lc a n c e r 该模型认为:结肠、直肠癌变涉及多层次、多种类癌基因的“激活 以及 抑癌基因的失活,恶性肿瘤的形成至少涉及4 - 5 个基因突变,良性肿瘤的形成 则少,重要的是突变总次数的累积,但有时候肿瘤抑癌基因一个等位基因的突 变也可能引发表型效应。该模型对一些常见肿瘤具有一定代表性,但是否具有 普遍性尚需进一步研究。 北京t 业大学硕士学位论文 从系统的观点看,基因表达的大量数据正是反映了基因网络这样的复杂信 息处理系统在分子层次上的运转。因此,我们可以用带有反馈回路的基因网络有 效地处理它。对某一物种或组织中全部基因的表达关系进行整体性研究是基因网 络理论的重要目的。在研究过程中,首先是按照同步或反同步表达,以及表达强 度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基 础上构建基因调控网络,分析相关的控制参数。 1 2 2 基因表达数据的预处理 随着大规模基因表达谱技术的发展,人们利用d n a 芯片可以在一次实验中 同时获得组织样本中成千上万个基因的表达数据,使得利用基因表达谱在分子 水平上研究肿瘤的识别与分类成为可能,利用肿瘤细胞与正常细胞在基因表达 上的差别,采用模式识别技术建立起有效的肿瘤预测和肿瘤分类模型,为肿瘤 的临床诊断提供一种客观、准确的方法,使肿瘤的诊断从“系统、血管、组织 和细胞层次”转变到了分子和基因层次,具有重要的临床应用价值和意义。 受实验方法、设备和条件等因素的影响基因表达数据中存在大量的残缺值。 数据中残缺值的处理是数据分析的基础。处理基因表达数据中的残缺值最简单 的方法是通过降维的方法将其过滤掉。如果包含残缺值的基因总数相对于总的 基因个数很小,可以使用此法,否则会影响其后的分析结果。或者对于基因f , 计算出所有样本的基因f 的平均值,用该值代替基因f 的缺失值。如果基因表达 谱中残缺值比较多,采用直接降维的方法显然不合理,它很有可能将重要的基 因滤掉。用所有样本均值代替基因f 的缺失值的方法,没有考虑同一基因在不同 样本( 肿瘤或正常) 中的表达可能是不同的。如此处理残缺值可能将差异表达 基因变成非差异表达的基因,这样的基因很可能在提取特征基因集合的过程中 被作为非特征基因而滤掉。 1 2 3 基因表达数据的差异表达分析 近年来通过基因表达谱芯片实验产生了大量的表达谱数据。由于基因表达 数据测定过程需要经过多个步骤的操作,而每一步都可能会引入大量的噪声, 这就使得基因表达数据属于强噪声数据。由于个体的多样性造成个体基因间存 在差别。又由于样本获取和制备上的困难,因此目前的基因表达谱的样本数很 少。这就造成表达谱数据具有样本数目少、维度高、冗余基因和噪声大的特点。 较高的维数比率,将导致所谓的“维数灾难问题 ,从而使分类器的泛化能力大 大降低。由于样本数目有限,因此有效去除噪声基因,就成为提高维数比率的 主要途径。同时,为了得到和理论值相接近的错误率的估计,降低计算复杂度, 简化知识发现,也必须降低维数比。 从生物学的角度分析,找出决定肿瘤分类的基因标记物具有重要的生物学 第1 苹绪论 意义,也是生物学研究的直接目标。针对少样本数据必须对噪声数据进行有效 处理,才可能得到反映生物本质的分类和聚类结果。由于基因表达数据的特殊 性,要求新的方法除了具有能够发现数据间的真正关系、分类精度高、方法简单、 速度快、鲁棒性强( 在分类算法受到随机干扰及其它不确定因素影响时能够保持 较高的分类精度) 这些特点外,还要求分析结果可视化程度好,可解释性强,具 有很好的统计学和生物学意义。 1 2 4 基因表达数据的聚类分析 基因聚类分析的主要任务就是确定具有相似表达模式的基因,这些具有相 似表达模式的基因可能具有共同的特征,比如共同的调节元件、共有的生物功 能或者共同的细胞起源等等。通常某一特定途径中的基因或者受相同环境变化 影响的基因应当是共调控的,并且具有相似的表达模式,通过对这些共同表达 基因的聚类分析,不仅可以对基因的功能研究给予提示,还可以对基因调控途 径和调控网络的研究给予启发。 聚类算法分成两大类n :基于距离或相似度的判另 ( s i m i l a r i t y b a s e d ) 聚类和 基于模型( m o d e l b a s e d ) 的聚类。基于判别的聚类采用一个距离或者相似度函数 来度量样本两两之间的亲疏程度,并以此作为聚类的依据,一般采用欧氏距离 作为度量样本间的距离的公式;基于模型的聚类则假设数据符合内在的概率模 型框架,模型的参数通过每类的样本来估计,这样数据样本就可以根据模型的参 数不同来划分不同的类别。基于判别的聚类算法对于如何确定合适的类数等问 题无法给出系统的指导,而且聚类结果会出现不稳定的情况;而基于模型的算 法可以把该类问题转换成模型的选择问题,因此它比判别聚类算法更具优势。 在基因表达聚类分析中应用最广的模型聚类有隐马尔可夫模型( h i d d e n m a r k o v m o d e l ,h m m ) n 引、混合高斯n 们( m i x t u r eg a u s s i a n ) 模型、和v o r l m i s e s f i s h e r ( v m f ) 模型心等。基于模型的算法假定数据中蕴含的每一组( 成分) 由一种 内在的分布混合产生,假设数据集y 为 y l , y :,y 。 是独立的多元观测数据,则 g 该混合密度模型的概率密度可表示为f ( ylp ) = 气f k ( y il 吼) ,其中:g 为待分类 k = l 别数;目。为待估参数;r 。为观测样本属于第k 个成分的概率。接着由样本数据 预测混合模型的参数目。,最后由这些模型的参数确定相应的类。算法的具体类 型取决于分布函数f k ( y ;l 吼) 的类型。 基于判别的聚类算法在芯片数据分析中应用最多的是k 均值聚类算法【1 7 1 和 层次聚类方法乜。层次聚类算法得到类似于进化分析的系统树图,具有相似表 北京工业大学硕士学位论文 达谱的基因彼此临近,它们可能具有相似的功能。其主要思想是先将,1 个样本 看成n 类,计算类间的距离,再将相似性最高的两类合并为一个新类,得n j 个类,再重新计算关系矩阵,不断重复这个过程直至所有的基因融合成为一个 大类。多种层级聚类方法均能被用于微阵列数据分析,根据合并新类时距离度 量计算的不同主要有以下几类:平均联接聚类法、完全联接聚类法、单联接聚 类法、加权配对组平均法、组内聚类法等等。层级聚类易于使用,系统树图能 提供一个关于数据结构的可视化结果。因为距离矩阵的不同,不同的层级聚类 算法将给出的结果略有不同。对于基因表达数据,平均联接聚类法的结果比较 好。 k 均值( k m e 觚) 聚类c 2 1 是目前应用最广泛聚类算法之一,适用于处理庞大 的样本数据。其基本思想是首先给定要构建的划分的数目k ,然后通过一定的 规则创建一个原始划分,之后再采用一种迭代的重定位技术,通过再分配类成 员来使“类”内分散度达到最小化,直到所有的样本都不能再分配为止。根据初 始值、相异度、聚类平均值计算策略上的不同,k 均值方法有很多变种,对于 数据分布比较接近球状的情况有很好的聚类效果晗刳。 目前还有很多聚类算法被用于基因表达数据的聚类分析,例如:自组织映 射算法乜引、支持向量机聚类幢4 1 、方向直径聚类乜朝等等。 p e r o u 等应用系统聚类分析( h i e r a r c h i c a lc l u s t e ra n a l y s i s ) 对来自4 2 例乳 腺癌病人的6 5 个乳腺癌样本的基因表达谱进行了分析,确定了三种不同的乳腺 癌亚型。h e d e n f a l k 乜7 1 等应用聚类方法对7 例自发性的乳腺癌病人和1 5 例遗传 性乳腺癌病人的基因表达谱进行了分析,筛选出了对样本进行准确分类的基因。 k h a b a r 等通过对基因表达谱聚类分析,对干扰素抗病毒和抑制增生的作用进行 了研究乜引。t a k a s h i 等在应用系统聚类分析对脂肪瘤的基因表达谱进行了分析, 对脂肪瘤的亚型进行了识别暖9 。 基因表达数据分析或建模的关键是从数千个基因的表达数据中发现数个或 数十个与疾病密切关联的基因。基于统计的方法难以识别出与特定疾病相关联的 关键基因。目前基于机器学习的基因表达数据分析方法的研究也还存在局限性, 虽然发现了一些关联或相关关系,但是这样的聚类方法没能准确地反映出特定基 因对于分类的重要性。而分类方法可以发现甄别不同肿瘤样本的特征基因。 研究基因在不同时间和条件下的表达情况是认识基因功能的一个主要途径。 基因芯片技术是生物学家揭示基因功能的一个重要工具,可用于疾病分型啪1 、疾 病相关基因发现口、药物靶点发现口2 1 与基因功能预测嘲。功能相近的基因其表达 模式相似。我们可以通过发现相似性预测未知基因功能。聚类算法是研究这类问 题的主要方法。传统的聚类算法并非起源于生物相关研究领域,根据基因表达谱, 利用层次聚类、自组织映射等无监督方法进行基因功能预测的结果并不包含明确 第1 章绪论 的生物学意义,在后处理过程中缺乏成熟的预测性能评价指标,比如,k 一均值和 自组织都需要事先输入聚类的个数,而对基因聚类时并不知道有多少类,而且传 统算法对噪声数据非常敏感。 1 3 本文工作 1 3 1 课题来源 本课题是国家自然科学基金重点资助项目( n o 6 0 2 3 4 0 2 0 ) 复杂系统意义 下的生物信息学中若干问题的研究的一个组成部分。 复杂系统意义下的生物信息学中若干问题的研究从分析复杂系统的观 点出发,通过分析基因组的信息结构、调控机理、以及综合利用基因组、转录 组与蛋白质组的信息,进行基因组功能的探索和了解。该课题对于从整体上分 析研究基因之间及基因与蛋白质之间的相互作用对基因功能的影响有着重要作 用。 1 3 2 本文的主要内容 本文工作主要涉及三个方面的内容。第一,对肿瘤基因表达数据中残缺值的 处理方法进行了尝试,用本文提出的方法处理的数据具有很好的聚类有效性;第 二,建立了一种确定特征基因的标准。通过比较多种特征基因提取算法的分类正 确率,最终确定特征基因提取算法和特征基因;第三,通过聚类有效性的研究, 解决了无监督聚类算法需要己知聚类数,而对基因聚类时事先无法知道聚类数的 矛盾。比较基于模式识别的层次聚类和基于图论的边介数算法的聚类有效性后, 采用具有较好有效性的边介数聚类算法对结肠癌基因网络进行了聚类分析,并结 合g o 数据库对基因功能类赋予明确的生物学意义。也进一步证明了边介数聚类 算法在肿瘤基因聚类中的可行性和实用性。 1 3 3 论文结构 论文包括绪论、主体和结论三部分。其中第二章为绪论,概述了课题来源, 研究背景、意义、现状和本文主要工作。主体部分包括三章:第二章为肿瘤基因 表达数据残缺值的处理方法。肿瘤基因表达数据存在大量残缺值,但是相关的处 理方法却很少,本文在这方面进行了尝试。第三章为肿瘤基因表达数据特征基因 的确定。通过比较不同特征基因提取算法的分类正确率,确定特征基因集合。第 四章是结肠癌基因网络模块结构研究。应用边介数聚类算法提取了结肠癌基因网 络的模块结构,并用模块度函数对聚类效果进行了定性评价。通过检索g o 数据 库验证了边介数聚类所得基因模块具有相似或相同的功能类,从而进一步证明了 算法的可行性。主体部分的三章是相互联系,按照基因表达数据处理的顺序安排 的。论文的最后是结论部分,结论部分概括了本文的工作,没有独立分章。 北京工业大学硕七学位论文 1 4 本章小结 本章概述了论文课题来源、研究意义和现状,在此基础上简单介绍了本文主 要工作和论文结构。 第2 章胂瘤基因表达数据残缺值的处理 第2 章肿瘤基因表达数据残缺值的处理 受实验方法、设备、条件和数据记录方法等因素的影响基因表达数据中存 在大量的残缺值。包含的残缺值,意味着我们不知道基因的所有信息。这对数 据的分析结果影响很大,必须采取适当的方法进行处理。本章提出了一种肿瘤 基因表达数据残缺值处理的方法,并将此方法应用于结肠癌基因表达数据。处 理后的数据具有很好的聚类有效性。 2 1 基因表达数据的获取及残缺值的出现 2 1 1 基因表达数据的获取 人类基因组计划绘制的人类基因组图谱表明,人类基因组由3 1 6 4 7 亿个碱 基对组成,共包含了3 万一4 万个基因。基因表达( g e n ee x p r e s s i o n ) 的过程分为 两个阶段:转录( t r a n s c r i p t i o n ) 和翻译( t r a n s l a t i o n ) 。转录的过程是指由d n a 单 链按照碱基互补的原则复制出另一条r n a 单链的生物过程,生成的单链r n a 称为信使r n a ( m r n a ) 。翻译的过程是指以转录过程产生的信使r n a 为模板, 依据三联密码子原则,形成氨基酸序列,合成蛋白质的复杂过程。 e x p r e s s i o nf r o mae u k a r y o t i cg e n e h 嘲? 群删p 埔,at 咖雠嘶嚏h m 删鬟yl 乡t n 7 一。硝秽7 荔茹。 d n a 瓢。= 造名二名二o 。蛔 _ it s c p 虹o n i t 磷搬。n 圈圈p r o 蜮n 图2 1 真核生物基因表达过程 f i g2 - 1g e n ee x p r e s s i o np r o c e s so fe u c a r y o n 图2 一l 表示了真核生物基因( e u k a r y o t i cg e n e ) 表达的过程。基因的表达水平 是指信使r n a 的表达水平,表征了基因转录的程度。 北京工业大学硕十学位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业合作社土地承包合同模板范例
- 大学创新创业大赛组织方案
- 职业技能培训机构课程设计方案
- 机器学习在金融风控中的应用方案
- 公路隧道工程项目进度管理方案
- 采购合同管理中的法律风险
- 汽车维修专业人才培养方案实施报告
- 开关插座施工方案
- 施工方案编制与报审表填写规范
- 游泳池施工质量控制方案
- 8.12天津滨海新区爆炸事故带来的工程伦理思考
- 2023山东省考行测真题
- 英美国家概况知到章节答案智慧树2023年成都文理学院
- 电厂安全生产事故应急预案模板
- midas Gen减震分析设计(上)
- GB/T 15843.3-2023信息技术安全技术实体鉴别第3部分:采用数字签名技术的机制
- GA 1805-2022危险化学品经营企业反恐怖防范要求
- GB/T 28704-2012无损检测磁致伸缩超声导波检测方法
- GB/T 27024-2014合格评定人员认证机构通用要求
- FZ/T 96016-1995中性粘胶长丝纺丝机
- 2023年上海市黄浦区精神卫生中心医护人员招聘笔试题库及答案解析
评论
0/150
提交评论