




已阅读5页,还剩98页未读, 继续免费阅读
(生物医学工程专业论文)基于表达数据和基因组信息分析基因调控的方法学研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
( 3 ) 基于g o 术语的基因产物语义相似度分析基因之间的关联关系。语义相似度计 算的基本思想是基于g o 图结构信息或者基于g o 术语的信息量信息,选择酵母基因和 a p ,1 相关基因,采用多种算法进行了g o 语义相似度计算,结果表明应用语义相似度可 以进行基因相关性分析,路径参与基因之间的语义相似度要显著高于任意基因之间的语 义相似度,酵母基因分析的结果要优于a p 1 路经基因的分析结果,这与酵母基因和人类 基因的g o 注释质量有关。分析还表明了不同算法得到的结果有较大的差异,提示了算法 选择的重要性,而整合多种算法进行分析将是更好的一种选择。 ( 4 ) 全基因组分析对于计算复杂度和后续信息分析都是一个挑战,在算法研究的基 础上,面向具体的生物医学应用,开发了基因表达数据分析软件、转录因子结合位点扫 描和注释软件、基于秩的跨平台条件特异表达分析程序和基于g o 术语的基因产物语义相 似度计算程序。上述软件和程序可以在h t t p :w w w 1 m b e s e u e d u c n x j m p r o g r a m h t m l 一下 载。 论文在面向生物医学应用进行工具开发上进行了尝试,试图有机地把两者结合起来, 以生物医学问题为主导,整合多种数据进行分析。 关键词:基因表达模糊聚类分析转录因子结合位点g o 术语 微阵列语义相似度跨平台基因表达数据分析 生物信息学 i i a b s t r a c t t h e s i st i t l e :b i o i n f o r m a t i c so fg e n er e g u l a t i o nb a s e do ng e n ee x p r e s s i o nd a t aa n dg e n o m i ca n a l y s i s d o c t o rc a n d i d a t e :x i e j i a n - m i n g s u p e r v i s o r :l uz u - h o n g ( p r o f e s s o r ) s c h o o l :s o u t h e a s tu n i v e r s i t y i nt h ep o s t - g e n o m i ce r a , ah u g ea m o u n to fb i o l o g i c a ld a t as u c ha sg e n ee x p r e s s i o np r o f i l e sa n dg e n o m i c d n as e q u e n c e sh a v eb e e np r o d u c e dr a p i d l yb yt h eh i g h t h r o u g h p u tt e c h n o l o g y t h et a s ko fd a t am i n i n ga n d b i o l o g i c a lk n o w l e d g ee x p l o r i n gb r i n g sac h a l l e n g et ob i o i n f o r m a t i s a l s o ,t h es t u d yo fg e n er e g u l a t i o n m e c h a n i s mi n f e r r e db yi n t e g r a t i n gt h ea n a l y s i so fg e n ee x p r e s s i o na n do t h e rh e t e r o g e n e o u sd a t ab e c o m et h e m a j o rt a s kf o rb i o m e d i c a la p p l i c a t i o n ,s u c ha st h ec a n c e rd i a g n o s i sa n dp r o g n o s i s i no r d e rt os t u d yt h eg e n e r e g u l a t i o n , t h ea l g o r i t h m sa n dt o o l sa r ei n v e s t i g a t e df o rp r o c e s s i n gt h em i c r o a r r a yg e n ee x p r e s s i o nd a t a , g e n o m i cd n as e q u e n c e sa n da n n o t a t i o ni n f o r m a t i o n t h ea c h i e v e m e n t sa r el i s t e db e l o w ( 1 ) t h ef u z z yc l u s t e r i n ga n a l y s i si sf i r s ti n t r o d u c e dt oa n a l y z et h eg e n ee x p r e s s i o nd a t aa n di sa p p l i e dt o a n a l y z et h ey e a s t sg e n ee x p r e s s i o nd a t a t h eg e n e si nt w oc l u s t e r ss h o wt h ep e r i o d i cb e h a v i o r a c c o m p a n y i n gt h ec e l lc y c l e t h e yj o i ni nt h eb i o l o g i c a lp r o c e s s e so c c u r r e dd u r i n gg 1 sa n dg 2 m t r a n s i t i o n ,r e s p e c t i v e l y a c c o r d i n gt ot h ef u n c t i o n so ft h eg e n e si nt h ec l u s t e r , t h em o l e c u l a ra c t i v i t yi n t h ec e l lc a nb ee n v i s i o n e d ( 2 ) w i t ht h eh y p o t h e s i st h a tt h ec o - e x p r e s s e dg e n e sm a yb er e g u l a t e db yt h es a m et r a n s c r i p t i o nf a c t o r , t h e p r o m o t e rd n as e q u e n c e so fc o - e x p r e s s e dg e n e sd u r i n gy e a s tc e l lc y c l ea r er e t r i e v e da n dt h ep u t a t i v e b i n d i n gs i t e sa r ee x t r a c t e db ya l i g n a c es o f t w a r e t h er e s u l t ss h o wt h ef e a s i b i l i t yo ft h i sm e t h o d w h i c hw i l lb eu s e dt oi n v e s t i g a t et h er e l a t i o n s h i p sb e t w e e nt h eg e n e sa n dt h e i rr e g u l a t o r s ( 3 ) an o v e la l g o r i t h mb a s e do nr a n ka n dp e r m u t a t i o nt e s ti sp u tf o r w a r dt oa n a l y z et h em u l t i - p l a t f o r mg e n e e x p r e s s i o nd a t af o rm i n i n gt h ep h e n o t y p e - s p e c i f i cd i f f e r e n t i a t e dg e n e s i ti sa p p l i e dt oa n a l y z et h eg e n e e x p r e s s i o nd a t ao fs o m ek i n do fc e l l sd u r i n gm o u s eh e m a t o p o i e s i s s o m es p e c i f i cg e n e sd u r i n gt h e d e v e l o p m e n to ft h etc e l la n dbc e l la r ef o u n dw i t has t a t i s t i c a ls i g n i f i c a n c e t h e s eg e n e ss h o wt h e s p e c i f i cm o l e c u l a rp a t t e r n sb e t w e e nt h eta n dbc e l l s ( 4 ) t h et a r g e tp r e d i c t i o nf o rat r a n s c r i p t i o nf a c t o r ( t f ) i sp e r f o r m e db ys c a n n i n gt h et f b st h r o u g ht h e g e n o m i cs e q u e n c e sc o m b i n gt h eg oa n n o t a t i o n t h ed i s t r i b u t i o n so ft f b s so fn f r , ba n da p 1a r e i n v e s t i g a t e d i n t e g r a t i n gt h ed a t aa n di n f o r m a t i o no ft h ed i s t r i b u t i o no fc o n s e n s u so rm o t i f s ,t h e c l u s t e r i n gp r o p e r t yo fm o t i f sa n dg oa n n o t a t i o no fk n o w nt a r g e tg e n e s ,s o m ep u t a t i v et a r g e tg e n e so f n f r , ba n da p 1a x ep r e d i c t e d ( 5 ) t h es e m a n t i cs i m i l a r i t yb a s e do ng ot e r m sc a l lb eu s e dt od e d u c et h ea s s o c i a t i o n sb e t w e e ng e n e s t h e a l g o r i t h m sf o rc o m p u t i n gt h es e m a n t i cs i m i l a r i t ya r es t u d i e ds y s t e m a t i c a l l ya n du s e dt oa n a l y z et h e g e n e so fy e a s ta n da p 一1r e l a t e d t h er e s u l t ss h o wt h a tt h eg e n e sj o i n e di nt h es a m ep a t h w a yw i l lh a v e h i g h e rs e m a n t i cs i m i l a r i t yt h a nt h er a n d o mg e n ep a i rw i t hs t a t i s t i c a ls i g n i f i c a n c e i tg i v e sas t r o n gc l u e t od e d u c et h er e l a t i o n s h i p sb e t w e e ng e n ep r o d u c t sb yc o m p u t i n gt h es e m a n t i cs i m i l a r i t y ( 6 ) s o m es o f t w a r eo rp r o g r a m sh a v eb e e nd e v e l o p e df o rg e n ee x p r e s s i o na n a l y s i s ,t h et r a n s c r i p t i o nf a c t o r b i n d i n gs i t e ss c a n n i n ga n dh i t sa n n o t a t i o n ,t h ep h e n o t y p e s p e c i f i cd i f f e r e n t i a t e dg e n ea n a l y s i sb a s e do n r a n ka n dp e r m u t a t i o nt e s t ,t h es e m a n t i cs i m i l a r i t ya n a l y s i sb a s e do ng e n eo n t o l o g y k e y w o r d s :g e n ee x p r e s s i o n f u z z yc l u s t e r i n ga n a l y s i st r a n s c r i p t i o nf a c t o rb i n d i n gs i t e g ot e r m m i c r o a r r a y s e m a n t i cs i m i l a r i t y c r o s s - p l a t f o r mg e n ee x p r e s s i o nd a t aa n a l y s i s b i o i n f o r m a t i c s i l i 缩写词表 缩写词词组 a p 1 a c t i v a t i n gp r o t e i n - 1 b p b p c c c d n a d n a f d r f e a g o g r n g s e a g t l h c g p h g p h s c k e g g m f m r n a o r f p s f m p 、m m r t - p c r s a g e s d s o m s v m i t t f b s t s s u p g m a b a s ep a i r b i o l o g i c a lp r o c e s s c e l l u l a rc o m p o n e n t c o m p l e m e n t a r yd n a d e o x y r i b o n u c l e i ca c i d f l a s ed i s c o v e r yr a t e f u n c t i o n a le n r i c h m e n ta n a l y s i s g e n eo n t o l o g y g e n er e g u l a t o r yn e t w o r k g e n es e t se n r i c h m e n ta n a l y s i s g e n o m et ol i f e t h eh u m a nc a n c e rg e n o m ea r o j e c t h u m a ng e n o m ea r o j e c t h e m a t o p o i e t i cs t e mc e l l k y o t oe n c y c l o p e d i ao fg e n e sa n dg e n o m e s m o l e c u l a rf u n c t i o n m e s s e n g e rr n a o p e nr e a d i n gf r a m e p o s i t i o n s p e c i f i cf r e q u e n c ym a t r i x p o s i t i o nw e i g h t e dm a t r i x r e a l - t i m ep o l y m e r a s ec h a i nr e a c t i o n s e r i a la n a l y s i so fg e n ee x p r e s s i o n s t a n d a r dd e v i a t i o n s e l f - o r g a n i z a t i o nf e a t u r em a p p i n g s u p p o r tv e c t o rm a c h i n e t r a n s c r i p t i o nf a c t o r t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e t r a n s c r i p t i o ns t a r ts i t e u n w e i g h t e dp a i r - g r o u pm e t h o du s i n ga r i t h m e t i ca v e r a g e s v i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电 子信息形式刊登) 授权东南大学研究生院办理。 一签名将燧予础 第一章绪论 第一章绪论 1 9 5 3 年,美国科学家华生和克里克提出了生物遗传信息的载体d n a ( d e o x y f i b o n u c l e i c a c i d ,脱氧核糖核酸) 具有双螺旋结构,合理解释了遗传信息的传递机制,从此生物医学 进入了快速发展阶段,分子生物学进入了生物医学的每一个领域。h g p ( h u m a ng e n o m e p r o j e c t ,人类基因组计划) 的顺利实施把生物医学的研究带入了后基因组时代,高通量生 物信息检测技术的发展和应用造就了基因组学、蛋白质组学、转录组学、代谢组学、互作 组学、表型组学、r n a 组学、生理组学等生命各层次的组学( o r n i c s ) 的诞生,在生命组学 的基础上,从系统的角度来研究生命现象,形成了系统生物学( s y s t e m sb i o l o g y ) 的研究 策吲卜5 1 。海量生物分子数据的存储、分析促进了生物信息学( b i o i n f o r m a t i c s ) 的产生和快速 发剧良1 2 】,统计分析、数据挖掘、统计学习、机器学习、生物系统的建模和仿真成为生物 医学研究中不可缺少的工具,而生物信息的流动和表达也成为生物信息学研究的主要内 容。 1 1 基因调控的研究 蛋白质 图1 - 1 遗传信息的表达过程及其调控 奎塑盔堂堡主堂垡丝塞 细胞的行为是由蛋白质执行完成的,蛋白质的产生是细胞根据内、外环境,启动特定 基因程序而产生的,因此基因表达过程是细胞活动的核心,图1 1 显示了基因表达过程及 其调控环节,遗传信息通过转录、翻译过程产生蛋白质,通过蛋白质来实现各种生物化学 过程,形成细胞特定的结构、完成特定的生理过程【i 引。基因调控过程是复杂的,调控来 自遗传信息和环境信号,及其相互作用。如果把生物体看作是计算机,则基因组就是设计 蓝图,以蛋白质为核心元件构成的基因调控网络、物质代谢网络和信号转导网络就是遗传 电路( g e n e t i cc i r c u i t ) 1 4 - 1 7 j ,它们具有计算机硬件和软件的功能,完成计算和控制等任务。 因此,我们要阐述生命的奥秘、明确疾病的发病机制、开发新药,前提是解密生命的蓝图 基因组,得到执行生命活动的遗传电路,这是生物医学研究的根本任务。 基因调控是通过分子网络实现的,细胞内有三大分子网络系统,基因调控网络( g e n e t i c r e g u l a t o r yn e t w o r k ,g i ) 、信号转导级联网络和物质代谢网络,它们之间相互协作保证 了细胞的正常运行,完成各项生理功能【l8 ,1 9 j 。g r n 实现对基因表达的调控,通过转录因 子与d n a 上的顺式调控元件结合来启动基因的转录产生m r n a ,m r n a 在核糖体中翻译 生成蛋白质。近几年发现,m i r n a 和s i r n a 对翻译过程和m r n a 的降解起调节作用【2 m 2 3 j , m i r n a 是一个2 2 n t 的r n a 序列,通过与m r n a 上3 u t r ( u n t r a n s l a t e dr e g i o n ,非翻译 区) 等特定区域的结合,来阻止蛋白质的合成,对细胞分化、增殖、凋亡、癌症发生或抑 制其中重要的调节作用。利用转录表达数据、转录因子及其转录因子结合位点 ( t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e ,t f b s ) 信息、蛋白质蛋白质相互作用数据、基因组信 息等可以对g r n 进行建模和仿真【2 4 2 5 1 。g r n 可用来解释基因型的改变所导致的表型变 化,因此在癌症等疾病分子机制的研究中,g r n 成为重要的研究内容,根据g r n 的动力 学变化或拓扑结构的改变来诊断癌症【2 1 1 。在后基因组时代,构建生物分子网络一般采用 以下分析策略i j 2 j :根据基因组序列分析、基因表达数据或其它高通量生物分子数据构 建网络结构草图p 3 j ;利用己知的遗传数据、生物学知识、酶功能等人工辅助重建网络: 将以上网络模型进行建模,采用基于约束的模型、定量或定性模型等进行仿真;应用 模型解释高通量数据,修正和完善模型,得到新的生物学知识i l9 1 。要构建基因调控网络, 多采用b o o l e a n 网络【3 4 】、概率布尔网络【3 5 】、贝叶斯网络【3 6 】或动态网络模型【了7 ,3 8 】,也开始 使用微分方程进行定量动力学分析【3 3 ,3 9 1 。整合基因组数据,应用贝叶斯网络算法构建酵 母基因调控网络进行复杂系统行为的预测为分子网络构建和分析提供了新的应用实例 4 0 1 。基因调控网络是复杂的,目前的这些构建方法在实际应用中都存在着很多问题,预 测的网络与实际的分子网络有很大的差距,而且计算量巨大;同时,目前的数据量尚不能 满足于网络建模的需要p 引。因此在构建网络时,需要考虑分子网络的基本特性。生物分 子网络属于复杂网络,其拓扑结构多为无尺度网络( s c a l e f r e en e t w o r k ) 】,具有模块性 和层次性等特性【4 z 讲j ,所以生物分子网络具有鲁棒特性【4 5 】。基因调控网络的基本构成单 元有简单调控、负反馈自调控、正反馈自调控、前馈环、单输入模块和多输入模块等类型 一引。这些基本单元具有特定的动力学响应特性【4 9 1 。g r n 网络的复杂性还体现在动力学 响应特性上,对于不同的刺激强度信号,细胞会采用不同的响应模式,例如,对于转录因 子n f r b 分子网络及其动力学的研究发现,不同的激活路径显示不同的响应行为,细胞 因子t n f c 【( t u m o rn e c r o s i sf a c t o r ) 刺激细胞时,n f r b 的活化显示出衰减的振荡行为, 而脂多糖( l p s ) 刺激时表现为平稳行为1 5 。不同的t n f a 作用持续时间会导致n f r b 活化显示出单相和振荡两种不同的模式,分别控制了不同的基因程序,对应于刺激后1 , 3 ,6 小时的早期、中期和后期响应基因组分别达到表达高峰【5 。 由于对基因调控复杂性的认识在不断增加,而目前的g r n 建模方法还存在着数据量 不足、计算复杂度过大的问题,我们认为研究基因调控的核心任务依然在认识基因基因 之间的相互关系上,这种相互关系可以从基因表达数据、基因组数据的中体现出来,而这 两种数据是目前产生最快,也是最多的生物分子数据,对这些数据的分析仍然是一个挑战。 2 第一章绪论 1 2 基因表达数据分析 基因表达数据反映了细胞当前的生理状态及其发展趋势。如果细胞存在基因程序, 能对细胞内、# i - 束u 激信号做出特定的响应,然后决定细胞的行为,那么基因表达数据反映 了基因程序运行的中间结果或特定时空的快照【l3 ,5 2 j 。对基因表达数据的分析可以得到至 少3 方面的信息: ( 1 ) 细胞的当前状态,一般认为,基因表达具有时空特异性,不同类型的细胞在不 同的环境中发生表达的基因种类是不一样的,同一种基因所表达的数量也是不同的【5 弘”】, 导致不同的细胞有不同的基因表达谱( 基因表达谱有两个含义,一是细胞内所有基因的表 达值构成细胞在特定时间的表达谱,二是指一个基因在不同细胞或不同细胞周期的表达数 据构成基因表达谱) ,因此可以根据基因表达谱来区分细胞类型或预测细胞的行为趋势, 例如利用基因表达谱的特异性可用于肿瘤的分子诊断、分型和预后【5 0 1 。 ( 2 ) 基因之问的相互作用关系,基因之间有多种关系,例如共调控关系、调控关系。 共调控关系指基因的表达受相同的转录因子调节,它们的表达谱往往是相同的,这些基因 的产物或者构成蛋白质复合体,或者参与共同的生物学途径完成特定的生理功能【6 副;调 控关系指一个基因的产物作为转录因子启动、调控一些基因的转录,它们在表达谱上有一 些特征,例如可能会有时相的差距畔舶】。调控关系存在负性调控、正性调控、反馈调控、 直接和间接调控等,根据基因之间的相互关系可以推测基因的功能【6 7 。7 1 】。 ( 3 ) 基因调控网络信息,基因表达数据是基因调控网络工作的结果,从表达数据可 以反推出基因调控回路,基因调控回路可以很好的解释基因表达数据【7 厶7 7 1 。 为了获取上述三个方面的信息,对于基因表达数据的分析也是在三个逐渐复杂的层 次上进行。 ( 1 ) 分析单个基因的表达谱,根据该基因在不同样本中表达量的变化,来判断它与 样本表型的关系,例如是否与表型有特异相关性,即仅仅在特定的细胞类型或细胞周期中 高表达,通常称为差异表达分析,有假设检验等方法,在肿瘤分型和预后评估中常采用该 方法1 5 2 ,7 8 - 8 1 1 。 ( 2 ) 分析一组基因的表达谱,研究这组基因的共同功能、相互作用以及协同调控等, 多采用聚类分析等方法,在应用中也用于识别表型特异的一组基因,研究其调控关系,或 确定表型特征基因用于样本的分类等【5 8 ,7 1 ,8 2 8 5 】。 ( 3 ) 尝试推断潜在的基因调控网络结构,从机理上解释基因表达谱的产生及其变化, 多采用反工程的方法【2 4 77 跖- 9 0 j 。 在基因表达数据分析过程中,存在一些问题,它们直接决定了选择表达数据的分析 方法,以及对分析结果的深层次信息挖掘和知识提取。目前,通常采用e d n a 微阵列或 寡核苷酸基因芯片来获取全基因组的基因表达数据【9 1 9 5 1 ,这些技术所采用的原理是已知信 息的探针与基因表达产物进行杂交,实现细胞中所有表达产物m r n a 的直接和间接定性 和定量测量,探针设计是第一步,有很多策略和方法可用于探针的设计和布局,它们对实 验结果有一定的影响p 纠引。微阵列检测的是全基因组的基因表达丰度,但是由于微阵列制 造技术和实验过程中诸环节的影响,实验数据有较大的噪声,因此对微阵列数据需要进行 图像处理、标准化等预处理阴 1 0 0 j ,基因表达数据中有很多缺失数据,也影响了基因表达 分析的方法选择和结果分析,因此往往需要进行缺失数据的处理【l o l l0 2 1 。得到的表达数据 是高维小样本数据,这对于差异表达以及聚类分析等方法带来分析上的困难【1 0 3 一0 4 1 ,有人 尝试采用主成分分析方法( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 进行降维处理,但是 没有证据表明这样的预处理对于聚类分析有任何帮助【1 0 5 ,1 0 6 1 。为了解决小样本问题,同时 也是再利用已有的基因表达数据,跨平台分析成为一种很有发展的分析方法,目前已有一 些方法用于跨平台分析,在数据预处理或结果分析等不同的分析阶段进行数据分析或结果 壅查奎堂堡堂丝丝塞 汇总【1 0 7 1 0 9 1 ,但是由于实验设计、数据处理规范化等问题,目前在实际应用中还不是很多。 针对微阵列基因表达数据的分析已有很多算法,但是在对具体生物学实验数据的分析中, 使用的还是一些最为基本的分析方法,例如聚类分析使用层次式聚类或自组织特征映射方 法等1 6 0 - 儿o ,1 1 ,主要原因是分析方法与分析结果之间没有明确关系,很多方法只是作为一 种探索性的方法,分析所得到的结果需要进行深层次的信息挖掘和知识发现,能否发现新 的知识并给与令人信服的证据是实验生物学家所关心的问题,因此面向应用进行分析方法 的选择和整合,我们认为这是生物信息学的一个新的趋势,将分析方法和生物学分析目的 有机结合起来,以生物学问题为出发点,选择数据和方法来解决这些问题,得到新的生物 学假设,并设计实验来验证。在这个过程中,仅有基因表达数据是不够的,一次实验的数 据也是不够的,多层次的生物分子数据和跨平台的数据整合是需要解决的问题1 2 1 1 卜4 1 。 1 3 转录因子d n a 结合位点研究 基因转录是由转录因子结合到基因的d n a 调控元件后开始启动的,转录因子 ( t r a n s c r i t p i t o nf a c t o r , t f ) 称为反式调控因子,d n a 调控元件是d n a 短序列,称为顺 式调控元件,也称为d n am o t i f ( 模体,基因组上的d n a 短序列) 或转录因子d n a 结 合位点( t r a n s c r i p t i o nf a c t o rd n ab i n d i n gs i t e ,t f b s ) 。转录因子通常具有特定的空间结 构,例如螺旋转折螺旋、亮氨酸拉链、锌指结构等,这些特定的结构域保证了与d n a 的结合是特异性的。t f b s 通常只有6 - 2 0 b p 长,平均约1 3 b p t l l5 。,具有简并性( d e g e n e r a c y , 即序列不是唯一的,一些位置上的碱基可以变化,但不影响与t f 的结合) ,这种简并性 导致了基因表达调控的复杂性,可能与生物进化、组织特异性相关【1 1 6 1 ;t f b s 是进化保 守的1 1 17 1 1 8 】,然而t f b s 的突变能导致疾病的发型1 1 9 ,1 2 们。一般认为,t f b s 主要分布在 基因转录起始位点( t r a n s c r i p t i o ns t a r ts i t e ,t s s ) 上游的启动子区,但是在上游的增强子 区或者下游的沉寂子区、基因编码区、3 - u t r ( u n t r a n s l a t e dr e g i o n ) 也普遍存在瞄 “l 1 2 2 。, 启动子区域的识别仍然是生物信息学的挑战1 1 2 3 l2 4 。c a w l e y 等对转录因子s p l 、c m y c 和 p 5 3 在人类2 1 和2 2 号染色体的结合位点研究表明分布在启动子区的t f b s 只占2 2 1 1 2 。 t f b s 在d n a 序列中存在聚集现象 1 2 5 - 1 2 7 j ,有些t f b s 的序列是由对称的两个片段组成 【1 2 8 j 。全基因组检测t f b s 的主要技术是c h i p c h i p 技术悼7 ,1 2 9 。,可以检测一种转录因子的 全基因组定位信息。t f b s 的识别和转录因子及其靶基因的确定是研究基因转录调控和构 建基因调控网络的重要内容【4 1 7 ,l i 7 1 ,因此t f b s 的计算机预测和靶基因识别是生物信息学 的重要内容。 计算机预测t f b s 包括两个工作,一是t f b s 的发现,二是t f b s 的识别。t f b s 一 般存在于基因的启动子区或增强子区,它们是与转录因子特异结合的具有一定简并性的 d n a 段片段,还具有组合分布和高频分布等特性,因此如果选择一组基因的启动子序列, 这组基因可能存在共同的调控因子,那么可以通过序列分析的方法得到可能的转录因子结 合位点。基于共表达基因的t f b s 预测和基于系统发生痕迹进行t f b s 发现的方法就是基 于这个设想【1 3 0 。1 3 8 】,但有研究表明人类有功能的t f b s 中有3 2 _ 4 0 的位点在大鼠中不 再具有功能【1 3 8 】,同样对于共表达的基因也不一定是共调控的,因此该方法会产生较大的 假阴性和假阳性【1 3 9 ,1 4 0 1 ,因此需要整合更多的信息来提高预测的准确性和特异性,例如可 以利用染色质结构信息来精确预测组织特异的t f b s 1 4 ,分析t f b s 的位置分布或利用 t f b s 的组合特性进行识别【1 4 2 。1 4 4 1 ,或者利用全基因组定位实验数据来验证预测的t f b s , 目前已有很多方法进行预测,但是在实际应用中还是存在很多问题,感兴趣的可以阅读综 述文章1 1 4 5 1 4 6 1 。通过生物学实验已经发现了很多转录因子的d n a 结合位点,它们以一致 序列或位置权重矩阵等方式表示,可以在文献或专业数据库中找到,例如t r a n s f a c 数据库 和j a s p a r 数据库【1 47 l 删j ,收集了一大批已知的转录因子结合位点。利用已知的t f b s 可以 扫描一段d n a 序列或全基因组,来识别在d n a 序列中的位置,从而预测靶基因【7 3 ,1 4 9 , 4 第一苹绪论 利用转录因子和靶基因的关系可以构建基因调控网络【1 1 7 l5 0 】。t f b s 扫描可以采用序列比 对或计算d n a 与矩阵相似性的办法来识别,可以想象,由于t f b s 很短,在基因组中大 量存在,绝大多数可能不是转录因子的结合位点,因此需要整合更多的信息来预测靶基因, 例如靶基因的共表达性、在靶基因启动子区的t f b s 聚集特性、全基因组定位数据等【2 7 ,1 2 8 , d 。在实验技术还没有解决t f b s 及其靶基因识别问题,而基因组序列不断快速出现, 发展高效的靶基因预测算法仍然是个重要的选择,对于认识基因调控关系,构建基因调控 网络具有重大价值。 1 4 本论文的研究内容和结构 基因调控涉及基因调控回路和基因表达特征谱两类信息,前者是基因调控的基础或者 说是蓝图,它反映的是基因与基因之间的相互关系,后者是基因调控的结果,反映了基因 调控回路的行为。因此,基因调控的研究首先是要确定基因调控回路,其次是确定基因调 控回路的变化导致的行为改变,以及在特定环境条件下的遗传回路动力学特性改变。 目前,基因组数据和基因表达数据是增长速度最快,产生这些数据的高通量技术最为 成熟、数据质量最为可靠的两类数据,当然这些数据的分析方法是研究最多也已有较多分 析工具。但是,针对基因调控的研究,仍然是生物信息学研究的热点和难点,最主要的问 题还是在于目前的数据量不够充分,以及数据分析方法存在不足,不能充分挖掘信息。因 此本论文的研究目的是研究数据挖掘算法,能够整合基因组数据、基因表达数据和注释数 据,用于探索基因之间的相互关系和表达调控关系;在算法研究的基础上,集成和开发一 组分析程序,形成基因表达调控研究的分析平台。 围绕着研究目的,主要开展以下4 方面的工作: 1 、基因表达数据分析方法的研究。微阵列技术的成熟和应用产生了海量的基因表达 数据,对这些数据的分析可以获取基因共表达的信息,或者具有相似分子特征的样本分组 等信息,对于现有的分析方法,在提取基因相关行为时仍然存在着诸多不足,因此有必要 研究新的分析方法,在本文中将模糊数学的思想和方法引入到基因表达数据分析中,进行 了较为深入地研究,并用于酵母数据处理,利用共表达共调控的假设,预测转录因子结合 位点。在基因表达数据分析过程中,有一个很重要的问题是跨平台分析,它对于整合不同 来源的数据,解决网络建模过程中数据量不足的问题是一个有效的方法,本文采用基于秩 的方法来探索跨平台基因表达数据的整合问题,并用于分析造血干细胞分化过程中的基因 表达数据,预测细胞类型特异的差异表达基因。 2 、基因调控回路的核心是基因之间相互关系的确定,更为明确的是转录因子及其靶 基因的确定,转录因子与d n a 的结合是一种特异性结合,体现在转录因子的特异性结构、 以及保守的转录因子结合位点,因此通过t f b s 以及其它信息来确定靶基因是一个重要的 确定靶基因的思路。本文分析了转录因子n f r b 和a p - 1 的转录因子结合位点的全基因组 分布特性、启动子区的t f b s 聚集特性、以及利用g o 注释信息预测靶基因,为基于t f b s 预测靶基因提供了新的思路和方法。 3 、在高通量数据分析时,基因产物注释信息对于进一步分析数据处理结果提取生物 学知识有重要作用。分析了不同的基于g o 术语的基因之间的语义相似度算法,系统分析 了酵母中参与路径的基因、a p 1 基因及路径参与基因之间的语义相似度,探索利用语义 相似度进行基因相互关系分析的可能性。 4 、全基因组层次的数据分析需要有效的分析工具,生物信息学研究的一个重要方面 是研究算法和开发工具,开发了基因表达数据分析软件、转录因子结合位点扫描软件、基 于秩的跨平台基因表达分析程序和基于g o 术语的基因语义相似度分析程序。 论文组织结构如下:在第二章介绍基因表达数据分析,第l 节简述基因表达数据分析 查堕丕堂堕主堂垡堡塞 的研究现状和主要方法,第2 节介绍基因表达数据聚类分析算法及其在酵母数据分析中的 应用,第3 节介绍基于基因共表达预测转录因子结合位点,第4 节介绍基于秩的跨平台分 析方法及其应用,最后介绍基因表达数据分析软件的设计和实现。第三章介绍转录因子识 别算法和靶基因预测,首先简述转录因子结合位点识别方法,然后分别介绍转录因子 n f r b 和a p - 1 的转录因子结合位点的全基因组扫描和分析,及其利用g 0 注释信息的靶 基因预测。最后介绍了转录因子结合位点的全基因扫描和分析软件的设计、实现和应用。 第4 章介绍基于g o 的语义相似度分析,系统分析了酵母和a p l 路径参与基因间的语义 相似度计算及其在预测基因间关系的可行性,并比较了各种算法。最后介绍了分析程序的 设计和开发。第5 章为总结,总结论文工作,提出今后的研究思路。 6 第二章基因表达数据分析 第二章基因表达数据分析 基因表达是指细胞内作为遗传物质的基因通过制造基因产物表现出生物学功能的过 程,基因产物通常为蛋白质,也可以是各种r n a 。基因表达是一个复杂的过程,包括一 系列的步骤( 如图1 1 ) ,简单讲,基因表达的过程包括两个阶段:第一阶段是转录过程, 即以单链d n a 为模板生成m r n a :第二阶段是翻译过程,即以m r n a 为模板根据遗传 密码翻译生成多肽。通过基因表达过程,遗传信息从d n a 传递到蛋白质,指导细胞的生 存、分裂、分化和响应外界信号等生理活动。在本文中,基因表达数据指转录产物m r n a 的检测量。真核生物的基因表达过程还包括核小体结构改变和基因的活化( 组蛋白的乙酰 化、c p g 岛的甲基化等) 、转录后调节( 转录提前中止、初始转录本h n r n a 的剪接、5 端加甲基化鸟苷帽、3 端接多聚腺苷尾巴、r n a 编辑等) 、成熟转录本的出核输送、m r n a 在细胞质降解、翻译水平的调节和翻译后修饰等【l3 l 。 e d n a 微阵列或基因芯片等高通量检测技术可以获得全基因组的基因表达数据,由于 基因表达的时空特异性以及检测技术的成熟和广泛应用,基因表达数据成为目前产生速度 最快的生物分子数据之一,因此在现阶段,通过分析基因表达数据来揭示细胞活动的分子 机制成为首选的策略,由此也决定了基因表达数据分析的重要性,目前仍是生物信息学的 重要研究内容和挑战。 本章第l 节综述基因表达数据分析的研究现状,第2 节介绍基因表达数据的模糊聚类 分析,第3 节介绍基于基因表达数据聚类分析预测转录因子结合位点,第4 节介绍基于秩 的跨平台差异表达基因分析,第5 节介绍软件工具g e k e 的开发,最后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陶瓷工艺品彩绘师质量管控考核试卷及答案
- 2024年秋七年级生物上册 4.2 绿色植物的光合作用说课稿2 北京课改版
- 品酒师操作考核试卷及答案
- 见面时的礼节教学设计-2025-2026学年中职专业课-旅游服务礼仪-旅游类-旅游大类
- 甲基硅氧烷生产工入职考核试卷及答案
- 解决社会问题的营销方案
- 7.3 拟定保护生态环境的计划(说课稿)2023-2024学年七年级生物下册同步教学(人教版河北专版)
- 金属材丝拉拔工技能比武考核试卷及答案
- 电池制液工安全规范考核试卷及答案
- 安全咨询公司盈利方案
- 2026高考物理一轮复习-第十章-第54课时-专题强化:测电阻的其他几种方法-专项训练【含答案】
- 多囊卵巢综合征的超声诊断
- 售后索赔流程管理办法
- 2025 高中地理核心素养之综合思维培养(气候与建筑)课件
- 幼儿园中国茶文化课件
- DB3205∕T 1105-2023 房屋安全鉴定服务规范
- 食堂燃气操作人员培训
- 2025年中国医院创新转化报告-中国医学创新联盟
- 2025年6月黑吉辽蒙高考地理真题完全解读
- 2023年宪法学习宪法知识竞赛试题及答案
- 汇率预测模型优化-洞察及研究
评论
0/150
提交评论