(生物物理学专业论文)dna序列分段新算法及其在基因组分析中的应用.pdf_第1页
(生物物理学专业论文)dna序列分段新算法及其在基因组分析中的应用.pdf_第2页
(生物物理学专业论文)dna序列分段新算法及其在基因组分析中的应用.pdf_第3页
(生物物理学专业论文)dna序列分段新算法及其在基因组分析中的应用.pdf_第4页
(生物物理学专业论文)dna序列分段新算法及其在基因组分析中的应用.pdf_第5页
已阅读5页,还剩116页未读 继续免费阅读

(生物物理学专业论文)dna序列分段新算法及其在基因组分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着高通量d n a 测序时代的到来,越来越多生物的全基因组序列正逐渐展 现于人们的眼前。如何从中挖掘有用的信息成为对当今生物学乃至整个科学领 域的一个挑战。已有证据表明在大多数基因组序列中存在着核苷酸组成的突变 点,通常组成上的突变蕴含着丰富的生物学意义。本论文主要致力于d n a 序列 分段新算法的开发研究,以及在基因组分析中的应用。 论文第一部分介绍了生物信息学发展的背景和主要研究内容,以及相关的 生物学背景知识。同时,对生命科学研究的新趋势以及生物信息学的新方向也 作了简单的介绍。 论文第二部分主要致力于d n a 序列分段新算法的开发研究及应用。基于平 方散度发展出的基因组段落化新算法,可以按核苷酸组成的不同将基因组或 d n a 序列精确划分成不同的区域,可广泛应用于i s o c h o r e 图谱绘制,c p g 岛检 测,细菌古细菌复制起始预测,基因编码区一非编码区边界的定位等方面。与 基于j e n s e n s h a n n o n 离散量构建的信息熵分段算法相比,新算法更为简单、快 速,更适用于分析人类基因组和其他新测序的真核生物基因组序列。借助于累 积g c 轮廓图技术,将得到的分段点在图形上标注,从而可通过直观的形式来分 析g 屺含量和c p g 岛、基因以及其它元件分布之间的关系。在基因组段落化的 新算法和累积g c 轮廓图技术的基础上,建立了交互式网上服务软件系统 g c p r o f i l e ,可用于定量及定性的研究和分析原核及真核基因组的组织结构,有 望成为分析高等真核生物基因组等g c 组成区的恰当出发点和识别原核生物基 因组岛的有力工具。 论文第三部分是围绕人类基因的短编码区识别问题展开的。在z 曲线理论 的基础上,考虑密码子内部相邻碱基之间的近程相关性,将z 曲线参数进一步 发展。基于所建立的数据库和标准评价指数,对包括马尔科夫模型在内的1 9 种 算法进行评价比较,结果发现z 曲线6 9 参数和1 8 9 参数在1 9 种算法中识别准 确率最高。 关键词: z 曲线,等g c 组成区( 同质段) ,累积g c 轮廓图,平方散度,组成 分段,基因识别 a b s t r a c t w i t ht h ea d v e n to fh i g h - t h r o u g h p u td n as e q u e n c i n g ,g e n o m i cs e q u e n c e so f n u m e r o u sp r o k a r y o t i ca n de u k a r y o t i co r g a n i s m sh a v eb e c o m ep u b l i c l ya v a i l a b l e m i n i n gu s e f u lb i o l o g i c a lk n o w l e d g ef r o mt h e s ed n as e q u e n c e sc u r r e n t l yr e p r e s e n t s ac h a l l e n g et ot h eb i o l o g i c a l ( i fn o tt h ew h o l es c i e n t i f i c ) c o m m u n i t y a c c u m u l a t i n g e v i d e n c es h o w st h a tt h e r ea r ean u m b e ro ft u r n i n gp o i n t si nm o s tg e n o m es e q u e n c e s , t h r o u g hw h i c ht h en u c l e o t i d ec o m p o s i t i o nu n d e r g o e ss u d d e nc h a n g e s u s u a l l y , c l e a r b i o l o g i c a li m p l i c a t i o n sa r ea s s o c i a t e dw i t ht u r n i n gp o i n t s t h i sd i s s e r t a t i o nd e s c r i b e s an e ws e g m e n t a t i o na l g o r i t h mo fd n as e q u e n c e sa n di t sa p p l i c a t i o n si nt h ea n a l y s i s o fg e n o m e s an e wm e a s u r e ,t oq u a n t i f yt h ed i f f e r e n c eb e t w e e nt w op r o b a b i l i t yd i s t r i b u t i o n s , c a l l e dt h eq u a d r a t i cd i v e r g e n c e ,h a sb e e np r o p o s e d b a s e d0 1 1t h eq u a d r a t i c d i v e r g e n c e ,an e ws e g m e n t a t i o na l g o r i t h mt op a r t i t i o nag i v e ng e n o m eo rd n a s e q u e n c ei n t oc o m p o s i t i o n a l l yd i s t i n c td o m a i n si sp u tf o r w a r d t h en e wa l g o r i t h m h a sb e e na p p l i e dt oi d e n t i f i c a t i o no fi s o c h o r es t r u c t u r ei ne u k a r y o t i cg e n o m e s , d e t e c t i o no fc p gi s l a n d s ,p r e d i c t i o no fr e p l i c a t i o no r i g i na n dt e r m i n u s ,a n dl o c a t i o n o fe o d i n g - n o n c o d i n gb o r d e r s c o m p a r e dw i t ht h ee n t r o p i cs e g m e n t a t i o na l g o r i t h m b a s e do nt h ej e n s e n - s h a n n o nd i v e r g e n c e ,t h en e wa l g o r i t h mh a san u m b e ro f a d v a n t a g e s p a r t i c u l a r l y , i ti sm u c hs i m p l e ra n df a s t e rt h a nt h ee n t r o p y b a s e dm e t h o d b a s e do nt h eo b t a i n e dr e s u l t s t h er e l a t i o n s h i p sb e t w e e nt h eg + cc o n t e n ta n do t h e r g e n o m i cf e a t u r e s ,s u c ha sd i s t r i b u t i o n so fg e n e sa n dc p gi s l a n d s ,c a nb ea n a l y z e di n ap e r c e i v a b l em a n n e r t h e p r e c i s eb o u n d a r y c o o r d i n a t e so b t a i n e db yt h e s e g m e n t a t i o na l g o r i t h ma n dt h ea s s o c i a t e dc u m u l a t i v eg cp r o f i l ep r o v i d eau s e f u l p l a t f o r mt oa n a l y z eag e n o m eo rc h r o m o s o m e w eh a v et h e r e f o r ed e v e l o p e dt h e m i n t og c ,p r o f i l e ,a ni n t e r a c t i v ew e b - b a s e ds o f t w a r es y s t e m ,w h i c hc a nb eu s e dt o s e g m e n tp r o k a r y o t i ca n de u k a r y o t i cg e n o m e s g c p r o f i l ep r o v i d e saq u a n t i t a t i v ea n d q u a l i t a t i v ev i e wo fg e n o m eo r g a n i z a t i o n i ts h o w st h a tg c p r o f i l ew o u l db ea n a p p r o p r i a t es t a r t i n gp o i n tf o ra n a l y z i n gt h ei s o c h o r es t r u c t u r eo fh i g h e re u k a r y o t i c g e n o m e s ,a n da ni n t u i t i v et o o lf o ri d e n t i f y i n gg e n o m i ci s l a n d si np r o k a r y o t i e g e n o m e s s i n c et h ee a r l y19 8 0 s ,t h e r eh a sb e e ng r e a tp r o g r e s si nt h ed e v e l o p m e n to f c o m p u t a t i o n a lg e n e - f i n d i n ga l g o r i t h m s s o m ep r o b l e m s ,h o w e v e r , h a v en o ty e tb e e n s o l v e dc u r r e n t l y r e c o g n i z i n gs h o r tg e n e si np r o k a r y o t e so rs h o r te x o n si ne u k a r y o t e s i so n eo fs u c hp r o b l e m s t h ed i s s e r t a t i o ni sa l s od e v o t e dt o a s s e s s i n gv a r i o u s a l g o r i t h m s ,i n c l u d i n gt h o s ec u r r e n t l ya v a i l a b l ea n dt h en e wo n e sp r o p o s e dh e r e ,i n o r d e rt of i n dt h eb e s ta l g o r i t h mt os o l v et h ei s s u e b a s e do nt h ed a t a b a s e sa n da s t a n d a r db e n c h m a r k , 19a l g o r i t h m sw e r ee v a l u a t e d c o n s e q u e n t l y , t h ezc u r v e m e t h o d sw i t h6 9a n d18 9p a r a m e t e r sa r et h eb e s to n e sa m o n gt h e m ,b a s e do nt h e d a t a b a s e sc o n s t r u c t e dh e r e k e yw o r d s :t h ezc u l 、,e ,i s o c h o r e ,c u m u l a t i v eg cp r o f i l e ,q u a d r a t i cd i v e r g e n c e , c o m p o s i t i o n a ls e g m e n t a t i o n ,g e n er e c o g n i t i o n 独创,性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得苤盗盘堂或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意。 _ , 学位论文作者签名:南霹签字日期:2 0 0 6 年1 2 月6 日 高峰 学位论文版权使用授权书 本学位论文作者完全了解鑫垄盘堂有关保留、使用学位论文的规定。 特授权苤凄盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:高峰 导师签名: 高峰张春霆 签字日期:2 0 0 6 年1 2 月6 日 签字日期:2 0 0 6 年1 2 月6 日 第一章绪论 1 1 生物信息学发展背景 第一章绪论 i n t r o d u c t i o n 二十世纪生物学经历了由宏观到微观的发展过程,由形态、表型的描述逐步 分解、细化到生物体的各种分子及其功能的研究。1 9 5 3 年沃森和克里克提出的 d n a 双螺旋模型是生物学进入分子生物学时代的标志,二十世纪七十年代出现 的基因工程技术极大地加速和扩展了分子生物学的发展。1 9 9 0 年启动的人类基 因组计划是生命科学史上第一个大科学工程,开始了对生物全面、系统研究的探 索。2 0 0 0 年6 月2 6 日,国际人类基因组测序协作组( 由美、英、日、德、法、 中等国的多个测序中心组成) 公布人类基因组工作草图,标志着人类在解读自身 “生命之书的路上迈出了重要一步。2 0 0 3 年,在发现d n a 双螺旋结构5 0 周 年之际,高质量人类基因组全序列测序工作的完成标志着基因组新纪元的到来, 宣告人类基因组计划的所有目标全部实现l l l 。人类基因组计划和随后发展的各种 组学技术把生物学带入了系统科学的时代1 2 1 。 ,一、 o o o 、- 一 4 - - c 了 o g 1 9 6 51 9 7 01 9 7 51 9 8 01 9 8 51 9 9 01 9 9 52 0 0 0 y e a r 图1 1 生物医学信息和计算能力的累积增长1 3 1 。 f i g 1 - 1 c u m u l a t i v eg r o w t ho f b i o m e d i c a li n f o r m a t i o na n dc o m p u t i n gp o w e r 1 鲫 咖 啪 啪 帕。似 似 舰 一 一 姗 啪 帕。似 似 蝴 ) l 第一章绪论 随着人类基因组及模式生物基因组大规模测序的顺利实施,g e n b a n k ,e m b l 和d d b j 国际三大核酸序列数据库的序列数量和碱基个数呈指数增长。同时国际 上著名的蛋白质数据库如p i r 、s w i s s p r o t 、p d b 等中的蛋白质数目与d n a 序列同步,也呈指数增长。自全长1 8 m b 的嗜血流感杆菌( h a e m o p h i l u si n f l u e n z a e r d ) 基因组序列于1 9 9 5 年发表1 4 来,迄今( 截止到2 0 0 6 年1 1 月9 号) 已完成 了4 5 7 种自由生物体全基因组测序s e l 作( h t t p :w w w g e n o m e s o n l i n e o r g ) t 5 1 ,其中包 括2 9 种古细菌,3 8 4 种细菌和4 4 种真核生物,包括线虫 6 1 、果蝇 7 1 、拟南芥【8 】、 水稻1 9 1 和人【1o 】等。此外,还有1 0 5 0 种原核生物( 5 6 种古细菌和9 9 4 种细菌) 和 6 2 9 种真核生物正在测序。如何分析这些数据,从中获得生物结构、功能的相关 信息是基因组研究取得成果的决定性步骤。 数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖 掘它们。与正在以指数方式增长的生物学数据相比,人类相关知识的增长( 粗略 地用每年发表的生物、医学论文数来代表) 却十分缓慢( 图1 1 ) 。其中,缓慢上 升,似乎趋近饱和的两条曲线是1 9 6 6 年以来美国国家医学图书馆( n a t i o n a l l i b r a r yo fm e d i c i n e ,简称n l m ) 所提供的在线检索服务m e d l i n e 收录的论文 以及其中的一大类,即“分子生物学和遗传学”论文的数目的增长情况。m e d l i n e 的选用范围超出医学而囊括几乎所有全部重要的生物学期刊。这两条曲线大致反 映了人类消化理解实验事实和数据,使之上升为科学知识的过程。从二十世纪八 十年代初迅速抬头的曲线是美国核酸序列数据库g e n b a n k 中核酸序列数目的增 长情况。同时国际上著名的蛋白质数据库如p i r 、s w i s s - p r o t 、p d b 等中的蛋 白质数目与d n a 序列同步,也呈指数增长。图1 1 清楚的表明,数据增长越来 越快,传统的研究方式已经来不及迅速消化新数据,把后者及时提升为科学知识 【3 】。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对 新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构 成了一个极大的矛盾。这个矛盾催生了- 1 3 新兴的交叉科学,这就是生物信息学 【1 1 1 。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义: 生物信息学是- - i 1 交叉科学,它包含了生物信息的获取、处理、存储、分发、分 析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具, 来阐明和理解大量数据所包含的生物学意义。面对巨大而复杂的数据,运用计算 机管理数据、控制误差、加速分析过程势在必行,从而使生物信息学成为当今生 命科学和自然科学的重大前沿领域之一,也是二十一世纪自然科学的核心领域之 第一章绪论 1 2 生命科学研究的新趋势 二十一世纪的生命科学研究出现了一个整体化复杂化,多学科交叉的趋势。 在返个时代,生命科学的主要研究对象是功能基嗣组学( f u n c t i o n a lg e n o m i c s ) , 包括对结构基因组( s t r u c t u r a lg e n o m e ) 、转录组( t r a n s c r i p t o m e ) 、蛋白质组 ( p r o t e o m e ) 和代谢组( m e t a b o l o m e ) 的研究等( 图i - 2 ) 。当前,由各种相应的 o m i c s 组学技术,如基因组学( d n a 测序) ,转录组学( 基因表达系列分析、基 因芯片) ,蛋白质组学( 质谱、二维凝胶电泳、蛋白质芯片、x 射线衍射、核磁 共振) ,代谢组学( 核磁共振、x 射线衍射、毛细管电泳) 等技术,积累了大量的 实验数据。 t r a n s c r i p t o m e p r o t e o m em e t a b o l o m c 幽l o 集成功能基因组学i2 i 。 f i gi - 2i n t e g r a t e d f u n c l i o m l g e n o m i c s 这些新兴学科不同于以往学科的地方就是:它们以生物体内全部基因、 m r n a 、蛋白质或代谢物等为对象进行整体性研究。此外,由于复杂系统理论和 非线性科学的发展,关注的对象已不再停留于一条代谢途径或信号转导通路,而 是提升到了细胞活动的网络和生物大分子之间复杂的相互作用关系。越来越多的 科学家认识到,生命是一个复杂的非线性系统。它具有自组织和自装配的特性。 第一章绪论 一些简单的分子装配形成了生物大分子以后就会出现某种或某些新的性质;而生 物大分子之间的相互作用与自组织也会导致新功能的产生。这些新产生的性质或 功能是难以从形成它们的物质基础上推导出来的。在功能基因组时代,现有的生 物学理论和方法暴露出了越来越大的局限,又到了一个需要多学科交叉的新阶 段。 系统生物学( s y s t e m sb i o l o g y ) 是运用生物的、遗传的、化学的及物理的方 法对生物系统进行扰动从而对生物系统产生的响应进行研究,其需要检测基因、 蛋白、代谢物及信号途径的响应,进而对所得信息、数据进行综合,构建描述系 统结构及其响应于上述各种扰动的数学模型n 。系统生物学是在细胞、组织、器 官和生物体整体水平研究结构和功能各异的各种分子及其相互作用,并通过计算 生物学来定量描述和预测生物功能、表型和行为。系统生物学将在基因组序列的 基础上完成由生命密码到生命过程的研究,这是一个逐步整合的过程,由生物体 内各种分子的鉴别及其相互作用的研究到途径、网络、模块,最终完成整个生命 活动的路线图。这个过程可能需要一个世纪或更长时间,因此常把系统生物学称 为2 1 世纪的生物学。 , x 渤 皇 q o 疗 e 口 苍 ) - 、 ,) r f t r a n g e n o m i c s s c d p t o m e p r o t e o m ei n t e r a c t o m ep h e n o m el o c a l i z o m e 图1 - 3 整合“组学”信息1 2 l 。 f i g 1 - 3 i n t e g r a t i n g o m i e i n f o r m a t i o n 4 第一章绪论 系统生物学的主要技术平台为基因组学( g e n o m i e s ) 、转录组学 ( t r a n s c r i p t o m i c s ) 、蛋白质组学( p r o t e o m i c s ) 、代谢组学( m e t a b o l o m i c s ) 、相互作 用组学( i n t e r a c t o m i c s ) 和表型组学( p h e n o m i e s ) 等( 图1 3 ) 。基因组学、转录组 学、蛋白质组学、代谢组学分别在d n a 、m r n a 、蛋白质和代谢产物水平检测 和鉴别各种分子并研究其功能。相互作用组学系统研究各种分子间的相互作用, 发现和鉴别分子机器、途径和网络,构建类似集成电路的生物学模块,并在研究 模块的相互作用基础上绘制生物体的相互作用图谱。表型组学是生物体基因型和 表型的桥梁,目前还仅在细胞水平开展表型组学研究【1 4 】。 系统生物学使生命科学由描述式的科学转变为定量描述和预测的科学,已在 预测医学、预防医学和个性化医学中得到应用,如用代谢组学的生物指纹预测冠 心病人的危险程度和肿瘤的诊断和治疗过程的监控;用基因多态性图谱预测病人 对药物的应答,包括毒副作用和疗效。表型组学的细胞芯片和代谢组学的生物指 纹将广泛用于新药的发现和开发,使新药的发现过程由高通量逐步发展为高内涵 ( h i g hc o n t e n t ) ,以降低居高不下的新药研发投入。通过系统生物学的研究,设计 和重构植物和微生物新品种,以提升农业和工业生物技术产业,开拓能源生物技 术、材料生物技术和环境生物技术等新产业也取得较快进展。美国能源部2 0 0 2 年启动了二十一世纪系统生物学技术平台,以推动环境生物技术和能源生物技术 产业的发展。系统生物学将不仅推动生命科学和生物技术的发展,而且对整个国 民经济、社会和人类本身产生重大和深远的影响。 1 3 生物信息学及其主要研究内容 随着后基因组时代( p o s t - g e n o m i ce r a ) 的到来,基因组学的研究从结构基因 组学过渡到功能基因组学,即从“是什么一过渡到“为什么 的研究。生物信息 学在后基因组时代的生物学研究中将起特殊的重要作用,各种组学的发展在很大 程度上均依赖于生物信息学进行数据的储存、检索和分析( 图1 2 ) 。因为后基因 组时代提供的数据的数量之巨大在生物学上是史无前例的,这非同一般的大量数 据必须要有高度自动化的处理,包括数据的输入、储存、加工、检索以及数据库 之间的联系。输入和输出数据必须非常迅速并有质量控制,数据处理需要设计各 种特殊软件,对各种不同的分析方法得到的数据进行综合分析,不同的数据库之 间要有高效自动的应答。庞大的数据库要有严密的管理,包括定期检查以保证提 供最新和最准确的数据。而且,蛋白质组,代谢组比基因组具有更大的复杂性, 第一章绪论 因而对信息学更有挑战性。基因组学,蛋白质组学和代谢组学等的发展促使生物 信息学迅速发展。 基因组信息是生物信息中最基本的表达形式,并且基因组信息量在生物信息 量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也不 等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的d n a 序列、染色体定位,也包括基因产物( 蛋白质或r n a ) 的结构和功能及各生物种 间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮 存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及 定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等 方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质 结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。 生物信息学以核酸、蛋白质等生物大分子数据为主要研究对象,以系统生物 学为主要研究思路,以计算生物学为主要研究方法,以数理科学、信息科学和计 算机科学为主要研究手段,以计算机网络为主要研究环境,以计算机软件为主要 研究工具,构建各种类型的专用、专门、专业数据库,研究开发面向生物学家的 新一代计算机软件,对浩如烟海的原始数据进行存储、管理、注释、加工,使之 成为具有明确生物意义的生物信息,并通过对生物信息的查询、搜索、比较、分 析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性 知识。在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和 个体的发生、发育、病变、衰亡等生命科学中重大问题,搞清它们的基本规律和 时空联系,建立“生物学周期表,1 1 5 】。就目前生物信息学的研究情况来看,国际 上公认的生物信息学的研究内容,大致包括以下几个方面【1 6 1 : 1 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和 生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系 统;提供生物信息的在线服务;进行生物信息可视化和专家系统的研究。 2 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际 e s t 数据库( d b e s t ) 和各自实验室测定的相应数据,经过大规模并行 计算发现新基因和新s n p s 以及各种功能位点;基因组中非编码区的信 息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式 生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密 码起源、基因组结构的演化、基因组空间结构与d n a 折叠的关系以及 6 第一章绪论 基因组信息与生物进化关系等生物学的重大问题。 3 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、 软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白 质空间结构的预测和模拟,以及蛋白质功能预测的研究。 4 生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和 反义r n a 的分子设计;蛋白质空间结构模拟和分子设计;具有不同功 能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和 设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表 面受体结构的药物设计;基于d n a 结构的药物设计等。 5 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与 测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通 讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马 尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学 方法、多序列比较方法等;创建切适用于基因组信息分析的新方法、 新技术,包括引入复杂系统分析技术、信息系统分析技术等;建立严格 的多序列比较方法:发展与应用密码学方法以及其他算法和分析技术, 用于解释基因组的信息,探索d n a 序列及其空间结构信息的新表征: 发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分 子空问结构模拟、电子结构模拟和药物设计的新方法与新技术。 6 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列 信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植 物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。 1 4 生物进化和系统分类 生物学分类体系是瑞典博物学家林奈( c a r o l u sl i n n a e u s ,17 0 7 5 7 8 8 ) 建立 的。他把一切生物分成界( k i n d o m ) 、f - j ( p h y l a ,单数p h y l u m ) 、纲( c l a s s ) 、目 ( o r d e r ) 、科( f a m i l y ) 、属( g e n e r a ,单数g e n u s ) 、种( s p e c i e s ) 七级,每级还可 再冠以前缀超( s u p e 0 或亚( s u b ) ,分出新的层次。 二十世纪七十年代末由于美国伊利诺斯大学的c r w o e s e 等人对大量微生 物和其他生物进行1 6 s 和1 8 s r r n a 的寡核苷酸测序,并比较其同源性水平后, 第一章绪论 提出了一个与以往各种界级分类不同的新系统,称为三域学说( t h r e ed o m a i n s t h e o r y ) f l 刀( 图1 - 4 ) 。c r w o c s c 把域作为分类单元的最高级。“域是一个比界 ( k i n d o m ) 更高的界级分类单元。三个域指的是:细菌域( b a c t e r i a ,以前称真 细菌域e u b a c t e r i a ) 、古生菌域( a r c h a e a ,以前称古细菌域a r c h a e b a c t e r i a ) 和真 核生物域( e u k a r y a ) 。 在研究生物进化和系统分类中,常用一种树状分枝的图型来概括各种( 类) 生物之间的亲缘关系,这种树状分枝的图型被称为系统发育树( p h y l o g e n e t i c t r e e ) ,简称系统树。通过比较生物大分子序列差异的数值构建的系统树称为分子 系统树。c r w o e s e 等根据某些代表生物1 6 s r r n a ( 或1 8 s r r n a ) 序列比较,首 次提出了一个涵盖整个生命界的系统树,而且支持了叶绿体和线粒体的内共生起 源学说( 图1 4 ) 。 匝囹臣圃匝圃 图l _ 4 生命之树。 f i g 1 - 4 t r c co f l i f e 从图中,我们可以看出,这是有根的树,根部的结代表地球上最先出现的生 命,它是现有生物的共同祖先,生物最初的进化就是从这里开始的。r r n a 序列 分析表明,它最初先分成两支:一支发展成为今天的细菌( 真细菌) ;另一支是 古细菌真核生物分支,它在进化过程中进一步分叉分别发展成古细菌和真核 生物。因此,该系统树所反映的进化关系,表明古细菌和真核生物属“姐妹群”, 它们之间的关系比它们与真细菌之间的关系更密切。从该系统树还可以看出,古 细菌分支的结点离根部最近,其分支距离最短,这表明它是现存生物中进化变化 最少、最原始的一个类群。真核生物则离共同祖先最远,它们是进化程度最高的 生物种类。 第一章绪论 1 9 2 3 年,宾夕法尼亚大学的细菌学教授d a v i db e r g y 和4 个同事发表了能鉴 别细菌中的细菌分类法,即伯杰氏鉴定细菌学手册( b e r g e y 。sm a n u a lo f d e t e r m i n a t i v eb a c t e r i o l o g y ) 。随着核糖体r r n a 数据库的建3 f f _ t l s , 1 9 使得人们易于 构建基于s s ur r n a 的分子系统发生树。以至在伯杰氏系统细菌学手册 ( b e r g e y sm a n u a lo f s y s t e m a t i cb a c t e r i o l o g y ) ( 第2 版) 中写到:“更多的基于分析 s s ur r n a 核苷酸序列而非表型特征所构建的系统发生框架( 参看g e o r g e g a r r i t y 的序言【2 0 1 ) 。依据伯杰氏系统细菌学手册( 第2 版) 的原核生物分类( 2 个域和2 5 个门) 见附录i v 。 1 5 原核生物及真核生物基因组 根据细胞的结构和遗传物质在细胞内的分布,可将生命有机体划分为原核生 物和真核生物两大类。原核生物基因组主要有以下特点:( 1 ) 基因组较小,大部 分由单一的d n a 分子组成。其基因组结构紧密,基因间隔很少,编码区在基因 组中所占的比例很高( 8 0 9 0 ) ,基因常以操纵子形式组织。( 2 ) 除少数几个物 种外( 主要是古细菌1 2 1 1 ) ,原核生物的基因是连续的,基因组中几乎没有断裂基 因。( 3 ) 原核生物基因组中几乎不存在类似于真核生物基因组中的高拷贝的、全 基因组范围分布的重复序列( r e p e a ts e q u e n c e s ) 。但存在一些可以在基因组中移 动,并可在生物体间转移的转座元件( t r a n s p o s a b l ee l e m e n t s ) ,如插入序列 ( i n s e r t i o ns e q u e n c e s ) 等。原核生物基因结构比较简单,其蛋白质编码区是从起始 密码子( a t g , g t g , c t g , g t g ) 开始到终止密码予( 吖溘,t a g , t g a ) 结束,长 度为三的整数倍的一段连续的d n a 片段,符合o r f ( o p e nr e a d i n gf r a m e ) 的结 构( 图1 - 5 a ) 。 与原核生物比较,真核生物的基因组更为复杂。真核生物基因组有以下特点: ( 1 ) 真核生物基因组d n a 与蛋白质结合形成染色体,储存于细胞核内,除配子 细胞外,体细胞内的基因的基因组是双份的( 即双倍体,d i p l o i d ) ,即有两份同源 的基因组。( 2 ) 真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻 译生成一个m r n a 分子和一条多肽链。( 3 ) 存在重复序列,重复次数可达百万次 以上。( 4 ) 基因组中不编码的区域多于编码区域。( 5 ) 大部分基因含有内含子, 因此,基因是不连续的。( 6 ) 基因组远远大于原核生物的基因组,具有许多复制 起点,而每个复制子的长度较小。 9 第一章绪论 a y上一, b 5 f 立坚堂业塑2 n _ +- 兰t 嚆n 冀孵舯娜 曩一厂口丝竺= = = 口! 竺:d :! = = :b :竺:口裟:邕一i ii 曩一厂口口 口口c = j ,r c 3 圆! 。上帆y 硎c a 咖晰砌h 两 - 5 u 张 上位积一? 1 r 图i - 5 原核和真核生物基因结构。 f i g 1 - 5 s t r u c t u r e so f p r o k a r y o t i ca n de u k a r y o t i cg e n e s 在基因结构上,真核生物与原核生物也存在很大的差异。真核生物基因的编 码序列在d n a 分子上是不连续的,被非编码序列所隔开( 图1 - 5 b ) 。编码的序 列称为外显子( e x o n ) ,是一个基因表达为多肽链的部分;非编码序列所称为内 含子( i n t r o n ) ,又称插入序列( i n t e r v e n i n gs e q u e n c e ,t v s ) 。每个外显子和内含子 接头区都有一段高度保守的一致序列( c o n s e n s u ss e q u e n c e ) ,即内含子5 末端大 多数是g t 开始,3 末端大多是a g 结束,称为g t - a g 法则,是普遍存在于真 核基因中r n a 剪接的识别信号【2 2 1 。每个结构基因在第一个和最后一个外显子的 外侧,都有一段不被转录的非编码区,称为侧翼序列,包括启动子,增强子,终 止子等。侧翼序列虽然不被转录和翻译,但是它含有基因调控序列,对基因的有 效表达起着调控作用。 1 6 论文的主要工作 本论文的研究对象是真核生物和原核生物的基因组。本论文主要致力于 1 0 第一章绪论 d n a 序列分段新算法的开发研究,以及在基因组分析方面的应用,特别是分析 人类与其他高等真核生物基因组的i s o c h o r e 结构和识别微生物基因组中的基因 组岛等。 论文第一部分介绍了生物信息学发展的背景和主要研究内容,以及相关的生 物学背景知识。同时,对生命科学研究的新趋势以及生物信息学的新方向也作了 简单的介绍。 论文第二部分主要致力于d n a 序列分段新算法的开发研究。基于平方散度 发展出的基因组段落化新算法,可以按核苷酸组成的不同将基因组或d n a 序列 精确划分成不同的区域,可广泛应用于i s o c h o m 图谱绘制,c p g 岛检测,细菌 古细菌复制起始预测,基因编码一非编码区边界的定位等方面。在i s o c h o m 图谱 绘制中,精确识别出人类m h c 序列d n a 复制时间的改变点,而且和递归熵算 法的结果很好的吻合;比较分析了人类2 l 号染色体和黑猩猩2 2 号染色体i s o c h o m 结构,在人类2 l 号染色体和黑猩猩2 2 号染色体均识别出一段长度大约为7m b 的g c 贫乏的区域,在人类2 l 号染色体上该区域是基因、a l u 以及c p g 岛的“荒 漠 ( d e s e r t ) ,通过比较发现两者有着相似的l s o c h o m 结构,包括分段点的数目 和位置,暗示相同的进化压力导致了相似的基因组结构,在进化过程中两者的 i s o c h o m 结构高度保守;在拟南芥2 号染色体上识别出一个线粒体d n a 插入片 断,而且准确的定位其边界。在c p g 岛检测中,将累积g c 轮廓图( c u m u l a t i v e g cp r o f i l e ) 进一步发展,变换为累积c p g 岛轮廓图( c u m u l a t i v ec p gp r o f i l e ) , 很好的反映了c p g 岛的分布。在细菌古细菌复制起始预测方面,利用新算法对 m e t h a n o s a r c i n am a z e ig o l 基因组复制起始和终止位点进行预测,结果和利用z 曲线y 分量的预测结果惊人的一致。我们还尝试将新算法应用于r i c k e t t s i a p r o w a z e k i i 基因组的d n a 序列片断,定位其中基因的编码一非编码区边界。通 过将新算法和信息熵方法比较发现,两者在结果上有很好的一致性。 论文第三部分主要分析了红原鸡基因组的i s o c h o m 结构。本部分中,参照序 列累积g c 轮廓图的变化情况和c p g 岛的密度分布情况来设定识别i s o c h o r e 阈 值气的取值,并讨论了f 0 的统计特性,丰富和发展了新算法。通过对红原鸡全基 因组的i s o c h o r e 的分析,在序列水平上证实了红原鸡基因组镶嵌式的组织化结 构,表明鸡基因组同样是由一系列g + c 含量相当均匀的大片段所组成,发现g + c 含量的确是发生突变式的变化,并识别出2 5 个大于2 m b 的i s o c h o r e 。这些区域 g + c 含量相当均匀,常常对应于有生物学意义的结构或功能元件。研究结果表 第一章绪论 明,所识别出的i s o c h o r e 区与基因密度、c p g 岛和重复元件的分布等强烈相关。 论文第四部分主要介绍了基因组g + c 含量的段落化分区软件g c p r o f i l e 的 建立。在基因组段落化的新算法和累积g c 轮廓图技术的基础上,我们建立了交 互式网上服务软件系统g c - p r o f i l e ,可用于定量及定性的研究和分析原核及真核 基因组的组织结构,有望成为分析高等真核生物基因组等g c 组成区的恰当出发 点和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论