




已阅读5页,还剩57页未读, 继续免费阅读
(生物医学工程专业论文)比较基因组学平台的设计与构建.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 比较基因组学平台的设计与构建 硕士研究生:刘娜 指导教师:邓亲恺 摘要 随着高速测序技术的迅猛发展和众多物种的全基因组测序计划的实施,基 因组数据呈海量增长趋势。大规模的全基因组数据的功能分析需要新的算法、 软件和强大的计算平台的支持。本文首先针对比较基因组学研究现状,总结了 比较基因组学应用软件中存在的问题,这些问题主要表现在不同软件有各自特 殊的数据输入输出格式,且常常采用不同的算法,各自侧重点也不同;此外有 些只能在特定的操作系统下运行,大多数软件设置的参数比较多,一般生物学 家往往难于掌握,结果同样的序列用不同的软件得到的结果也不同。而特别值 得指出的是,一个全基因组数据往往都非常庞大,尤其是进行多重全基因组比 对时,需要耗费大量的计算时间和存储空间,个人计算机往往不能满足要求。 针对上述问题开发了面向生物学家的比较基因组学分析平台,平台采用浏 览器服务器( b r o w s e r s e r v e r ,b s ) 网络构架,用户可以在个人计算机上通过 w e b 浏览器,将基因组数据提交到相应的w e b 服务器,同时选择参数,服务器 进行分析和处理后,将结果返回到用户浏览器或直接发送到用户邮箱。服务器 的硬件平台为一台装有l i n u x 操作系统的高性能计算机( p o w e r c l u s t e r 8 0 0 0 i n ) , 网络服务器为a p a c h eh r 丌p ,平台数据管理则采用m y s q l 数据库,并用p e r l 语言做后台的开发工具,h t m l 编写前台网页。平台可以接受f a s t a 、m u l t i f a s t a 、 g e n e b a n k 等格式的数据文件和用户直接提交的序列作为输入数据。最后数据分 析的结果以表格、文本或图像形式返回用户平台。 平台的主要功能有: ( 1 ) 全基因组比较分析:寻找基因组间的同线性区域,基因组重组( 基因 中文摘要 插入缺失、重复、重排和水平转移) ,单核苷酸突变和拷贝数变异。 ( 2 ) 基因组碱基组成成分分析,基因预测,t r n a 预测,r r n a 预测和重复 序列搜索。 ( 3 ) 动态显示基因组比对的同线性和基因组重组图形和插入删除结果,用 户可以对图像进行放大、缩小和平移等操作。 基于所构建的平台,本文对l o 种新型甲型流感病毒和3 3 个结核分支杆菌 基因组及相关菌株的全基因组进行了比较基因组学研究。对新型甲型流感病毒 株作全基因组同源性分析,表明p b l 基因可能来自于人h 3 n 2 ,p b 2 、p a 基因 可能来自于禽类h 3 n 2 ,而h a 、n s 基因可能来自于猪h 1 n 1 。对结核分枝杆菌 以及相关菌株等的全基因组序列的同线性区域、重复序列和单核苷酸多态性进 行比较基因组学研究分析,发现插入缺失和重复序列是导致结核分枝杆菌菌株 基因组差异的主要来源。这些应用研究验证了平台的有效性。 关键词:比较基因组学基因组可视化同线性基因组重组生物信息学结核分支杆菌 硕士学位论文 d e s i g na n d b u i l dap l a t f o r mo f j j j 1 i j o m d a r a t l v ei j e n o i n i c s n a m e :l i un a 1 d e n gqinkasupervlsor:lljen i n r a l a b s t r a c t i nr e c e n ty e a r s ,a l o n g 诵t l lt h er a p i dd e v e l o p m e n to fh i g h - s p e e ds e q u e n c i n g t e c h n o l o g i e sa n dt h ei m p l e m e n t a t i o no fm a n yw h o l eg e n o m es e q u e n c i n gp r o j e c t , g e n o m ed a t aw i l lr a p i dg r o w t h t h ef u n c t i o na n a l y s i so fl a r g eg e n o m e 一、析d ed a t a n e e d sn e wa l g o r i t h m ,s o f t w a r e ,a n dt h es t r o n gs u p p o r to ft h ec o m p u t i n gp l a t f o r m t h i sp a p e ri n t r o d u c e st h ec o m p a r a t i v eg e n o m i c s ,c o m p a r a t i v eg e n o m i c sa n a l y s i s m e t h o d ,a p p l i c a t i o na n df u t u r ed e v e l o p m e n t ,p o i n to u tt h ee x i s t i n gp r o b l e mo f c o m p a r a t i v eg e n o m i c s ,f o re x a m p l ee v e r ys o f t w a r eh a v et h e i rs p e c i a ld a t ai n p u ta n d o u t p u tf o r m a t d i f f e r e n ts o f t w a r eu s ed i f f e r e n ta l g o r i t h m sa n de m p h a s i s ,s o m eo n l y c a nb eu s e di nc e r t a i no p e r a t i n gs y s t e m i na d d i t i o n , t h es a m es e q u e n c eu s ed i f f e r e n t p a r a m e t e r sw i l ll e a dt od i f f e r e n tr e s u l t s a l lo ft h a tr e s u l t si ns o m ep r o b l e m si nt h e a n a l y s i so fc o m p a r a t i v eg e n o m i c s a n di ta l s on o t e dt h a taw h o l eg e n o m ed a t aa r e v e r yl a r g e ,e s p e c i a l l yf o rm u l t i p l eg e n o m ea l i g n m e n t ,r e q u i r e sal o to ft i m ea n d s t o r a g es p a c e ,t h ep e r s o n a lc o m p u t e ro f t e nc a n n o tm e e tt h er e q u i r e m e n t s i nv i e wo ft h ea b o v ep r o b l e m sw ed e v e l o p e da c o m p a r a t i v eg e n o m i c sa n a l y s i s p l a t f o r mf o rb i o l o g i c a lu s e r s t h ep l a t f o r mu s i n gb r o w s e r s e r v e rn e t w o r ks t r u c t u r e , u s e rc a ns u b m i th e rd a t aa n dp a r a m e t e rt op l a t f o r ms e r v e rt h r o u g ht h ew e bb r o w s e r , t h e nt h es e r v e ra n a l y s i st h es u b m i t t e dd a t a 。a f t e rt h ea n a l y s i s ,r e s u l t sw i l lr e t u r nt o u s e rb yb r o w s e ro re m a i l t h ep l a t f o r ms e r v e ra r eap o w e r c l u s t e r 8 0 0 0 i nc o m p u t e r a b s t r a c t 谢t l ll i n u xo p e r a t i n gs y s t e m ,n e t w o r ks e r v e ru s e a p a c h eh t r p ,d a t am a n a g e m e n tb y u s i n gm y s q l ,u s i n gp e r lp r o g r a ml a n g u a g ef o rs y s t e md e v e l o p m e n t ,h t m li su s e d t od e s i g nw e b s i t e s t h ep l a t f o r mc a na c c e p tt h ef i l eo ff a s t a , m u l t i - f a s t a , g e n e b a n k f o r m a t sa n da l s oa c c e p tu s e rs u b m i t t e ds e q u e n c ea si n p u td a t a , t h er e s u l t so u t p u ti n t h ef o r mo f t a b l e ,t c x to rg r a p h i c s t h em a i nf u n c t i o n so fp l a t f o r ma r e - 1 g e n o m ec o m p a r i s o n :l o o k i n gf o rg e n o m i c 、丽t 1 1l i n e a ra r e ab e t w e e nt h e g e n o m e ,g e n o m er e o r g a n i z a t i o n ( i n d e l ,r e p e a t , r e a r r a n g ea n dh o r i z o n t a lg e n et r a n s f e 0 , s n p sa n dc o p yn u m b e rv a r i a t i o n 2 g e n o m ea n a l y s i s :g e n o m es e q u e n c ec o m p o s i t i o na n a l y s i s ,g e n ep r e d i c t i o n , r r n aa n dt r n ag e n ei d e n t i f i c a t i o na n dr e p e a ts e q u e n c e ss e a r c h 3 g e n o m ea l i g n m e n tv i s u a l i z a t i o n : ad y n a m i ci n t e r f a c et h a tc a ng e n o m e a l i g n m e n tr e s u l t so fs y n t e n ys e g m e n t , i n s e r ta n dd e l e t er e g i o n s f i n a l l y , i nt h ep l a t f o r m ,t h r o u g ha n a l y s i st h eh o m o l o g yo f10n e ws t r a i n so f i n f l u e n z aav i r u s ,i n d i c a t e dt h a tp b1g e n em i g h te v o l v ef r o mh u m a nh 3 n 2v i r u s e s , p b 2 、p ag e n em i g h te v o l v ef r o ma v i a nh 3 n 2v i r u s e sa n dh a 、n sg e n em i g h te v o l v e f r o ms w i n eh1n1 v i r u s e s t h r o u g ha l i g n m e n t3 3g e n o m eo fm y c o b a c t e r i u m t u b e r c u l o s i sa n dr e l a t e ds t a i n s ,f o u n d l a t s e q u e n c e s i n s e r t i o n d e l e t i o na n d d u p l i c a t i o na r et h em a j o rs o u r c eo fg e n o m i cd i f f e r e n c e s k e y w o r d s c o m p a r a t i v eg e n o m i c s ;g e n o m e sa l i g n m e n tv i s u a l i z a t i o n ;s y n t e n y ; g e n o m er e c o m b i n a n t ;b i o i n f o r m a t i c s ;m y c o b a c t e r i u mt u b e r c u l o s i s 硕士学位论文 目录 摘要i a b s t r a c t i 第一章前言l 1 1 研究背景1 1 2 比较基因组学3 1 3 基因组学分析内容6 1 3 1 比较分析基因组结构6 1 3 2 比较分析编码区域。7 1 3 3 比较分析基因组非编码区域8 第二章比较基因组学研究9 2 1 比较算法基础9 2 1 1 序列比对定义9 2 1 2 序列比对的分类9 2 2 比较基因组学工具1 2 2 2 1 双基因组比对( p a i r - w i s eg e n o m ea l i g n m e n t ) 1 2 2 2 2 多基因组比对( m u l t i p l eg e n o m ea l i g n m e n t ) 1 3 2 2 3 基因组可视化工具。1 4 2 3 比较基因组学网络服务资源1 5 2 4 比较基因组学平台设计的意义1 6 第三章比较基因组学平台的设计与实现18 3 1 总体设计1 8 3 1 1 基本构架1 8 3 1 2 平台运行环境与开发工具1 9 3 2 平台的功能设计2 0 1 目录 3 2 1 基因组比较。2 2 3 2 2 基因组分析。2 4 3 2 3 基冈组比较浏览器。2 8 3 3 程序设计3 0 3 3 1 用户页面制作。3 0 3 3 2 数据处理流程。3 0 3 4 小结3 4 第四章比较基因组学平台的应用研究3 5 4 1 新型甲型流感病毒a ,h 1 n 1 同源性分析3 5 4 2 结核分枝杆菌及相关菌株基因组比较3 7 4 2 1 基因组基本特性比较。3 7 4 2 2 基因组同线性分析3 8 4 2 3 基因组间单核苷酸多态性分析( s n p s ) 。4 2 4 2 4 重复序列分析4 2 4 3 小结4 5 第五章总结和展望。4 6 参考文献4 8 论文附件清单5 2 攻读硕士期间发表的论著5 3 致谢5 4 学位论文原创性声明5 5 统计学证明5 6 2 硕士学位论文 1 1 研究背景 第一章前言 对于每一个生物体来说基因组包含了生物体的全部遗传信息,因此获得生 物体的全基因组序列对进行生物学研究探索生命的奥秘具有十分重要的现实意 义。测序技术能真实的反映基因组d n a 上的遗传信息,进而可以比较全面地揭 示基因组的复杂性和多样性。 1 9 8 7 年美国国立卫生院研究所( n a t i o n a l i n s t i t u t e o f h e a l t h ,n t h ) 和美国能源部 ( d e p a r a n e n to f e n e r g y ,d o e ) 联合提出了“人类基因组计划 ( h m n a ng e n o m ep r o j e c t , h g p ) ,旨在阐明人类基因组全部d n a 序列,从整体上破译人类遗传信息,该计 划于1 9 9 0 年1 0 月1 日正式启动,2 0 0 1 年2 月公布工作框架草图,2 0 0 4 年1 0 月公布 完成图。目f i b h g p 已揭开了新的一页,从基因组与环境相互作用的高度阐明基 因组的功能,即功能基因组学,其内容包括建立单核苷酸多态性( s n p ) 为代表的 d n a 序列变异的系统目录,通过对不同进化阶段的生物体基因组序列的比较, 发现基因组结构组成和功能调节的规律,并利用模式生物体的基因敲除和转基 因来揭示基因的功能。 一 值得指出的是,自从1 9 7 7 年第一代测序技术问世以来,经过三十几年的努 力,d n a 测序技术已经取得了很大的发展。新的测序技术不仅保持了高准确度, 而且大大降低了测序成本并极大地提高了测序速度。在1 9 8 7 年每天每台仪器最 多可以测序4 8 0 0 个碱基对,检测一个碱基的成本是1 美元。今年年初,加利福尼 亚圣地亚哥市的i l l u m i n a 公司宣布他们公司生产的测序仪器每天每台可产生 2 5 0 亿碱基对,尔斯巴市的l i f et e c h n o l o g i e s 公司宣布他们公司生产的测序仪器 每天每台可产生1 千亿碱基对。这两家公司都声明可以用少于6 千美元的价格在 一天内测出一个人类基因组,在未来的三到五年内一个人类基因组的测序成本 将降到1 千美元以下【1 2 1 。在不久的将来测序技术将会越来越成熟并得到广泛的应 用【3 一。 第一章前言 s p e e dr e a d l n g g e n o m e sc a nn o wb es e q l 曙n c e da r o u n d5 0 , 0 0 0t i m e sf a s t e rt h a ni n2 0 0 0 1 0 0 , 图1 1 近十年基冈组测序速度变化【2 1 f i g1 - 1t e ny e a r sg e n o m es e q u e n c i n gs p e e dv a r i a t i o n l 叫 基于全新的测序技术,目前千人基因组计划、人类微生物基因组计划、多 细胞起源计划、万种微生物基因组计划和万种脊椎动物基因组计划正在紧锣密 鼓的进行中。至u 2 0 1 0 年3 月2 2 同,完成测序的全基因组已达1 2 2 4 个,在已完成测 序的基因组项目中,古细菌有8 0 株,细菌1 0 2 0 株,真核生物1 2 4 个。已完成测序 的宏基因组( m e t a g e n o m e s ) 2 0 8 ,正在进行的基因组测序项目有5 5 1 1 个,其中古 细菌2 0 2 株,细菌3 9 8 5 株,真核生物1 3 2 4 个( g e n o m e so n l i n ed a t a b a s ev 2 0 ; h t t p :w w w g e n o m e s o n l i n e o r g ) 。这些物种不仅涵盖了生命进化过程中的各个主要 环节,也包括了与人类生物医学研究相关的几乎所有物种。而且这些物种范围 还在不断增加,各个计划完成的时间也在不断加快。表1 1 列出了部分基因组数 据库。 2 mccu田i芒lmq仃口lq蚺as僻ooii 硕士学位论文 表1 1 部分基因组序列数据库 t a b l el - 1s o m ed a t a b a s eo f g e n o m i c ss e q u e n c e s d a t a b a s eu r l n c b i t i g r s a n g e r e n s e m b l t a l r s g d m g d h u m a ng e n o m eb r o w e s e r n l s c f l y b a s e w b r m b a s e e x o f s h a r k d b x b a s e r a tg e n o m ed a m b 笛e 世界范围内的多物种基因组计划和各类测序工作已经形成了海量的序列数 据资源,它们正在使基因组研究发生革命性变化,信息和新技术的迅速发展也 表明:分子遗传革新将是今后几十年的发展方向。尤其是从整体上而不是仅仅 从某个或少数几个基因入手来研究生物体基因组的机能,已经在短短几年迅速 发展壮大起来,比较基因组学已成为解读海量基因组序列数据及其相关生物学 含义的强有力工具。通过物种之间的比较能够了解基因组的进化,从而加速对 人类基因结构和功能的了解。为阐明基因表达机制提供重要线索。达到从根本 上了解认识生命的起源,物种及个体差异的原因,疾病产生的机制以及长寿、 衰老等困扰着人类的最基本的生命现象,最终解析生命奥秘。 1 - 2 比较基因组学 比较基因组学( c o m p a r a t i v eg e n o m i c s ) 是通过对不同物种的基因组数据进 行比较分析,揭示彼此的相似性和差异性,以了解不同物种进化上的差异,综 合这些信息能进一步帮助我们了解物种形成的机制、基因或基因组上非编码区 3 塑 吖一 一 划 墓| 咝 一 一 第一章前言 的功能。 比较基因组学的基础是相关生物的相似性,序列间有显著的相似性即意味 着序列之间有同源关系。同源是指被比较的物种是由共同的祖先经过自然选择 进化而来。同源又可分为两种:直系同源( o r t h o l o g s ) 和旁系同源( p a r a l o g s ) 。 直系同源的序列因物种形成( s p e c i a t i o n ) 而被区分开,若一个基因原先存在于 某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的; 旁系同源的序列因基因繁殖( g e n ed u p l i c a t i o n ) 而被区分开,若生物体中的某个 基因被复制了,那么两个副本序列就是旁系同源的。直系同源体通常有相同或 相似的功能,但旁系同源体则不一定:由于缺乏原始的自然选择的力量,繁殖 出的基因副本可以自由的变异并获得新的功能。所有现代物种都是由相关的物 种演化而来,现代的每一个基因都是由其它基因演化而来的。每一个基因都可 以在其相关物种中找到直系同源基因,大部分的基因都可以在同一物种中找到 旁系同源基因( t h e o d o s i u sd o b z h a n s k y ( 1 9 0 0 1 9 7 5 ) 。如果两个物种非常相近, 它们的基因组相关性就越高( n a d e a na n ds a n k o f f , 1 9 9 8 ) 基因组会表现出同线 性( s y n t e n y ) ,即基因序列的部分或全部保守。这样就可以利用模式基因组之间 编码顺序上和结构上的同源性,通过已知基因组作图信息定位另外基因组中的 基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。 此外比较基因组分析还扩展到对序列相似性的分析、基因位置的比较、基 因编码区长度或外显子数的变异、基因组上非编码区的比例、进化关系较远的 物种间高度保守区域的比较分析等等( 例如从最简单的细菌到非常复杂的人类 基因组之间的比较) 。进而得到基因分析预测与定位、生物系统发育进化关系等 方面的信息。大规模脊椎动物比较基因组学分析时代起始于对人类和老鼠的草 图基因组分析【5 , s l 。通过基因组的比较分析能获得很多基因组进化过程和基因组 功能序列的信息。 发现功能蛋白编码区是比较基因组学应用最早且较成熟的一个领域 7 1 ,例如 通过人和小鼠x 染色体保守区域的比较分析,定位了4 3 种新的编码蛋白质的基因 4 硕士学位论文 结构【8 】。后来发现,基因组间保守的区域并不全是编码蛋白的基因,很多保守区 域并不编码任何蛋白 9 , 1 0 , 1 1 j 。近几年来基因组的非编码区域越来越引起研究者的 重视【l 引。比较基因组学以进化论作为理论基石,同时其研究结果又前所未有地 丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就 得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平 上研究分子进化、功能成为可能。通过对多种生物基因组数据及其垂直进化、 水平演化过程进行研究,就可以对生命至关重要的基因的结构及其调控作用有 所了解。近年来通过多种生物的比较基因组研究,不仅加深了人们对基因功能 及其演变过程的了解,更加速了多种疾病相关基因的发现,为复杂疾病的成因 及治疗模式提供依据,大大加快了人类基因治疗的进程。 同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异 构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反映的遗传学 基础。单核苷酸多态性( s i n g l en u c l e o t i d ep o l y m o r p h i s m ,s n p ) 是指在基因组水 平上由于单个核苷酸位置上存在转换或颠换等变异所引起的d n a 序列多态性。 根据s n p 在基因中的位置,可分为基因编码区s n p ( c o d i n g - r e g i o ns n p ,c s n p ) 、 基因周边s n p ( p e r i g e n i cs n p ,p s n p ) 以及基因间s n p ( i n t e r g e n i cs n p ,i s n p ) 等三类,直接测序法是最容易实施的s n p 检测方法。通过对不同个体同一基因或 基因片段进行测序和序列比较,以确定所研究的碱基是否变异,其检出率可达 1 0 0 。采用直接测序法,还可以得到s n p 的类型及准确位置等s n p 分型所需要 的重要参数。 在全基因组测序和基因芯片技术发明前,受限于基因组内高通量d n a 拷贝 数检测手段,人们对全基因组范围内的拷贝数变异( c o p yn u m b e rv a r i a t i o n ,c n v ) 也称拷贝数多态性( c o p yn u m b e rp o l y m o r p h i s m ,c n p ) 的数量和分布知之甚少。 2 0 0 4 年,全球内数个“人类基因组计划 研究基地意外的发现,表型正常的人 群中,不同个体问在某些基因的拷贝数上存在差异,一些人丢失了大量的基因 拷贝,而另一些人则拥有额外、延长的基因拷贝,研究人员称这种现象为“基 5 第一章前言 因拷贝多态性。正是由于c n p 才造成了不同个体问在疾病、食欲和药效等方面 的差异。研究表明,平均每2 个个体间存在1 1 个c n p 的差异,c n p 的平均长度为 4 6 5 k b ,其中半数以上的c n p 在多个个体中重复出现,并经常位于重组染色体附 近。目前随着测序技术的进步,已有研究单位利用比较基因组学的方法检测q 岬。 1 3 基因组学分析内容 目前比较基因组学方法已经成为基因组研究的一个主要工具,基因组间的 相互比较已经导致一些惊人的生物学发现。比较基因组学分析主要集中在三个 方面:基因组结构、编码区域和非编码区域。 1 3 1 比较分析基因组结构 比较基因组结构是指比较基因组结构上的相似性和不同,例如核苷酸组成, 同线性片段和基因顺序等。这些比对能够提供个体的进化信息并指出个体基因 组的独有特性,基因组结构分析已经成为任何比较分析里不可缺少的一部分。 基因组结构可以从三个方面来比对。 ( 1 ) 基因组的核苷酸统计信息:核苷酸统计信息包括基因组长度、总的g c 含量、局部g c 含量、密码子的使用偏性、氨基酸的使用偏性和基因组的二核苷 酸与随机分布的比率等。能够为不同的基因组提供全局化的比对视野。 ( 2 ) d n a 水平的基因组结构:染色体断裂和染色体片段的转换是基因进化 中很常见的事件,这些事件可以在染色体的n d a 水平进行比对。首先是识别保 守同线性和基因组重组事件。对同线性区域的统计包括同线性区域的长度;保 守同线性区域的相似度百分比;同线性区域长度与基因组长度之比;这些区域 在基因组中的分布情况;保守同线性区域的基因含量、基因密度、基因顺序和 基因重复含量。分析一些感兴趣的同线性区域( 尤其是那些已知的和疾病相关 的区域) 是很经常的,通过分析这些同线性区域可以识别基因融合、转座、插 入和易位等基因组重组事件。一旦检测出同线性区域,可以获得同线性区域的 断点,分析不同基因组断点的组成,例如g c 含量、基因密度和d n a 重复能够帮 6 硕士学位论文 助理解基因组进化过程,提供基因组进化的信息。此外还有分析d n a 重复序列 的分布和含量。重复序列影响着生命的进化、遗传、变异,同时它对表达、转 录调控、染色体的构建以及生理代谢都起着不可或缺的作用。 ( 3 ) 基因水平的基因组结构 染色体断裂和染色体片段的转换引起基因顺序的改变。因此,基因顺序的 变化在一定程度上能反映基因组的进化距离。 1 3 2 比较分析编码区域 分析不同基因组的编码区域涉及到识别基因编码区域,基因组成,蛋白质 组成。目前也有好多借助于比较基因组学进行基因的功能预测的方法。 ( 1 ) 识别基因编码区域:分析比较编码区域起始于采用基因识别算法预 测基因在染色体上的位置。原核生物的基因识别方法比较直接,但是真核生物 的基因识别仍存在一定的难度,因为真核基因组中含有大量的内含子和基因间 区域,大的重复区域和可变剪切。采用基因测序和多序列比对结合的方法预测 基因可以提高预测的总体准确度。 ( 2 )比较基因含量:预测的基因集产生后,接下来感兴趣的是横向的比 较基因组中的基因含量。首先要比较的统计信息是整个基因组中的基因个数, 其它能够表现基因组相似和不同的指标还有编码基因在基因组中的含量和分 布,基因平均长度,密码子偏性等等。此外得到每个基因组的预测基因后,可 以分析不同基因组中共有的基因,基因组特有的基因,识别出新的基因【1 4 】。 ( 3 )比较蛋白质含量:比较基因组的基因产物,术语称“比较蛋白质组 学 ( c o m p a r a t i v ep r o t e o m i c s ) 。第一步是指定蛋白质序列的功能( b l a s t ) ,在基 因组水平上比较分析重要通路和功能类别的蛋白质是是很重要的,它可以识别 特定的通路、功能类别和高差异性,两个广泛应用的通路和蛋白质功能分类数 据库是k e g g 和g e n eo n t o l o g y ( c - o ) 数据库。 ( 4 ) 基于比较基因组学的功能预测:新测序的基因组有4 0 的基因的功能 不能通过与已知功能的基因比对得出。比较基因组学方法可以用来进行基因功 7 第一章前言 能预测,这种方法依赖于这个前提,即在功能上相关的基因在染色体的上也以 某种形式紧密联系着。这里列出了三种方法:a 共保守的( c o c o n s e r v a t i o n ) ,b 保 守的基因簇和基因组周围环境( c o n s e r v a t i o n ) ,c 功能相关基因的物理融合。这 些基于非相似性( n o n s i m i l a r i t y b a s e d ) 的方法可以作为基因功能预测的补充方 法,但并不能代替基于序列的方法( s e q u e n c e b a s e d ) ,只有在通过相似性预测功 能的时候才借助与全基因组比较的方法。 1 3 3 比较分析基因组非编码区域 近几年发现,基因组间保守的区域并不全是编码蛋白的基因,很多保守区 域并不编码任何蛋白。近年来基因组的非编码区域越来越引起研究者的重视。 继“人类基因组计划,之后2 0 0 3 年9 月美国国立人类基因组研究所( n a t i o n a lh u m a n g e n o m er e s e a r c hi n s t i t u t e ,n h g r ) 启动了d n a 百科全书( e n c y c l o p e d i ao f d n a e l e m e n t s ,e n c o d e ) 计划以鉴定人类基因组的所有功能组分。其目的是寻求新 一代d n a 研究技术对人类基因调控序列在全基因组的水平上研究的应用。由于 之前基因组研究的重点蛋白质编码区仅占人类基因组中d n a 的1 5 ,全面了解 基因组转录水平的调控成为系统生物学的核心发展方向之一。有研究表明:与 随机序列相比保守非编码元素包含很多转录因子绑定位点。曾经通过比较基因 组学的方法比较多种物种的基因组识别非编码区域的保守序列来识别调节元素 【1 3 】,f r a z e r 等人发现有一半的人一家鼠保守非编码序列在狗中也是保守的。这些 方法被成功的应用于发现调节元素,包括,调节多个基因的表达( h b b ( e n c o d i n g b - g l o b i n 和h t k ( e n c o d i n gb r u t o n st y r o s i n ek i n a s e ) ,i l4 ,5 ,1 3i n e d e u k i n s ,s t e m c e l ll e u k e m i ag e n e ( s c l ) l o c i ,c y s t i cf i b r o s i st r a n s m e m b r a n ec o n d u c t a n c er e g u l a t o r g e n e s 和其它【1 5 】。随着比较基因组学的发展转录调节因子,d n a 复制,和其它生 物功能的预测能力大幅提升。通过基因组序列比对增加了调节区域预测的意义, 使得预测更可靠。然而,从基因组的非编码区域识别调节元素仍是一个难题。 8 硕士学位论文 2 1 比较算法基础 第二章比较基因组学研究 2 1 1 序列比对定义 序列比对是指通过一定算法对两个或多个核酸或氨基酸序列进行比较,逐 列比较其字符的异同,判断它们之间的相似程度和同源性,从而推测它们的结 构、功能以及进化上的联系。序列比对不仅是数据库搜索、基因比较和新基因 发现最常用和经典的序列分析手段,而且序列比对的结果作为二级生物数据, 为蛋白质结构和功能预测、系统进化树的建立、基因病的治疗、新药物设计等 许多生物研究提供了宝贵的信息【1 6 1 。 2 1 2 序列比对的分类 序列比对根据进行比对的序列数目分为双序列比对( p a i r - w i s es e q u e n c e a l i g n m e n t ) 和多序列比对( m u l t i p l es e q u e n c ea l i g n m e n t ) 1 7 , i s l 。经典的双序列 比对算法是n e e d l e m a n 和w u n s c h ( 1 9 7 0 ) 最早提出的动态规划比对算法: n e e d l e m a n w a n s c h 算法,其基本思想是使用迭代方法计算出两个比对序列的所 有可能的子比对的相似性分值,存储在一个得分矩阵中,然后根据这个得分矩 阵,通过动态规划的方法回溯寻找最优的全局相似性比对。s m i t h 和w a t e r m a n ( 1 9 8 1 ) 在改进n e e d l e m a n - w u n s e h 算法的基础上,给出一种可以实现局部最优 比对的动态规划算法。其基本思想与n e e d l e m a n w u n s c h 算法基本相同,区别是 局部比对最优片段可以独立生成。这两种算法一直是序列比对的基础算法。算 法的优点是灵敏度高,缺点是耗时较久1 9 1 。为了提高运行速度,l i p m a n 和p e a r s o n ( 1 9 8 5 ) 提出了局部比对的f a s t a 算法。f a s t a 只搜索很短一段相同的序列片 段,称为k 元组( k - t u p ) 。其基本思想是一个能揭示出真实序列关系的比对至少 包含一个两个序列都拥有的片段。把查询序列中所有片段编成索引,然后在数 据库搜索时查询这个索引,以检索出可能的匹配,这样那些命中的字就能很快 地被鉴定出来。f a s t a 对d n a 序列搜索的结果要比对蛋白质序列搜索的结果更 9 第二章比较基因组学研究 敏感,因为它对数据库的每一次搜索都只有一个最佳比对,这样对于蛋白质序 列而言,一些有意义的比对可能被错过。a l t s c h u l 等人( 1 9 9 0 ) 提出了b l a s t ( b 嬲i c l o c a la l i g n m e n ts e a r c ht 0 0 1 ) 启发式算法。它的着眼点是序列片段对,即两条序 列的子序列,它们长度相同,且可形成无空位的完全匹配。其基本思想是通过 产生数量较少的但质量更好的匹配来提高速度。此外,b l a s t 算法的改进版本 已有许多,如同源性比对的p s i b l a s t 算法( a l t s c h u l ,e ta 1 ,1 9 9 7 ) ,它是一种 可以处理空位的b l a s t 算法 2 0 , 2 。 虽然双序列比对是生物序列分析的基础,但对于蛋白质家族的成组序列, 必须进行多序列比对才能揭示家族的特征。如果说双序列比对主要用于建立两 条序列的同源关系和推测它们的结构、功能,那么同时比对一组序列对于研究 分子结构、功能和进化关系更为有用。 从理论上说,可以将双序列的动态规划比对算法推广到多序列比对。m u r a t a 等( 1 9 8 5 ) 曾成功地将动态规划比对算法推广到三重序列比对中,但是受多维 动态规划的时间和空间复杂度的制约,该方法只能限制在数量较少而且序列较 短的比对范围内( l i p m a n ,e t a l 1 9 8 9 ) 。m u r a t a ( 1 9 8 5 ) ,g o t o h ( 1 9 9 3 ) 曾指出: 同时比较三个残基时的度量( m e a s u r e ) 分值应是三个残基间两两比对的度量之 和。将其扩展n n 条序列比对,则n 条序列比对的度量分值是n 条序列两两比对的 度量值和,这种分值度量叫做s p 度量( s u m o f - p a i r sm e a s u r e ) 。已经证明基于s p 度量的多序列比对是一个n p 完全问题( w a n g ,e ta 1 ,1 9 9 4 ;p a o l ab o n i z z o n i , 2 0 0 1 ) 。 目前用于多序列比对的方法一般是启发式算法,其中具有代表性的是:渐 进序列比对和迭代序列比对。渐进比对是常用的启发式算法之一,与动态规划、 两两序列比对紧密相连,其基本思想是:假设比对的序列是进化相关的,因此 可以按其进化顺序,由近至远将序列或子比对结果按双重比对算法逐步进行比 对,重复这二过程直到所有序列都加入为止。c l u s t a l w t n l 是一种典型的渐进比对 算法。这类算法的主要优点是简单、快速;缺点是在比对初
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年国家卫生健康委能力建设和继续教育中心招聘考试笔试试题(含答案)
- 汽车品牌忠诚度增长创新创业项目商业计划书
- 智能语音写作辅助创新创业项目商业计划书
- 2025年肥西县特殊教育学校招聘教师考试笔试试题(含答案)
- 电商智能选品竞争情报分析创新创业项目商业计划书
- 2025年社交媒体平台在文化传播中的文化内容创作与传播报告
- 2025年房地产企业多元化战略下的城市更新与协同效应研究报告
- 2025年氢燃料电池汽车关键零部件国产化市场趋势预测与战略布局报告
- 2025年尾矿处理技术突破在生态修复中的技术创新驱动因素分析报告
- 现代整形与美容课件
- 人教版(2019)高一英语上学期教学计划
- 焊接质检员职业技能考试题库及答案
- (正式版)JTT 1496-2024 公路隧道施工门禁系统技术要求
- 胃管置入术课件
- 《老年健康照护与促进》课件-模块三 老年人健康评估
- 有机化合物的结构
- (高清版)DZT 0426-2023 固体矿产地质调查规范(1:50000)
- 国防共同条令教育与训练
- 全景制作方案
- 北师大版数学六年级上册第一单元《圆》 大单元作业设计
- 《嗜酸性胃肠炎》课件
评论
0/150
提交评论