已阅读5页,还剩72页未读, 继续免费阅读
(应用数学专业论文)生物序列分析中的非比对方法及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学博士学位论文 摘要 随着数学与计算机技术的飞速发展和巨量生物学数据的不断积累,一门新兴的 充满活力的交叉学种- 计算分子生物学( c o m p u t a t i o n a lm o l e c u l a rb i o l o g y ) 应运而 生。计算分子生物学主要是研究生物学应用上具有计算复杂度的问题,它吸引了许 多计算机学家、分子生物学家、数学家等积极投入研究。生物序列分析是计算分子 生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,而随着“后基 因组( p o s t g e n o m e ) ”时代的到来,生物序列分析的非比对方法作为对传统方法的补 充和发展己逐渐成为计算分子生物学研究中的一个热点领域。本文在对传统的序列 比对方法进行简要回顾的基础上,较系统地总结了已有的非比对方法并提出了一些 新的非比对方法,然后针对一些具体的生物序列进行了分析研究。本文的主要工作 包括以下几个方面: 基于生物序列的概率向量表示,提出了一种新的距离度量一正规化欧氏距离, 重构了两组蛋白质序列集c k 3 5 和s p 8 6 的二级结构分类,并利用r o c 曲线和a u c 值与传统的比对方法和其它距离度量得到的分类结果进行了比较。 以生物序列l - 联体为核心,给出了d n a 序列的一种8 d 向量表示和高维向量表 示,并根据滑动窗口不同的起始位置构造相关矩阵,选取相关矩阵的正规化最大特 征值和f r o b e n i u s 范数作为数值特征比较序列的相似性。作为应用,我们比较了十一 个物种的伊球蛋白基因的第一个外显子的相似性;简单模拟了d n a 序列高维向量 表示及相关矩阵在数据库搜索方面的应用;重构了h 5 n 1 型禽流感病毒全基因组编 码序列的种系进化树。 基于l 联体在生物序列中出现的次数和位置,根据离散随机变量分布函数的定 义提出了l 联体特征分布的概念,以此来反映l 联体的分布规律,揭示生物序列中 所包含的生物信息。利用此特征分布我们研究了1 1 个物种p 球蛋白第一个外显子的 g c 特征分布图;重构了2 4 种冠状病毒全基因组序列,3 4 种哺乳动物线粒体全基因 组序列和4 0 种跨膜蛋白序列的种系树。 关键词:l 联体;距离度量;r o c 曲线;线粒体基因组;冠状病毒;禽流感病毒; 跨膜蛋白;邻结法;种系发生树 大连理工大学博士学位论文 t h ea l i g n m e n t f r e em e t h o d sa n dt h e i ra p p l i c a t i o n sf o ra n a l y s i so f b i o l o g i c a ls e q u e n c e s a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h em a t h e m a t i c sa n dc o m p u t e rt e c h n o l o g i e sa n d t h ec o n t i n u o u sa c c u m u l a t i o no ft h et r e m e n d o u sb i o l o g i c a l d a t a ,an e wa n da c t i v e i n t e r d i s c i p l i n e c o m p u t a t i o n a lm o l e c u l a rb i o l o g yc o m e si n t ob e i n g t h er e s e a r c hi n c o m p u t a t i o n a lm o l e c u l a rb i o l o g yw h i c hh a sa t t r a c t e dp l e n t yo fc o m p u t e rs c i e n t i s t s , m o l e c u l a rb i o l o g i s t s ,m a t h e m a t i c i a n sa n ds oo nt od e v o t et oi t ,i sm a i n l yc o n c e r n e d w i t ht h ep r o b l e m si n v o l v i n gt h ec o m p u t a t i o n a lc o m p l e xi nt h eb i o l o g i c a la p p l i c a t i o n s b i o l o g i c a ls e q u e n c ea n a l y s i si st h ek e yc o n t e n to ft h ei n t e r d i s c i p l i n ea n dt h et r a d i t i o n a l m e t h o d sf o rt h ea n a l y s i sa r ec h i e f l yb a s e do na l i g n m e n to ft h es t r i n g s ,w h i l ew i t ht h e c o m i n go ft h e “p o s t - - g e n o m e ” e r a ,a l i g n m e n t - f r e em e t h o d so ft h es e q u e n c ea n a l y s i s a st h ec o m p l e m e n ta n dd e v e l o p m e n to ft h ea l i g n m e n tm e t h o d sh a v eb e c o m eah o t r e s e a r c ha r e ao fc o m p u t a t i o n a lm o l e c u l a rb i o l o g y i nt h i sd i s s e r t a t i o n ,w ef i r s t l ys i m - p l yr e v i e wt h ea l i g n m e n tm e t h o d s ;s e c o n d l yr e l a t i v e l ys y s t e m a t i c a l l ys u m m a r i z et h e a l i g n m e n t - - f l e em e t h o d sa n dp r o p o s es o m en e wa l i g n m e n t - - f l e em e t h o d s ;f i n a l l ym a k e t h ea n a l y s i sf o rs o m es p e c i e ss e q u e n c e su s i n gt h en o v e lm e t h o d s t h em a i nc o n t e n t s o ft h i sd i s s e r t a t i o na r eh s t e da sf o l l o w s : b a s e do nt h ev e c t o r so fl - - t u p l ep r o b a b i l i t i e sf o rb i o l o g i c a ls e q u e n c e s ,w ep r o v i d ea n o v e ld i s t a n c em e a s u r e - - n o r m a l i z e de u c l i d e a nd i s t a n c e ,a n dc l a s s i f yt w os e t so fp r o t e i n s e q u e n c e s - 一c k 3 5a n ds p 8 6a c c o r d i n gt op r o t e i ns e c o n d a r ys t r u c t u r e su s i n gt h ed i s t a n c e f u n c t i o n f u r t h e r ,w ec o m p a r eo u rm e t h o dw i t ho t h e rm e t r i c sa n da l i g n m e n tm e t h o d s v i ar o c ( r e c e i v e ro p e r a t i n gc u r v e ) a n a l y s i si no r d e rt oa s s e s st h ei n t r i n s i ca b i l i t yo f t h em e t h o d o l o g yt od i s c r i m i n a t ea n dc l a s s i f yb i o l o g i c a ls e q u e n c e sa n ds t r u c t u r e s u s i n gl - t u p l e s ,w ec o n s i d e rt oc o n s t r u c t t h r e e8 - c o m p o n e n t sv e c t o r sa n dm u l t i - v a r i a t ev e c t o r sf o rad n ap r i m a r ys e q u e n c e ,a n db yt h ed i f f e r e n ts t a r tp o s i t i o n so ft h e s l i d i n gw i n d o w ,as e to fr e l a t e dm a t r i c e sa r eg i v e n t h en o r m a l i z e dl e a d i n ge i g e n v a l u e s a n df r o b e n i u sn o r mf r o mt h ec o n s t r u c t e dm a t r i c e sh a v eb e e ns e l e c t e da st h en u m e r i - c a lc h a r a c t e r i z a t i o n s a sa p p h c a t i o n s ,w ec o m p a r et h es i m i l a r i t ya n dd i s s i m i l a r i t yf o r e x o n1o fp - g l o b i ng e n e sb e l o n g i n gt oe l e v e ns p e c i e s ;w es i m u l a t et h es e a r c hf o rs i m i l a r s e q u e n c e so faq u e r ys e q u e n c ef r o mad a t a b a s eo f3 9l i b r a r ys e q u e n c e sb yt h em u l t i v a r i a t ev e c t o r sr e p r e s e n t a t i o n so fd n a s e q u e n c e ;w er e c o n s t r u c tt h ep h y l o g e n e t i ct r e e s i i i 生物序列分析中的非比对方法及其应用 o fh 5 n1a v i a ni n f l u e n z av i r u sg e n o m e s f r o mt h ef r e q u e n c ya n dp o s i t i o no fa p p e a r a n c eo fl - t u p l ei na b i o l o g i c a ls e q u e n c e , w ec o n s i d e rc o n s t r u c t i o no fac h a r a c t e r i s t i cd i s t r i b u t i o no fa nl t u p l et or e f l e c tt h eb i o - l o g i c a li n f o r m a t i o ni n v o l v e di nt h es e q u e n c e t h eg r a p h so fc h a r a c t e r i s t i cd i s t r i b u t i o n s o fd i n u c l e o t i d eg cf o rt h ec o d i n gs e q u e n c e so ft h ef i r s te x o no fb g l o b i ng e n eo fe l e v e n d i f f e r e n ts p e c i e s ,a n dt h ec o n s t r u c t i o no fp h y l o g e n e t i ct r e e so ft w e n t yf o u rc o r o n a v i r n s g e n o m e s ,t h i r t yf o u rm i t o c h o n d r i a lg e n o m e sa n d4 0gp r o t e i n c o u p l e dr e c e p t o r si l l u s - t r a t et h eu t i l i t yo ft h ea p p r o a c h k e yw o r d s :l - t u p l e ;d i s t a n c em e a s u r e ;r o cc u r v e ;m i t o c h o n d r i a lg e n o m e ;c o r o - n a v i r u s ;a v i a ni n f l u e n z av i r u s ;t r a n s m e m b r a n ep r o t e i n s ;n e i g h b o r - j o i n i n gm e t h o d ; p h y l o g e n e t i ct r e e i v 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工 作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:圣l 堕曼曼日期:丞! ! 星:! 星! j 大连理工大学博士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学 位论文版权使用规定,同意大连理工大学保留并向国家有关部门或机 构送交学位论文的复印件和电子版,允许论文被查阅和借阅本人授权大 连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文 作者签名:豳照亟 导师签名:拯鲤导师签名:2 丛塑互 文! ! 呈年旦月_ l 日 7 9 大连理工大学博士学位论文 1 绪论 本章概述了计算分子生物学的研究内容和方法;简要介绍了分子生物学的一些 基本概念,以便能够了解本文所涉及的一些生物学背景知识;最后给出了本论文的 研究计划和主要工作。 1 1 计算分子生物学概述 生物科学技术的迅猛发展,无论从数量上还是从质量上,都极大地丰富了生 物科学的数据资源。在人类基因组计划顺利完成后,科学家们相继对诸如大肠杆 菌、酵母、线虫、果蝇、小鼠、鸡、拟南芥、水稻、玉米等模式生物的基因组也 进行了测序,生物序列( 包括d n a 、r n a 和蛋白质) 信息发生了爆炸性的增长。 到2 0 0 8 年8 月,g e n b a n k 数据库中的序列纪录达到了9 2 ,7 4 8 ,5 9 9 条,总共包含了 9 5 ,0 3 3 ,7 9 1 ,6 5 2 个碱基对【1 】并且碱基对的数量还在以每十八个月就基本上增加一倍 的速度在增长。在此基础上派生和整理出来的分子生物学数据库已达1 0 0 0 多个。数 据资源的急剧膨胀迫使我们不得不考虑寻求一种强有力的工具去组织他们,以利于 对己知生物学知识的储存和进一步加工利用。为此,计算分子生物学便应运而生。 计算分子生物学( c o m p u t a t i o n a lm o l e c u l a rb i o l o g y ) 作为数学、现代信息科 学、计算机科学、生命科学、物理学、化学等很多学科相互渗透形成的一门学科, 已成为生命科学中异常活跃的一个研究领域,是现代生物学研究的重要方法之一。 它主要研究与基因和蛋白质序列有关的计算问题,从众多分散的生物学观测数据中 利用其卓越的数值计算能力来进行生物学的研究,获得对生命运行机制的详细和系 统的理解;另一方面,只有基于计算分子生物学的分析方法和手段对大量已有数据 资料的处理所提供的理论分析和指导,我们才能正确处理和评价新的观测数据并得 到准确的结论,才能在今后的生物( 医药) 研究中选择正确的研发方向,推动生命 科学和生物技术的进一步发展。 广义地讲,计算分子生物学包括开发和使用数学与计算机技术,以生物信息为 基础,以计算为工具,帮助解决分子生物学中的问题,与生物信息学类似。生物信 息学是计算分子生物学的孪生学科,人们常常不加区分的使用这两个学科名 称。二者的差别只是侧重点有所不同,前者侧重于对生物学中所得信息的采集、存 贮、分析处理与可视化方面;而后者侧重于研究生物学应用上具有计算复杂度的问 生物序列分析中的非比对方法及其应用 题,它吸引了许多计算机科学家、生物学家、数学家等积极投入研究。随着计算分 子生物学的进一步发展,如何运用数理理论成果对生物体进行完整系统地数理模型 描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控 制自身以及所有其他的生命体将变得更加的重要。普遍认为,计算分子生物学和生 物信息学将在二十一世纪生物科技中扮演着至关重要的角色【2 一m 1 1 1 计算分子生物学的研究内容 计算分子生物学的研究内容是伴随着基因组研究而发展的,其研究重点体现在 基因组学( g e n o m i c s ) 和蛋白质组学( p r o t e o m i c s ) 两方面,主要有序列组装、序列对 比、种系树的构建、结构预测、非编码序列以及复杂生物网络等研究课题。限于篇 幅,我们在这里仅做简要介绍。 生物序列的组装。在计算分子生物学的研究中,我们首要面对的问题就是如何 处理大尺度的序列。以人类基因组为例,人的一条染色体大约有1 0 8 个碱基对,面对 如此庞大的序列,使用现有的生物技术不可能直接连续测序超过几千个碱基,为了 读出这些序列,必须先把这些序列分成一些较小的片断,然后再逐一还原成原来的 整个序列。这一任务靠人工是无法完成的,这就需要计算机专家设计优良的算法, 并建立相应的数值模型来优化定序工具从而加速完成这项定序工程,计算机每秒数 以亿计的高速计算能力保证了序列片段拼接任务的完成。 序列对比。在我们得到一些序列片段后,我们也希望能藉由序列间的比较分析 来看看它们的相似程度、找出一些基因规则、或甚至于用来推测它们的演化关系。 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信 息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础 上编写的比对软件包一b l a s t 和f a s t a ,可以免费下载使用。这些软件在数据库 查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片段相似 性较高。s m i t h w a t e r m a n 算法是解决局部比对的好算法,缺点是速度较慢。两个以 上序列的多重序列比对目前主要依靠c l u s t a l ,m u s c l e 等比对软件进行计算。另一个 与之类似的研究是结构比对,主要是比较两个或两个以上蛋白质分子空间结构的相 似性或不相似性。 基因识别。人类长达4 5 亿个碱基对的d n a 序列中,大约只有3 是基因( 所谓 基因是指那些会转换成蛋白质的d n a 序列,我们人类约有五万到十万种基因) 。如 何在d n a 序列中决定基因所在位置仍是未解的问题,这是最重要的课题之一。经过 2 0 余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免 费服务。原核生物基因识别相对容易些,结果好一些。从具有较多内含子的真核生 物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的 问题,仍有大量的工作要做。此外,基因外有些序列是用来做基因规则的,而这部 2 大连理工大学博士学位论文 分也仍有待更有效的方法来协助探讨。 种系树建构。种系树的建构是一门有悠久历史的研究领域,近年来由于生物序 列的协助,我们可藉由这种更精细的分析来建构那些较为模棱两可的种族之间的种 族树:同时,我们也可藉由这种细部分析来验证以前所建构的种族树。既可以用 d n a 序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对 来研究分子进化。通常这方面的研究都主要是利用数学方法,先以生物序列的比较 来求得种族之间的两两距离,然后基于某些条件,试着去建构一个最符合需求的种 族树。最新的研究是从整个基因组的角度来研究分子进化,由于较多模式生物基因 组测序任务的已经完成,这一工作可望得到更丰硕的成果。 结构预测。主要包括r n a 二级结构预测,蛋白质的二级结构和三级结构预测 等。r n a 和蛋白质的很多特性、功能和它实际的三维结构极其相关,其实任意给一 段序列,生物学家就可以用传统的生物学方法( 例如x 光绕射) 求出其结构,但是 这种方法不但成本较高且费时。计算分子生物学的结构预测工具通过序列分析而直 接得出其结构,然后再用实验验证这种结构的正确性,相对传统方法而言,要高效 省时得多。但是虽然经过3 0 余年的努力,结构预测研究现状远远不能满足实际需 要。 非编码序列研究。在人类和其他高级真核生物的遗传物质中编码蛋白质的区域 只占其基因组的一小部分,不会超过整个基因组的3 ,其余9 7 左右的d n a 序列 通常被称为“j u n kd n a ”或“非编码d n a ”,也就是基因组中的非编码序列。然而, 近年来大量的新实验结果表明基因组中的非编码序列是可以表达的,其表达产物就 是非编码r n a ,与其相应的基因就称为非编码基因,而且越来越多的事实证明非编 码r n a 具有重要的生物功能,需要人们进行详细地研究。但是,在编码基因预测与 蛋白质模拟领域多年来发展的一系列理论方法,多数不适宜非编码的研究,例如目 前发现的非编码r n a 长度都较短( 2 0 2 0 0 b p ) ,且没有三联码的特征,很难使用统 计学的方法发现它们的特征【6 】。这就要求我们开拓出新的计算分子生物学的手段和 方法进行研究,正如张春霆院士所说的“分析非编码区序列需要大胆的想象和崭新的 研究思路和方法”【5 】。 复杂生物网络研究。在传统的分子生物学研究中,研究者往往只遵从由序列、 到结构再到功能这样一个思维方式。现在大量的实验结果表明,一个基因的表达要 受到其他基因的影响,一个生命事件的发生是一组蛋白质共同作用的结果;生命体 不是由一些孤立的元素构成的,而是一个复杂的网络系统。因此,为了能确切地反 映生命现象本身的内在规律,科学家们开始进行复杂生物网络的研究。当前对蛋 白一蛋白相互作用网络、基因表达调控网络、代谢网络和信号转导网络等重要生物 网络都有大量的研究工作,已成为计算分子生物学和生物信息学中的一个热点研究 领域。 3 生物序列分析中的非比对方法及其应用 1 1 2 计算分子生物学研究中的数学方法 计算分子生物学是一门新兴的交叉学科,生物学是这一学科的核心和灵魂,数 学则是它的基本工具。传统的数学理论,如函数论、概率统计、组合数学、线性代 数和矩阵论,还包括一些近代数学分支,如信息论、图论、模糊数学、运筹学、系 统论和控制论等都在计算分子生物学的研究中发挥了巨大作用。下面就其主要方法 做一简要介绍。 概率论与数理统计。概率统计方法是计算分子生物学的数学基础之一,主要包 括随机过程、多元统计分析和机器学习方法等。从概率论和随机过程的角度,我们 可以把生物序列看做是由一个随机的过程产生的,因此能够利用相关的数学工具进 行研究。其中,隐马尔可夫模型是在生物序列的描述和预测方面较为成功的数学模 型之一。隐马尔可夫模型是一个双重的随机过程,其中第一个过程服从m a r k o v 模 型,它是不能直接观察的隐过程,但同时却控制( 或影响) 第二个过程,而后者则 生成可观察到的符号序列。多元统计分析方法是从各种矩阵运算中体现多种生物实 体与多个性状指标的结合,在相互联系的水平上,综合统计出生命活动的特点和规 律性。常用的多元统计分析方法有回归分析、判别分析、聚类分析、主成分分析和 典范分析等。机器学习方法是近年来以贝叶斯概率体系为基础,结合计算机技术而 迅速发展起来的一种新的计算分子生物学研究方法。其基本思想是通过推理、模型 匹配或样本学习,从数据中自动学习理论,适用于那些拥有大量数据但相应理论很 不完善的领域【8 】。目前主要的机器学习方法有神经网络、支持向量机及概率图模型 等。 组合数学和图论。现代数学可以分为两大类:一类是研究连续对象的,如分 析、方程等,另一类就是研究离散对象的离散数学。组合数学和图论是离散数学的 两个组成部分。现代遗传学的发展完全肯定了生命的本质是离散的,其秘密就隐藏 在核酸( d n a 与r n a ) 和蛋白质的序列之中,因此组合数学和图论在计算分子生物 学的许多研究课题,如基因组序列研究、结构预测和生物复杂网络分析中都十分有 用。例如在r n a 二级结构的预测中,利用预测算法预测出所有序列的二级结构目前 仍然非常困难,自然估计给定长度的所有可能的二级结构数则成了数学任务。这些 结果在负面意义上对生物学有用,它肯定了存在巨大数量的特殊结构数,并且间接 地决定了预测算法的时间复杂性和空间复杂性,直接枚举是没有希望的,然而我们 可以应用组合计数的技巧,研究r n a 二级结构及子结构的计数问题。 运筹学、系统论与控制论。运筹学是运用科学的数量方法,主要是数学模型研 究对人力、物力进行合理筹划和运用,寻找管理及决策最优化的综合性学科。目 前,运筹学中的动态规划方法已经成为生物序列比对的基本工具,其指导思想就是 在多级过程的每一级上列出各种可行的局部解,然后按照某种条件舍弃那些肯定不 能得到最优解的局部解。运筹学中的一个重要分支,最优化理论与算法在蛋白质空 4 大连理工大学博士学位论文 间结构预测和分子对接研究中也有重要应用,主要是运用数学方法并以电子计算机 为工具研究各种系统的优化途径及解决方案。系统论和控制论是以系统和控制的观 点,对生命现象进行综合分析的数学方法。通过对生物系统的综合分析,判断出该 系统的可控性、可观测性和稳定性,从而揭示出该系统生命活动的特征。 还有其它数学方法的应用,如运用傅立叶分析和小波变换作为d n a 序列的可视 化工具,探索d n a 序列的局部结构;利用几何拓扑学研究d n a 超螺旋结构和多肽 链折叠;利用群论研究遗传密码和d n a 序列的对称性等。总之,各种数学理论或多 或少或直接或间接都应该在计算分子生物学研究中有各种各样的应用,而且,计算 分子生物学的发展,又为数学的发展提供了个新的机遇,可能会产生一些新的分 支科学【5 】。 1 2 分子生物学的知识概论 分子生物学是在分子水平上研究生物的结构、组织和功能的科学。广义而言, 分子生物学主要包括分子生物学技术、分子生物学技术的应用及这些技术研究所取 得的理论成果等方面;狭义地讲,分子生物学的范畴偏重于核酸( 或基因) 的分子 生物学,主要研究基因或d n a 的复制、转录、翻译和调控等过程,同时也涉及与这 些过程有关的蛋白质结构和功能的研究。 生命的基本单位是细胞,它是由细胞膜、细胞质和细胞核三者组成,遗传信息 储存在细胞核中。遗传信息的载体主要有两种,即核酸( d n a ,r n a ) 和蛋白质,它 们都是由更小单元组成的线性聚合物大分子。 1 2 1d n a 、r n a 和蛋白质 生物体包含两类核酸:核糖核酸( r i b o n u c l e i ca c i d ) ,简写为r n a ;脱氧核糖核 酸( d e o x y r i b o n u c l e i ca c i d ) ,简写为d n a 。 d n a 是遗传的主要物质基础,它主要存在于细胞核中,细胞质中的线粒 体、叶绿体也含有少量的d n a 。d n a 是由称为核苷酸( n u c l e o t i d e ) 的小分子生成 的聚合物。核苷酸分子是由核苷( n u c l e o s i d e ) 和一个磷酸残基组成的。核苷又可 以进一步水解,分成2 7 一脱氧核糖和碱基( b a s e ) 。糖分子含有5 个碳原子,一标记 为17 5 ( 图1 1 ) ,其中1 7 碳原子与碱基相连。在d n a 分子中有4 种碱基,分别 是:腺嘌呤( a d e n i n e ,a ) 、鸟嘌吟( g u a n i n e ,g ) 、胞嘧啶( c y t o s i n e ,c ) 和胸腺嘧啶 ( t h y m i n e ,t ) 。 在核酸分子中,个核苷酸分子的3 一羟基与另一个核苷酸分子的5 一磷酸基脱水 形成磷酸二脂键将两个核苷酸分子连接起来。由四种脱氧核苷酸连接而成的长链高 分子多聚体就构成了d n a 分子的一级结构。d n a 分子中的第一个核苷酸的5 。一磷酸 5 生物序列分析中的非比对方法及其应用 h p 。弋霎e n 一至 h i h o 聿一h 。e n t 2h 3 一 核糖( r i b o s e )2 7 一脱氧核糖( 2 7 d e o x y r i b o s e ) 图1 ,1 :核酸中的糖,r n a 中是核糖,d n a 中是脱氧核糖 f i g u r e1 1 :s u g a r sp r e s e n ti nn u c l e i c r i b o s ei sp r e s e n ti nr n aa n d2 - d e o x y r i b o s ei s f o u n di nd n a 基与最末一个核苷酸的3 7 羟基都未参与形成磷酸二脂键,分别称为5 一端和3 7 一端。 因此,d n a 分子具有方向性( o r i e n t a t i o n ) ,一般从5 7 开始到3 7 结束。图1 2 为单链 d n a 分子的示意图。 图1 2 :d n a 分子的单链结构图示 f i g u r e1 2 :as c h e m a t i cm o l e c u l a rs t r u c t u r ev i e wo fo n ed n a s t r a n d d n a 分子是双链结构。两条链缠绕在起形成双螺旋( d o u b l eh e l i x ) ,此著名 的双螺旋结构是由j a m e sw a t s o n 和f r a n c i sc r i c k 在1 9 5 3 年发现的。两条链结合的 机制是一条链的碱基与另一条链的碱基配对,碱基a 与碱基t 配对,碱基c 与碱 基g 配对,如图1 3 和1 4 所示。由图1 4 我们能看出,在a t 配对时,有两个氢键 连接,而在g c 配对时有三个氢键连接。因此,我们把a 、t 称为弱氢键碱基。把 g 、c 称为强氢键碱基。一般地,我们可以把d n a 分子看成是由字符集q = a ,c , g ,t 生成的字符串,每一个字符代表一个碱基。图1 5 是d n a 的“串表示,将 一串字符置于另一串字符之上来表示双链d n a j r n a 分子与d n a 分子非常相似,但有一些组成和结构上的不同:f 1 ) r n a 6 h i c t n n c c c n 一 , h+: 大连理工大学博士学位论文 c n h h + h +u 一 n c , o 一一c n c 一c h 3 h h h c 一n n c c n c - o 一 c n n h 十、 h+ h + h n , n lc 图1 3 :d n a q h 氮化的碱基。两种w a t s o n c r i c k 配对,腺嘌呤与胸腺嘧啶、鸟嘌呤与胞嘧啶 之间所形成的键,图中用点画线表示 f i g u r e1 3 :n i t r o g e n a t e db a s e sp r e s e n ti nd n a n o t i c et h eb o n d st h a tc a nf o r m b e t w e e na d e n i n ea n dt h y m i n ea n d b e t w e e ng u a n i n ea n dc y t o s i n e ,i n d i c a t e db yt h e d o t t e dl i n e s 图1 4 :d n a 分子的双链结构图示 f i g u r e1 4 :d o u b l es t r a n do fd n a 7 n 、 一h一 - 。圆 c 生物序列分析中的非比对方法及其应用 5 “一atggtgc 3 lili 3 卜taccacg 5 7 图1 5 :双链d n a 表达的字符串 f i g u r e1 5 :ad o u b l e - s t r a n d e dd n as e q u e n c er e p r e s e n t e db ys t r i n g so fl e t t e r s 中,核糖取代了d n a 分子中的2 7 一脱氧核糖( 如图1 1 所示) ;( 2 ) r n a 中,胸腺嘧啶 t 被尿嘧啶u 取代,u 和t 一样能够与a 配对;( 3 ) r n a 并不形成双螺旋。r n a 分 子同样可以看作是由字符集q = a ,c ,g ,u ) 生成的字符串,同样具有方向性,左 端通常记为5 7 ,另一端记为3 7 。在r n a 分子中a 与u 配对,g 和c 配对构成r n a 二级结构( 如图1 6 所示) ,这对参与蛋白质的合成起着决定性的作用。 c r 图1 6 :r n a - - - - 级结构:三叶草 f i g u r e1 6 :t h es e c o n d a r ys t r u c t u r eo fi :l n a :c l o v e r l e a v e s 蛋白质是由一类称为氨基酸( a m i n oa c i d ) 的简单分子组成。图1 7 是氨基酸的 例子,每一个氨基酸有一个中心碳原子,谓之q 碳原予或以。以连接1 个氢原 子( h ) 、1 个氨基( - n h 2 ) 、1 个羧基( 一c o o h ) 和1 个侧链。正是侧链决定了氨基酸间的 差异。我们在自然界中发现了3 0 0 余种不同的氨基酸,但组成人体蛋白质的氨基酸 仅有2 0 种,表1 1 列出了这些氨基酸。在蛋白质合成时,一个氨基酸的羧基和另一 个氨基酸的氨基缩水形成肽键( p e p t i d eb o n d ) 。所以,蛋白质也是有方向的一维链, 带氨基的一头称为n 端( n ,) ,另一头带羧基称为c 端( c 7 ) 。蛋白质可以看作是由字 符集q :f a ,r ,d ,n ,c ,e ,q ,g ,h ,i ,l ,k ,m ,f ,p ,s ,t ,w ,y ,v 生成的字符 8 大连理工大学博士学位论文 串。 ( 孓 h 2 n 。_ 。c a 1 。1 。c o o h i h 丙氨酸( a l a n i n e ) h o c 也 。 l h 2 n c a c o o h i h 苏氨酸( t l l r e o m n e l 图1 7 :氨基酸的例子 f i g u r e1 7 :e x a m p l e so fa m i n oa c i d 核酸是遗传信息的携带者,而蛋白质是信息转化为生物结构和功能的表达 者。蛋白质并不仅仅是氨基酸残基的线性序列,这种序列称为一级结构( p r i m a r y s t r u c t u r e ) 。蛋白质实际上在三维空间中折叠,形成二级( s e c o n d a r y ) 、三级( t e r t i a r y ) 和四级( q u a t e r n a r y ) 结构。蛋白质的二级结构是指蛋白质多肽主链在空间中的趋向, 是一级结构通过折叠产生的。二级结构中主要有两类:q 螺旋和p 折叠。蛋白质的 三级结构是蛋白质的肽链中全部氨基酸残基的相对空间位置,也就是整条肽链所有 原子在三维空间的排布位置。有些蛋白质分子含有二条或多条多肽链,每一条多肽 链都有完整的三级结构,称为蛋白质的亚基( s u b u n i t ) 。蛋白质分子中各亚基的空间 排布及亚基接触部位的布局和相互作用,称为蛋白质的四级结构。蛋白质是生物体 内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命活动的重要物质 基础,几乎一切生命现象都要通过蛋白质的结构与功能而体现出来。因此,在分子 生物学中,深刻阐明蛋白质的结构与功能,是探索生命奥秘最基本的任务。 1 2 2 分子遗传学机制 d n a 携带遗传材料,即生物功能所要求的信息( 某些病毒除外,它们的遗传材 料是r n a ) ,而且生物体通过d n a 将遗传信息传给下一代。在真核生物中,d n a 被保存在细胞核内,而由细胞质形成的蛋白质在细胞核的外面,携带核外信息的中 间分子是r n a 。 1 2 2 1 基因和遗传密码 生物体的遗传信息通过d n a 的复制( r e p l i c a t i o n ) 从亲代传向子代。在后代的生 长发育过程中,d n a 中仅有一部分连续的片段编码构建蛋白质信息,而每一种不 同的蛋白质仅对应一段d n a 序列,该段序列称为基因( g e n e ) 。因为某些基因编码 9 生物序列分析中的非比对方法及其应用 r n a 分子,因此更正确的说,基因是编码蛋白质或r n a 的连续的d n a 序列。贮存 在d n a 上的遗传信息通过m r n a 传递到蛋白质上,m r n a 与蛋白质之间的联系是 通过遗传密码的破译来实现的。m r n a 上每三个核苷酸翻译成蛋白质多肽链上的一 个氨基酸,每个三联核苷酸称为密码子( c o d o n ) 。三联核苷酸和与氨基酸之间的对应 关系称为遗传密码( g e n e t i cc o d e ) ,见表1 1 。 表1 1 :蛋白质中发现的2 0 种常见氨基酸以及氨基酸的遗传密码 t a b l e1 1 :t h et w e n t ya m i n oa c i d sc o m m o n l yf o u n di np r o t e i n sa n dt h eg e n e t i cc o d e m a p p i n gc o d o n st oa m i n oa c i d g e n e t i cc o d e氨基酸 3 个字母 1 个字母 g c u ,g c c ,g c a ,g c g丙氨酸( a l a n i n e ) a 1 aa a g a ,a g g ,c g u ,c g c ,c g a ,c g g 精氨酸( a r g i n i n e )a r g r g a u g a c 天冬氨酸( a s p a r t i ca c i d ) a s p d a a u a a c 天冬酰胺( a s p a r a g i n e ) a s nn u g u u g c 半胱氨酸( c y s t e i n )c y s c g a a g a g 谷氨酸( g l u t a m i ca c i d ) g l ue c a a c a g 谷氨酰胺( g l u t a m i n e ) g l n q g g u ,g g c ,g g a ,g g g甘氨酸( g l y c i n e ) g 1 vg c a u c a c 组氨酸( h i s t i d i n e ) h i sh a u u ,a u c ,a u a 异亮氨酸( i s o l e u c i n e ) i l ei c u u ,c u c ,c u a ,c u g ,u u a ,u u g 亮氨酸( 1 e u c i n e ) l e ul a a a a a g 赖氨酸( 1 y s i n e ) l y s k a u g 甲硫氨酸( m e t h i o n i n e ) m e tm u u u u u c 苯丙氨酸( p h e n y l a l a n i n e ) p h ef c c u ,c c c ,c c a ,c c g 脯氨酸( p r o l i n e l p r op a g u ,a g c ,u c u ,u c c ,u c a ,u c g丝氨酸( s e r i n e ) s e rs a c u ,a c c ,a c a ,a c g苏氨酸( t h r e o n i n e ) t h rt u g g 色氨酸( t r y p t o p h a n )t r p w u a u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融投资决策辅助工具风险管理框架版
- 2025年医院健康扶贫试卷及答案
- 2025年建筑装饰行业智能建筑装饰技术应用研究报告及未来发展趋势预测
- 企业年度总结报告编制与汇报技巧指南
- 2025年人工智能在金融风控中的应用研究报告及未来发展趋势预测
- 2025年教育科技行业在线教育模式创新与学习科技发展研究报告及未来发展趋势预测
- 企业文化建设与价值观传播方案模板
- 建筑施工安全员题库试卷及答案解析
- 2025年物联网安全行业物联网安全技术应用与隐私保护研究报告及未来发展趋势预测
- 上海市建筑安全员c证复审题库及答案解析
- 办公楼物业安全管理制度
- 卫生间改造专项施工方案
- 物业检修服务方案制定
- 中科院心理咨询师培训考试题库及答案-10心理咨询专业伦理(新版)
- 2025年基础公文常识题库及答案
- 翡翠交易活动方案
- 2025年辅警考试试题及答案真题
- 测绘单位安全生产管理办法
- 2025-2026学年福建省龙岩市初二英语上册期中考试试卷及答案
- 2025及未来5年中国羊绒条市场调查、数据监测研究报告
- 市政道路雨污水管排水工程施工方案
评论
0/150
提交评论