(计算机应用技术专业论文)dna计算——基于复杂网络方法的dna序列性质研究.pdf_第1页
(计算机应用技术专业论文)dna计算——基于复杂网络方法的dna序列性质研究.pdf_第2页
(计算机应用技术专业论文)dna计算——基于复杂网络方法的dna序列性质研究.pdf_第3页
(计算机应用技术专业论文)dna计算——基于复杂网络方法的dna序列性质研究.pdf_第4页
(计算机应用技术专业论文)dna计算——基于复杂网络方法的dna序列性质研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘嘤 捅矍 生物信息学是2 1 世纪自然科学的核心领域之一,它的研究内容是非常丰富的。本 文的研究主要包括以下两个方面:d n a 计算和d n a 序列性质,它们分别涉及到以下内 容: ( 1 ) 随着生物技术的发展,d n a 计算随之产生,而d n a 自动机是d n a 计算研究领域中 较新的内容。对于不同的用户,以及不同用户的不同需求,给定相同实验的d n a 序列 作为d n a 自动机的输入,可以得到不同的输出结果。d n a 自动机当下研究的热门便 是从d n a 序列中识别出编码区以及非编码区序列,本文在d n a 自动机的状念转移机 理中引入了两种较为有效的分割方法:基于熵的分割方法和基于概率的分割方法。在研 究过程中,给出了这两种方法的异同点的同时,运用编程高级语占c + + 实现了上述两种 算法,并且利用实验的d n a 序列对比了上述两种方法,得出其实验值与理论值相一致 的结论; ( 2 ) 目前对d n a 序列性质的研究方法多种多样,复杂网络分析的方法便是其中之一。复 杂网络分析方法的传统用途是揭示元素与元素之间的紧密关系,而它的新用途是分析基 因以及特定基因的在整条d n a 序列中的某种特定作用,也可以对了解基因组进化做出 贡献。利用复杂网络的分析方法来解读d n a 序列,d n a 编码区以及非编码区。在传统 众多方法的基础上给出了两种新的构造网络的方法:基于前缀、后缀法和基于概率法。 并利用选取的d n a 序列进行实验,通过描述网络的两大因素:聚类系数和度分布,很 好的验证了提出的这两种方法是可行的。 关键词:生物信息学:d n a 计算;d n a 自动机:d n a 序列;d n a 序列编码区;d n a 序列非编码区;复杂网络分析 江南人学舰j 学位论卫 a b s t r a c t b i o i n f o r m a t i c sl sa ni m p o r t a n tp a r to fn a t u r es c i e n c e si n t h i sc e n t u r y t h ec o n t e n ti s e n r i c h m e n ta tt h ep r e s e n tt i m e t h i sp a p e ri n c l u d e st w oa s p e c t so nb i o i n f o r m a t i c s t h e ya r e d n a c o m p u t i n ga n da p p r o a c h i n gt op r o p e r t yo fd n as e q u e n c e ( 1 ) w i t ht h er a p i dd e v e l o p m e n to fb i o l o g i c a lt e c h n i q u e s , an e wd i s c i p l i n en a m e dd n a c o m p u t i n gh a sc o m ei n t ob e i n g d n aa u t o m a t o ni san e wc o n t e n ti nr e s e a r c ha r e ao fd n a c o m p u t i n g i n p u t t i n gt h es a m ee x p e r i m e n t a ld n as e q u e n c ef o rt h ed n a a u t o m a t o nc a r l a c h i e v ed i f f e r e n to u t p u t t i n go n e st os a t i s f yd i f f e r e n td e m a n d s d i v i d i n gd n as e q u e n c et o c d n aa n dn c d n ai st h ep o p u l a rr e s e a r c ha b o u td n aa u t o m a t o n t h et h e o r yo fs t a t e s t r a n s f e ra b o u td n aa u t o m a t o nc o n t a i n st w oe f f e c t i v es e g m e n t a t i o na l g o r i t h m st h a ta r eb a s e d o ne n t r o p ya n dp r o b a b i l i t y d u r i n gt h ep r o c e s s ,t h ea l g o r i t h m sh a v eb e e nc a r r i e do u tb yc + + , a n db e e nc o n t r a s t e db ye x p e r i m e n t a t i o n t h er e s u l t so fe x p e r i m e n ta r ec o n s i s t e n tw i t ht h e c l a s s i cc o n c l u s i o n s ( 2 ) t h e r ea r em a n yk i n d so fm e t h o d st oi n v e s t i g a t ed n a s e q u e n c e c o m p l e xn e t w o r kt h e o r y i so n ep a r to fi t t h et r a d i t i o n a lu s eo fc o m p l e xn e t w o r kt h e o r yi st or e v e a lt h ec l o s e r e l a t i o n s h i p sa m o n gt h ee l e m e n t s t h en e wp u r p o s ei s t oa n a l y z et h ef u n c t i o no fg e n ea n d s p e c i f i c a l l yg e n ei nt h ew h o l ed n as e q u e n c e i ta l s oc o n t r i b u t e st or e a l i z et h eg e n o m e e v o l u t i o n d n as e q u e n c e ,c d n aa n dn c d n ac a nb ea n a l y z e db yu s i n gc o m p l e xn e t w o r k t h e o r yi nt h i sp a p e r b a s e do ns o m et r a d i t i o n a lm e t h o d s ,t h ep a p e rs h o w st w on e wm e t h o d st o s t u d yd n as e q u e n c e t h e ya r ep r e f i x s u f f i xa n dp r o b a b i l i t yt h e o r y t h em a i nf a c t o r st o d e s c r i b ec o m p l e xn e t w o r ka t ec l u s t e r i n gc o e f f i c i e n ta n dd e g r e ed i s t r i b u t i o n b ym a k i n gu s eo f d n a s e q u e n c ea n d t h et w of a c t o r s ,t h et w om e t h o d st oc o n s t r u c tn e t w o r k sa r ef e a s i b l e k e y w o r d s :b i o i n f o r m a t i c s ;d n ac o m p u t i n g ;d n aa u t o m a t o n ;d n as e q u e n c e ;c d n a ; n c d n a ;c o m p l e xn e t w o r kt h e o r y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:! 篁曼日期:2 口d 7 年b 月f 口日 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:何寥导师签名:盘亟叠 日期:立。咿年b 月oe 1 第一章绪论 1 1 生物信息学 第一章绪论 2 l 世纪是生命科学的时代,也是信息时代。随着生物科学技术的不断发展,研究数 据迅速积累。研究、储存、处理和分析生物学及相关信息的方法与工具亟待更新。近年 来人类丌展的各种基因组计划,对基因组数据的分析和利用提出了更高的要求,在这种 情况下,生物信息学应运而生。 生物信息学( b i o i n f o r m a t i c s ) 有多种不同的定义。人类基因组计划中给基因组信息 学的定义为:基因组信息学是一个学科领域,包含着基因组信息的获取、处理、存储、 分配、分析和解释的所有方面”1 。生物信息学广义的概念是指应用信息科学研究生物体 系和生物工程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、 器官的生理、病理、药理过程中的各种生物信息。生物信息学狭义的概念是指应用信息 科学的理论、方法和技术,管理、分析和利用生物分子数据。 生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究 生物大分子,其研究重点主要落实在脱氧核糖核酸( d n a ) 和蛋白质两个方面,包括d n a 和蛋白质的序列、结构和功能。生物信息学以基因组d n a 序列信息分析作为源头,破译 遗传语言、认识遗传信息的组织、辨别隐藏在d n a 序列中的基因、掌握基因调控信息、 对蛋白质空问结构进行模拟和预测。与生物信息学相关的概念还有计算分子生物学 ( c o m p u t a t i o n a lm o l e c u a tb i o l o g y ) ,计算分子生物学主要研究分析方法、开发分析 工具,促进生物分子数据的分析。与生物信息学相关的另一个名词是生物计算 ( b i o c o m p u t i n g ) ,生物计算特指用计算机技术分析和处理生物分子数据。”。 随着人类基因组计划的实施,通过基因组测序、蛋白质序列测定和结构解析等试验, 分子生物学家得到了大量的有关生物分子的数据。然而,面对如此丰富而又庞杂的数据, 我们掌握的信息印很匮乏,研究分子遗传学数据的能力远远超出了我们分析这些数掘的 能力。生物信息学所面临的情况是拥有了大量的数据但却不能完全的理解、解析和利用 这些数据。 现在人类基因组计划己于2 0 0 1 年提前完成,人们的注意力己从基因组测序转向对基 因组表达的分析和对蛋白质组结构与功能的预测。要解决这些问题,要求我们借助强有 力的计算机技术来完成对这些数据的分析工作。在处理生物数据的同时对计算机技术也 面临着挑战,一方面是制造出运行更快,价格更便宜的硬件;一方面是设计出时日j 更优, 运行结果更好的算法,从而能从海鼍的生物数据中发现蕴涵于其中丰富的生物知识。 1 1 1 生物信息学国内外现状 随着历时数年、耗资数十亿的人类基因组计划的完成,不管是在国内还是在国外, 江南人学坝i 学位论文 生物信息学部在蓬勃的发展。 欧美、只本等发达图家部诈常鼋祝生物信息学的发展,在生物信息数据库建设和成 立生物信息学专业机构两方面均走在世界自i 列,而且每年都拨出相当多的经费支持生物 信息学的发展,己相继在因特网上建立了各自的生物信息学网络结点,比如美国的国家 生物技术中心、国家基因组资源中心、同本的国家遗传学研究所等。欧洲分子生物学网 络组织( e u r o p e a nm o l e c u l a rb i o o g yn e t w o r k ,e m b n e t ) 是目前国际上最大的分子生 物信息研究、开发和服务机构,通过计算机网络对英、德、法、瑞士等国进行生物信息 资源的共享。 对欧美国家来说,生物信息学的研究己经进行了较长的时闯,主要是从数据库方面 来看。美国在1 9 7 9 年就建立了g e n e b a n k 数据库,e m b l 数据库服务也在1 9 8 2 年就已经提供, 而同本的d d b j 也在1 9 8 4 年丌始建立并在1 9 8 7 年提供服务,其它一些国家,如德国、法国、 意大利等,在共享网络资源的同时,也分别建立了自己的具有专业特色的二级数据库, 来为本国的生物学研究提供相应的服务”1 。 生物信息学在我国起步较晚,但是发展十分迅猛。早在1 9 9 3 年,在国家自然科学基 金委的资助下,我国己经丌始参与人类基因组计划,但由于条件所限,我国生物信息学 的发展面临着许多制约因素,其中最主要的是人4 缺乏、认识不够和信息网络建设落后。 因此,我国生物信息学研究真币起步是在1 9 9 5 1 9 9 6 年。 在最近十几年的发展中,我国的很多研究所和高校都陆续的加入了生物信息学的研 究行列之中,成立了一些国内较有影响力的机构,如1 9 9 7 年3 月北京大学成立了生物信 息学中心,2 0 0 0 年3 月中科院上海生命科学研究院成立了生物信息学中心。与此同时, 些著名大学和研究所在各自研究领域取得了一定成绩,如中科院生物物理所在e s t 序 列拼接及在基因组演化方面、天津大学在d n a 序列的几何学分析方面、清华大学在蛋白 质结构模拟方面等等”1 。 1 1 2 生物信息学研究内容 生物信息学的研究十分广泛,主要包括以下几个研究领域”1 : ( 1 ) 生物信息的收集、存储、管理与提供 不断更新的生物信息数挤:的收集、存储、管理是进行同源性检索以及序列模式分析、 结构预测及功能的基础,这一方面的工作主要包括建立国际基本生物信息库和生物信息 传输的国际互联网系统;建立生物信息数据质量的评估与检测系统:生物信息的在线服 务:生物信息的可视化和专家系统等,这些是对生物信息学进行研究的基本内容。 ( 2 ) 序列比对 序列比对是生物信息学中最基本、最重要的操作,是生物学计算的核心,通过序列 比对可以发现生物序列中的结构、功能和进化的信息。序列比对的根本任务是:通过比 对生物分子序列,发现它们的相似性,找出序列之i 日j 共同的区域,同时辨别序列之i 日j 的 笫一章绪论 差异。在分子生物学中,d n a 或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列 的相似,可能足结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构, 结构决定功能。研究序列年 j 似性的目的之一是,通过相似的序列得到相似的结构或相似 的功能。研究序列相似性的另一个目的是通过序列的相似性,判别序列之| 日j 的同源性, 推测序列之间的进化关系。 ( 3 ) 编码区及非编码区信息结构分析 近年来完整基因组的研究表明,在细菌这样的微生物中,编码蛋白质区域占整个基 因组序列的8 0 n 9 0 ,非编码蛋白质区域却只占整个基因组序列的l o 到2 0 。而高等生 物和人的基因组中非编码区都占到基因组序列的绝大部分。对人类基因组来说,迄今为 止,人们真正掌握规律的只有d n a 上的编码蛋白质的区域( 基因) ,有很多资料研究表明 这部分只占基因组的3 n 5 。其它通常称为“垃圾”d n a ,其实一点也不是垃圾,只是 我们暂时还不知道其重要的功能。因此,寻找这些区域的编码特征、信息调节以及表达 规律是非常重要的。对非编码蛋白质区域进行生物学意义分析的策略有两种:一种是基 于已有的d n a 元件的序列特征,这些d n a 元件已经为实验证实的所有功能已知的,预测非 编码蛋白质区域中可能含有的功能己知的d n a 元件,从而预测其可能的生物功能,并通 过实验进行验证;另一种是通过数理理论直接探索非编码蛋白质区域未知序列的特征, 从理论上预测可能含有的信息,并通过实验进行验证”3 。 ( 4 ) 生物进化的研究 根据多种生物的基因组数掘及对垂直进化和平行演化的研究,可以对生命至关重要 的基因结构及它的调控进行研究,对此需要建立较完整的生物进化模型,用基因组的数 据来鉴别出环境因素对其进化的影响。由于基因组是物种所有信息的储存库,从根本上 决定着物种个体的发物和生理。因此,从基因组整体结构组织和整体功能调节方面,并 结合相应的生理现象,对基冈组整体的进化进行研究将是揭示物种真实演化历史的最佳 途径。 ( 5 ) 完整基因组的比较基因组学 在后基因组时代,生物信息学家的研究面对的不仅仅为大量的序列和基因,而是面 对越来越多的完整基因组。有了这些资料,我们就能对某些重大生物学问题进行分析。 科学家已经证实:人与猿问的基因组差别约为1 ,但他们表型问的差异却十分显著。因 此,其表型差异不仅应从基因、d n a 序列找原因,也应考虑到整个基因组、考虑染色体 组织上的差异。由完整基因组研究导致的比较基因组学必将为后基因组学的研究刀= 辟新 的领域m 】。 ( 6 ) 蛋白质结构预测及模拟 随着蛋白质组研究的迅速发展,使得许多蛋白质序列涌现出来,但要了解它们的功 能,要找到这些蛋白质功能分子的基础,只有氨基酸序列是远远不够的,因为蛋白质的 功能是由其三级结构确定的,而且蛋白质结构也不完全是静态的,在行使功能的过程中 其结构同时也会发生改变。因此,预测及模拟这些蛋白质的功能是当前的重要任务。 汀南人学顺i 学位论上 ( 7 ) 药物设计 人类肇因组计划的目的之一在于阐明人的约l o ) i 种蛋白质的结构、功能、楣百作用 以及与各种人类疾病之i 日j 的关系,寻求各种治疗和预防方法,包括药物治疗。近年来随 着结构生物学的反展,相当数量的蛋白质及一些核酸、多糖的三级结构获得精确的测定, 基于生物大分子结构的药物设计成为生物信息学中的极为重要的研究领域”3 。 1 2 d n a 计算 生物信息学中一个重要的分支便是d n a 计算。 2 0 世纪未,生物学世纪揭丌了两块新科学的帷幕:人类基因组计划和d n a 计算。人 类基因组计划在2 0 0 3 年前完成人类d n a 全序列的图谱,从那时起,人类进入破解这部天 书的“后基因组时代”。破解这部天书,是要读懂d n a 序列上怎样编码产生生命的全部信 息。从信息学角度来讲,人类将努力去理解生命是怎样通过d n a 序列的信息而被“计算” 出来的。d n a 计算是诞生于1 9 9 4 年1 1 月的一门新的学科,它向人类揭示,d n a 可以作为计 算的介质而用于解决人类的数学问题,这是真正意义上的生物数学。生物是计算工具而 人类数学问题是计算的目的,因此完全不同于以往科学文献中“生物数学或数学生物 学”的含意:数学是工具而生物学问题是目的。这一诞生仅仅几年的新学科之所以受到 科学界的关注是因为它预示着巨大的经济前景,将产生本质上并行的d n a 计算机,而且 运行速度,能耗效率及存贮密度都具有出乎意料的优越性。 随着生物信息学的发展和许多工程领域中复杂系统的不断涌现,人们发现了许多多 种多样的非线性问题以及形形色色棘手的n p 一完全问题。面对这些问题,现囱的电子计 算机却显得无能为力。于是,人工神经网络计算模型、量子计算模型、遗传算法讨。第模 型以及d n a 计算模型相继产生,其中d n a 计算模型在近几年来倍受科学界的关注”。 d n a 计算是一种模拟生物分子d n a 的结构并借助于分子生物技术进行计算的新方 法,它也是一种关于计算的新思维方式,它是通过对d n a 分子的操作来实现的。所渭“操 作”,一方面是来自d n a 在“遗传”过程中存在的“自然”操作,它是d n a 自身进行计 算的工具;而另一方面也来自“遗传工程”,因为操作d n a 分子的能力是遗传工程的关 键。d n a 计算主要包括了三个步骤:编码、计算和解的分离和读取。由于生物体的复杂 结构,实际上,d n a 计算是编码d n a 序列中的原始信息经过一些简单处理后得到的,而 求一个含变量w 的可算函数的值也可以通过求一系列含变量w 的简单函数的复合来实 现,它是以d n a 链来表示输入和输出数据的。 d n a 计算的基本原理足:以编码生命信息的遗传物质一d n a 序列,作为信息编码的 载体,利用d n a 分子的取螺旋结构和碱基互补配肘的性质将所要处理的问题映射为特定 的d n a 分子;然后在生物酶的作用下,通过可控的生化反应生成问题的解空i 日j ;最后利 用各种现代分子生物技术如聚合酶连反应p c r ,聚合重叠放大技术p o a 、超声波降解、亲 和层析、分子纯化、电泳、磁珠分离等手段破获运算结果“。 4 第一辛绪沧 1 3 本文主要研究内容及创新点 i ) n a 计算问题的研究已经越来越引起人们的重视,但是目前还没有一种通用的好方 法柬解决d n a 分割问题和分析及讨论d n a 序列的性质问题。由于在d n a 计算中信息是以 特定的o n a 序列表示的,如何将d n a 计算中信息的特异性识别与序列组成综合起来,建 立一个系统的网络分析方法,选择或提出一个有效解决问题的方法成为关键。本文主要 从处理d n a 序列着手,之后对d n a 序列性质的研究进行展丌。具体内容如下: ( 1 ) 在传统意义的自动机基础上介绍了一种d n a 自动机的构造机理。首先,将自动机的 接受字母集进行拓展,由传统自动机接受的两个字母的字母集= 0 ,1 ) 拓展为通常表 示生物序列的四个字母的字母集= ( a ,c ,g ,t ) ;其次,在此d n a 自动机的状念转移 过程中,利用了基于熵和概率的d n a 序列的分割算法,将d n a 序列分割成编码区以及 非编码区序列:最后,利用了统计分析的方法对输出的编码区序列进行密码子和氨基酸 的统计分析,这对分析和预测所输入的d n a 序列功能是有帮助的。并且,这部分对以 后工作过程中为细化d n a 序列为c p g 岛和a i u 岛做铺挚。 对文章中采用的基于熵分割和基于概率分割的分割算法进行了简要的对比,并且在 同一实验d n a 序列下进行分析,得到相似的实验结果。 生物序列的图形表示是生物信息学的一个重要课题。图形表示的方法是多种多样 的,本文通过d n a 自动机和d n a 序列分割方法对d n a 序列进行二维图形的表示,并 利用成分的统计分析,得到直观的实验结果。 ( 2 ) 在现存的构造复杂网络方法的基础上提出了两种新的方法,运用这两种方法所得结 论与经验结论相一致。目前对d n a 序列性质的研究方法层出不穷,由于图论中网络分 析的方法可以清晰表示出结点问的相关联程度,若能把d n a 序列抽象为各个结点引入 到复杂网络分析当中,潜在的问题似乎可以迎刃而解。首先本文提出基于序列前缀后缀 构建网络模型的方法;其次提出了基于概率构建网络模型的方法,同时利用实验序列进 行这两种方法的简要比较。 本文的创新之处: ( 1 ) 设计了一系列分析d n a 序列的方法,使得用户可由研究d n a 序列一 d n a 非编码区序 y j j d n a 编码区序列一 密码子的统计一 氨基酸的统计一 d n a 序列的重构,对d n a 序列 进行较为系统的分析; ( 2 ) 在提出的基于序列前缀后缀构建网络模型的方法时,给出了新的聚类系数的计算方 法,应用实验序列所得结果优于传统聚类系数的计算方法所得结果; ( 3 ) 尝试对d n a 编码区和o n a 非编码区进行研究并得到较好的结果; ( 4 ) 将自动机,复杂网络,聚类方法以及概率四方面知识结合来研究d n a 有关内容: ( 5 ) 本文涉及到的问题是计算机科学和生物科学相结合的新领域一- - d n a 计算。 江南人学倾1 学位论丘 2 1d n a 计算的生物基础 2 1 1 核酸分子 第二章d n a 计算 核酸是生命遗传信息的携带者和传递者,它对生命的延续、生物遗传特性的保持、 生长发育等都起着重要的作用。核酸分为脱氧核糖核酸d n a ( d e o x y r i b o n u c l e i ca c i d ) 和核槠核酸r n a ( r i b o n u c l e i ca c i d ) 二大类。下文中,图2 - 1 就是核糖核苷酸与脱 氧核糖核苷酸的分子示意图。o n a 分子含有生物物种所有的遗传信息,分子量一般都很 大。r n a 则主要是负责d n a 遗传信息的翻译和表达,分子量要比d n a 小得多。遗传信息 的表达服从中心法则:首先,d n a 通过转录作用,将其所携带的遗传信息( 基因) 传递给 m r n a ,在三种r n a ( m r n a ,t r n a 和r r n a ) 的共同作用下,完成蛋白质的合成”“。 o | i h ( ) 一p 。- o i l 1 0 o i i h o p 一0 1 t 2 i o h 0 h 核糖核:苷酸脱氧核糖核苷酸 b 为腺嘌呤,鸟嘌呤,胞嘧啶,尿嘧啶或胸腺嘧啶 图2 1 核糖核苷酸与脱氧核糖核苷酸的分子示意图( b 表示碱基) d n a 和r n a 都是由众多核苷酸( n u c l e i o t i d e ) 聚合而成的多核苷酸链 ( p o l y n u c l e o t i d e ) 。每个核苷酸是由一个含氮的碱基( n i t r o g e n ) ,一个分子的戊糖 ( s u g a r ) 和一个分子的磷酸( p h o s p h a t e ) 组成的。d n a 和r n a 的主要区别是有两点:第一, d n a 中的碱基为腺嘌呤( a d e n i f i e ) 、鸟嘌呤( g u a n i d e ) 、胞嘧啶( c y t o s i n e ) 和胸腺嘧 啶( t h y m i n e ) ,而在r n a 中则将胸腺嘧啶( t h y m i n e ) 替换为尿嘧啶( u r a c i l ) :第二, d n a 中的核糖是戊糖分子的第二个炭原子上所连的羟基( 一o h ) 脱去一个氧原子后形成的, 因此,d n a 取名为脱氧核糖核酸。 2 1 2d n a 结构 1 9 5 3 年,w a s t o n 和c r i c k 提出的d n a 双螺蛙结构对分子生物学的诞尘具有划时代 的历史意义,它不仅确立了核酸作为遗传信息的基础,而且指出了碱基配对是核酸复制、 遗传信息传递的基本方式,从而最终确定了核酸是遗传的物质基础。 第一章d n a 计算 ( 1 ) d n a 的一级结构 d n a 的一级结构是指d n a 分子的核苷酸序列及其连接方式。一般的哺乳类动物d n a 中g + c 含量占4 0 ,而a + t 含量占6 0 。每一个物种的d n a 碱基组成具有特异性,而同 一个物种的不同器官,组织则完全相同。组成d n a 的四种脱氧核苷酸可以任意排列,因 此就可以造成各种d n a 片段的特异性。d n a 的一级结构完全取决于碱基的构成,所以, d n a 的一级结构即指其碱基序列。真核细胞d n a 中存在大量重复序列,在人类d n a 中, 约4 0 的顺序是以重复序列形式存在,重复序列的复性次数越多,速度越快: ( 2 ) d n a 的二级结构 根据c h a r g a f f 原则:所有d n a 无论其来源,其a = t 、g = c 、a + g = c + t ,即a 与t 的含量总是相等、g 与c 的含量总是相等、嘌呤碱基含量等于嘧啶碱基含量。此规则为 d n a 二级结构模型的建立提供了有力的证据。研究表明:d n a 几乎都是双链,a 与t ,g 与c 配对形成氢键。 图2 2d n a 分子的双链结构 如图2 2 所示,d n a 的双螺旋结构具有如下特点:d n a 分子是由二条平行的脱氧核 苷酸长链盘旋而成的;d n a 分子中脱氧核糖和磷酸交替连接,排列在外,构成d n a 分子 的“骨架”;由于外侧的主链主要是通过第一个糖原子上的磷酸基团( 和第五个炭原子相 连) 和第二个糖原子上的羟基( 和第三个炭原子相连) 缩合而成的磷酸二脂键连接而成 的,因此,通常我们说d n a 分子是有极性的,一条链的方向从5 到3 ,另一条链的方 向则从3 到5 ; ( 3 ) d n a 的三级结构 r 南人学帧| 学化论业 细胞中的d n a 双螺旋可以进一步盘曲形成更加复杂的结构,其中以超螺旋结构最常 见。环状d n a 分子形成的超螺旋结构,其中一条链与另一条链交叉的总次数是一个整数, 叫做环链数( 1i n k a g en u m b e r ) i lj 。 2 1 3 蛋白质 蛋白质是生命的物质基础。因此,它是与生命及与各种形式的生命活动紧密联系在 一起的物质。蛋白质是由许多氨基酸分子互相连接而成的。 蛋白质由2 0 种氨基酸组成,见表2 。l 及表2 2 。由m r n a 上的碱基序列翻译得到蛋 白质序列。已经证明,三个碱基编码一个氨基酸,所以称它为三联体密码或者密码子, 密码是3 位,碱基有a 、c 、g 、t4 种,故有6 4 组密码子。 表2 i 遗传密码表 第中日j 的碱基第 cag = 位 原氨原氨原氨原氨 位 碱 始基始基始基始基 碱 基d n a 酸 d n a 酸 d n a 酸 d n a 酸 基 t t tft c tt a tyt g tct tt t ct c c s t a ct g cc t t at c a t a as t o pt g as t o pa t t gt c gt a gt g g w g c t t c c t c a tc g tt c c t a l c c c p c a c h c g c r c c t cc c ac a a q c g a c t gc c gc a gc g gg a t ta c ta a ta g tt a a t c i a c c u a a c n a g c sc a t aa c aa a aa g aa a t g m a c ga a g ka g grg g t tg c tg a tg g tt g g t c v g c c a ( ;a c d g g c gc g t ag c ag a aeg g aa g t gg c gg a g g g gg 8 第一章d n a 计算 表2 22 0 种氨基酸与终止子密码表 密码子氨硅酸缩写字符 g c t ,g c c ,g c a ,g c g 丙氨酸 a t g t ,t g c半胱氢酸 c g a t ,g a c天冬基酸 d g a a ,g a g谷氨酸 e t t t ,t t c苯丙氨酸 f g g t ,g g c ,g g a ,g g g甘氨酸 g c a t ,c a c组氨酸 h a t t ,a t c ,a t a异亮氨酸 i a a a a a g 赖氨酸 k t t a ,t t g ,t c t ,t c a ,t c c ,t c g亮氨酸 l a t g 甲硫氨酸 m a a t ,a a c天冬酰胺 n c c t ,c c c ,c c a ,c c g脯氨酸 p c a a ,c a g谷氨酰胺q c g a ,c g c ,c g t ,c g g精氨酸 r t c t ,t c a ,t c c ,t c g丝氨酸 s a c a ,a c c ,a c g ,a c t苏氨酸 u g t g ,g t t ,g t a ,g t c缬氦酸 v t g g色氨酸 w t a t ,t a c酪氨酸 y t a a ,t a g ,t g a s t o p 2 1 4 基因 有机体的每一个细胞都有几个非常长的d n a 分子,每一个这样的分子称为染色体 ( c h r o m o s o m e ) 。在d n a 中仅有一部分连续的片段编码构建蛋白质的信息,而其余部分并 不编码构建蛋白质的信息,而且每一种不同的蛋白质仅对应一段d n a 序列,该段序列称 为基因( g e n e ) 。更确切地说,基闪是编码蛋白质或者连续的d n a 序列。特殊的细胞机制 能够准确的识别基因的起点和终点位置。基因具有重组、突变、转录或对其它基因起调 控作用的遗传学功能。遗传密码是遗传信息的编码,它是由脱氧核糖核酸分子中所包含 的四种碱基组合而成。在a ,t ,g ,c 四种碱基中,每三个组成一组,构成一个“密码 9 江南人学顺l j 学位论文 子”,或称“三联体密码”,肩负着传递信息的重要使命。根据基因的功能,基因又可以 分为结构基冈和调节摹闭。结构基闪表达的产物_ 彳1 - 酶以及不直接影响其他蛋白质表达的 蛋白。调节基因表达那砦参与基因调控的蛋白,如转录冈子、激活和抑止因子,还有那 些控制细胞分裂、分化和增殖的蛋白。结构基因决定基因表达的种类,而调节基【叁i 除决 定什么样的产物以外,还决定了其他基因表达的时问、空间、数量和速度”。 ( 1 ) 基因存在的区域 真核生物的基因在d n a 分子上呈现不连续性,它们被一些称作内含子的序列隔丌, 即断裂基因。一般来说,平均每个基因长1 0 0 0 b p ,但人类基因组全长3 x 1 0 9 b p ,但实际 上仅有1 0 1 一1 0 5 个基因。究其原因,就是由于在真核生物的基因组中,不仅有编码的外 显子,还含有不编码的内含子,基因与基因之问的间隔序列、调控序列以及大量的功能 尚不清楚的序列。所谓基因就是指d n a 分子上的编码区。对于原核生物来讲,几乎每一 个基因都是完整的、连续的d n a 片断。 ( 2 ) 编码区及非编码区 d n a 序列上编码蛋白质或r n a 的部分称为编码区,反之,则为非编码区。掘研究表 明,人类d n a 分子的编码区( 基因) 仅占3 一5 。对蛋白质而言,由于基因在d n a 分子上 是不连续,导致不连续基因的存在,故蛋白质编码序列被非蛋白编码顺序所隔丌。我们 把能被翻译成蛋白的序列称为外显子,是一个基因表达为多肽链的部分( 可被表达为蛋 白质的部分) :插入结构基因内的f 日j 隔序列( 非蛋白编码序列) 称为内含子,又称插入顺 序。如果一个基因有几个内含子,一般总是把壤冈的外显子分隔成n + l 部分。也就是说 内含子只转录,不翻译。一般认为,内含子的存在有利于存储较多的信息,有利于增加 重组频率,可能是基因调控的装置。阐明内含子的起源与作用,对于研究生物进化有着 极为重要的意义。非蛋白编码区d n a ( 内含子) 约占人类基因组的9 5 ,其生物学意义 目前尚不是很清楚,但从演化的观点来看( 真核生物有内含子而原核生物没有) ,其中必 然蕴涵着重要的生物学功能。由于它们并不编码以表达蛋白,一般认为,它们的生物学 功能可能体现在对基因表达的调控上。因此寻找非编码区的编码特征、信息凋节及表达 规律无疑将是未来相当长时问内的热点课题”。 2 1 5 分子生物学的中心法则 1 9 0 9 年,j o h a n n s e n 提出基因代表遗传物质。但只是在明确了d n a 的结构和功能之 后,才准确地回答了基因本质的问题。基因就是d n a 大分子上的各个功能片段,它以碱 基排列的顺序的方式,存储着生物体内所有的遗传信息。1 9 5 8 年,双螺旋发现人之一 c r i c k 总结了从d n a 到蛋白质的遗传信息流动方向,提出了分子生物学的中心法则,如 图2 3 所示。中心法则是关于d n a ,r n a 、蛋白质三者功能相互关系的概念,是指在大多 数情况下,遗传信息从d n a 传给d n a 的复制过程,以及遗传信息从d n a 传递给r n a ,再 由r n a 通过转录和翻泽确定蛋白质的过程,分为复制、转录和翻译几个阶段”“。 1 0 第一帝d n a 汁算 转录翻译; d n ai = ! r n a 叫蛋白质 逆转录 图2 3 分子生物学中心法则 d n a 分子上有a 、g 、c 、t 四种碱基,不同基因只不过是四种碱基在数量上,尤其是 碱基排列顺序上不同,就能携带有千差万别的遗传信息。通过复制,遗传信息代代相传。 d n a 把遗传信息传递给r n a 的过程称为转录。r n a 分子的碱基有a 、g 、c 、u 四种,其排 列顺序是按d n a 的碱基序列依照配对原则转抄过来的。真核生物r n a 在核内合成而把遗 传信息送往胞浆的蛋白质合成体系。可见,转录沟通了细胞膜内外的问隔,沟通了核酸 和蛋白质两种结构截然不同的生物大分子的信息联系。r n a 通过翻译,以三个碱基序列 ( 三联体密码) 决定一个氨基酸这种遗传密码方式,决定蛋白质的基本结构,即氨基酸序 列。 中心法则代表了大多数生物遗传信息存储和表达的规律,并奠定了在分子水平上研 究遗传、繁殖、进化代谢类型、生长发育、生命起源、健康或疾病等生命科学上的关键 问题的理论基础。 2 2 人类基因组计划h g p 人类基因组计划与计算机技术、信息网络技术同步发展。随着人类基因组计划的提 出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨 量的生物学信息资源。基因组信息的收集、储存、分发、分析越发显得紧迫和重要,信 息的管理和分析成为人类基因组计划实施过程中的一项重要的工作。人类基因组计划向 信息学提出了巨大的挑战,信息技术为生物信息学的发展提供了非常好的条件,为生物 信息学的研究和应用提供了非常好的支撑。人类基因组计划产生的生物分子数掘是生物 信息学的源泉,而人类因组计划所需要解决的问题则是生物信息学发展的动力。 人类基因组计划旨在阐明人类基因组3 0 亿个碱基对的序列,发现所有人类基因并 弄清其在染色体上的位置,破译人类全部遗传信息,使人类在分子水平上全面地认识自 我。人类基因组计划从2 0 世纪8 0 年代后期丌始酝酿。到1 9 9 0 年f 式启动,由于得到 了计算机,表面物理、有机化学等各个学科的大力配合,使基因组研究的技术得到突破 性进展,基因组研究从结构起步,走出了结构的框架,进入了功能、进化、信息的新天 地,取得举世瞩目的成就。原定2 0 0 5 年完成的人体2 3 对染色体上3 0 亿个碱基的定位, 目阿已告完成。人体染色体的第2 2 对染色体的完整遗传密码已破译。研究显示,这对 染色体与免疫系统、先天性心脏病、精神分裂、智力迟钝、白血病以及多种癌症有关。 人类基因组计划还包括模式生物部分,像真核生物的小家鼠、果蝇、线虫:单细胞生物 江南人学顾t 学位论殳 的啤洒酵母以及原核生物的大肠f r 菌“1 。 2 3d n a 计算的国内外研究现状 从整体的d n a 计算的发展来看,它是一个由简单到复杂,有着逐渐上升势头的科研 点。 国际上,d n a 计算的研究已经相当深入。美国、加拿大、英国等国家的著名研究机 构和大学都相继丌展了这一领域的研究工作。很多研究小组及机构进行跨国界的相互协 作,并定期进行各种技术交流和讨论。近几年,亚洲的r 本和韩国对d n a 计算的研究也 非常重视。 我国在d n a 计算方面的研究工作也已经展丌,主要研究基地是华中科技大学的d n a 计算和分子计算机研究所。目的,已经获得多项关于d n a 计算方面的基余资助。 从1 9 9 4 年到现在这短短的几年罩,关于d n a 计算的研究已经取得了不少的结果。继 l e o a r dm a d l e m a n 解决了h p p 问题之后,又有几种计算问题得到了解决,例如:i ) n a 计算 在图论中的应用:人们讨论了“中国邮递员问题的d n a 计算”;“0 1 规划问题的d n a 计算”; “图着色问题的表面d n a 计算”以及“最大团问题的表面d n a 计算”等等,并且在这类问 题中皆给出了解决问题的方法和步骤。 再从最基本的“d n a 分子中碱基计算”上看,人们利用“d n a 分子的复制,严格遵循 碱基互补配对的原则;蛋白质合成过程中,决定一个氨基酸的密码予是信使r n a 上的三 个相临的碱基”这些准则,掌握了碱基计算的规律和方法。 而在接下柬的研究过程中,人们大量的讨论了不同数目状态集合和方向的d n a 自动 机及分子计算的一种新的模型( 系统) 粘贴模型( 系统) 。后者使用d n a 串作为底物 来进行信息表达,杂交分离作为控制机制。由此模型的基本原理和应用得出:基于d n a 的计算机能用来解决通用的算法,并具有解决众多搜索问题的潜力。在更多的情形下, 也将其模型( 系统) 抽象到语言上。通过语吉实现d n a 双链的“组装”,并且在较简单的 d n a 二级结构( 双链且互补) 的基础上,研究了更加复杂的d n a 三级,四级结构片段的“组 装”问题,进而得出了有着复杂结构( 发卡式结构) 的d n a 链的组装。这对单链d n a 的片 段“组装”是很有研究意义的。 在生物数学中,主要是完成“d n a 串的分离和结合”专“延长d n a ”- - ) “缩短d n a ”- - ) “剪切d n a ”- - ) “连接粘贴d n a ”- - ) “测量d n a 分子的长度”专“捞出特定的分子”专“放 大( 复制) d n a ”- - ) “读出序列”这一过程。而在该过程中,通过a d l e m a n 的实验,充分 体现了d n a 计算的完备性和通用性。并且

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论