(理论物理专业论文)原核生物基因及基因组结构分析.pdf_第1页
(理论物理专业论文)原核生物基因及基因组结构分析.pdf_第2页
(理论物理专业论文)原核生物基因及基因组结构分析.pdf_第3页
(理论物理专业论文)原核生物基因及基因组结构分析.pdf_第4页
(理论物理专业论文)原核生物基因及基因组结构分析.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

口北t 北人学赴赶l 学位论文 原核生物基因及基因组结构分析 摘要 随着大规模基因组测序计划的实施,大量原核和真核生物的基因组已被测定。在基因 和基因组水平上分析这些序列的结构特征是亟待解决的问题。原核生物基因组较小,结构 简单,是研究生物大分子遗传特l :的首选对象。本论文主要用非线性映射算法讨论原核生 物基因和基因组的结构特征,并简单介绍古细菌复制起始点的识别问题。 论文第一章主要阐述生物信息学的含义,并简单介绍与所研究内容相关的最新进展。 论文第二章重点介绍论文中涉及的生物学背景知识,阐明了生物信息传递的中心法 则,d n a 分子的半保留复制以及半不连续复制,密码子的基本特征等。 论文第三章主要介绍多元统计的有关知识。多元统计方法是解决复杂高维问题的十分 有效的工具。论文中重点介绍了该种方法的降维思想,以及用主成分分析方法、对应分析 方法和非线性映射方法解决问题的步骤。 论文第四章重点介绍用非线性映射方法分析原核生物基因密码子使用情况并得到的 相关结论。结果显示,高表达基因的密码子使用在分布上和其它基因有明显的差异,这些 基因倾向于使用具有较高丰度的t r n a 对应的密码子。因此,不对称复制和翻译水平上的 选择机制共同决定了原核生物基因的同义密码子使用模式。另外,根据原核生物基因组中 复制起始点两侧碱基含量的不对称性识别古细菌的复制起始点也得n t 较好的结果。 关键词:基因组,密码子,复制,翻译,主成分分析,对应分析,非线性映射,古细菌 2 坠丝:! 丝苎塑些篓塑尘垒丝! ! 丝 a n a l y s i so fg e n ea n dg e n o m es t r u c t u r e si n p r o k a r y o t e s a b s t r a c t w i t ht h ei m p l e m e n t a t i o no fal a r g es c a l eo fg e n o m es e q u e n c ep r o j e c t ,ag r e a ta m o u n to f g e n o m es e q u e n c e so fp r o k a r y o t i ca n de u k a r y o t i co r g a n i s m sh a v eb e e na c c o m p l i s h e d i ti st h e m o s tp r e s s i n gt a s kf o ra n a l y z i n gt h es e q u e n c e sa tg e n ea n dg e n o m el e v e l s ,p r o k a r y o t i cg e n o m e s a r et h ep r e f e r r e do b j e c t i o nt os t u d yt h eg e n e t i cc h a r a c t e r i s t i c so ft h eb i o l o g i c a lm o l e c u l a r b e c a u s eo ft h e i rs m a l lg e n o m e sa n ds i m p l es t r u c t u r e i nt h i st h e s i s ,w ea r ed e v o t e dt od i s c u s s i n g t h es t r u c t u r ef e a t u r e so fp r o k a r y o t i cg e n e sa n dg e n o m e su s i n gt h em e t h o do fn o n l i n e a rm a p p i n g ( n l m ) i na d d i t i o n ,p r e d i c t i o no fr e p l i c a t i o no r i g i n si ns o m ea r c h a e b a c t e r i ag e n o m e si sb r i e f l y i n t r o d u c e d i nc h a p t e ri ,b i o i n f o r m a t i c sa r ef i r s ti n t r o d u c e d ,a n dt h e nn e wa c h i e v e m e n t sr e f e r r e dt ot h e w o r ki nm yt h e s i sa r cp r e s e n t e d i nc h a p t e ri i ,t h eb i o l o g i c a lk n o w l e d g er e l a t e dt os t u d yi nt h et h e s i si se x p l m n e d ,i n v o l v i n g t h ec e n t r a ld o g m a ,t h es e m i c o n s e r v m i v er e p l i c a t i o na n dt h es e n t i d i s c o n t i n u o u sr e p l i c a t i o n ,t h e b a s i cf e a t u r e so fc o d o n s ,a n ds oo n i nc h a p t e rl i i ,t h em u l t i v a r i a t ea n a l y s i si sd e s c r i b e d t h em u l t i v a r i a t em e t h o di sa ne f f e c t i v e t o o lt oa n a l y z et h ed a t ai nt h em u l t i d i m e n s i o n a ls p a c e i nt h i sp a p e r , t h ee m p h a s i si sp l a c e do n t h et e c h n i q u ef o rr e d u c i n gt h ed i m e n s i o n s t h ep r i n c i p a la n a l y s i s ,c o r r e s p o n d e n c ea n a l y s i sa n d n o n l i n e a rm a p p i n ga r ed e s c r i b e di nd e t a i l i nc h a p t e r ,t h ec o d o nu s a g ep r e f e r e n c e si np r o k a r y o t i co r g a n i s ma r ea n a l y z e db y n o n l i n e a rm a p p i n gm e t h o d l h er e s u l t ss h o wt h a tc o d o nu s a g eb e t w e e nh i g h l ye x p r e s s e dg e n e s s u c ha sr i b o s o m a lp r o t e i ng e n e sa n dt h eo t h e r si sq u i t ed i f f e r e n t i ti sr e o s o nt h a tt h eh i g h l y e x p r e s s e dg e n e sp r e f e rt ou s ec o d o n sc o r r e s p o n d i n gt ot h e m o s ta b u n d a n tt r n a si nt h ec e l l - s o t h ea s y m m e t r i c a lr e p l i c a t i o na n dt h et r a n s l a t i o n a ls e l e c t i o nd e t e r m i n et h ep a t t e r no fs y n o n y m o u s ! 型窒:些;i 垒! ! 坚! ! ! : c o d o nu s a g ei np r o k a r y o t i co r g a n i s m s b e s i d e st h ew o r k ,a na p p r o a c ho np r e d i c t i n gt h er e p l i c a t i o no r i g i ni na r e h a e b a c t e r i a g e n o m e si sp r o p o s e db a s e do nt h ea s y m m e t r yo fb a s ec o n t e n t so nt w os i d e so fr e p l i c a t i o no r i g i n i np r o k a r y o t i cg e n o m e s t h ea p p r o a c hc a nr e c o g n i z er e p l i c a t i o no r i g i n sw e l l k e y w o r d s :g e n o m e ,c o d o n ,r e p l i c a t i o n ,t r a n s l a t i o n ,p r i n c i p a la n a l y s i s ,c o r r e s p o n d e n c e a n a l y s i s ,n o n l i n e a rm a p p i n g ,a r c h a e b a c t e r i a 独创性声明 本人郑重声明:所呈交的学位沦文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特,j l jj j lj 以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写的研究成果,也不包食为荻得河北:i :业大学或其他教育机构的学位或证书所使用过 的材料。与我一同工作的同志剥奉研究所做的任何贡献均已在论文中作了明确的说明并表 示了谢意。 学位论文作者签名:轨志,忽d 同期:删、六f6 关于学位论文版权使用授权的说明 本学位论文作者完全了解河:| 匕工业大学有关保留、使用学位论文的规定。特授权河北 工业大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印 或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文 的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名 导师 签 名 孰怎娴 肢面 日期:孔毋 6 , b 弱:譬、6 、tg 第一章绪论 人类对生命现象的探索经历了漫睦的发展过程。从孟德尔( m e n d e l ) 遗传学的基本定律被认可, 到摩尔根( m o r g a n ) 发现遗传变异和染色体的芙系,建立细胞遗传学的理论,特别是1 9 5 3 年沃森( w a t s o n ) 和克里克( c r i c k ) 发现了d n a 分子的烈螺旋结构以后,人类对丁生命现象的研究进入了分子水平,生 命科学成为1 3 然科学领域的带头学科。2 0 0 3 年是生物学史上重要的里程碑。也正值d n a 双螺旋结构发 现5 0 周年,人类基因组计划宣告完成。这标志着人类真正解析生命现象的时代已经到来。人类基因组 包含3 0 亿个碱基对,是由4 种不同碱基排列而形成的。人类基因组蕴含着人类自身生老病死的全部信 息。原则上讲,利用生物学实验可知晓生物人分子的全部结构与功能,但生物实验周期长,费用高,很 难在短时间内完成这项任务。随着科学技术的不断进步,数学、物理和化学等学科已广泛的渗透到生命 科学中,全面改变了生命科学的面貌。因此,利e f j 非实验的方法研究生物大分子的结构与功能成为可能, 生物信息学就是在这样的背景之下诞生的。 美国人类基因组计划实施五年后构总结报告中,对生物信息学作了如下定义:生物信息学是- - f q 交 叉学科,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面。它综合运用数 学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义【1 。对d n a 序列的 分析,生物信息学就是把分析基因组序列信息作为源头。破译隐藏在d n a 序列中的遗传语言,找到表 达蛋白质的编码序列、阐明非编码区的实质;同时对发现的基因信息进行蛋白质空间结构模拟和预测; 依据特定蛋白质的功能可以进行相关的药物设计。生物信息学的发展掀起生物学研究领域的一个巨人变 革,使生物学从传统的单个基因、单个蛋白质的研究过渡到系统的对整个生物体的基因组、蛋白质组的 研究;而研究方法也从传统的观察和实验为主,过渡到结合数理科学,信息科学,计算机科学等学科的 理论和方法进行生命现象的分析。这个变革使得大量的数理科学工作者自然转入到生命科学研究的领 域,全面改变了生物学的面貌。自8 0 年代末诞生以来生物信息学以基因组信息学为核- t l , ,在分析基 因数据、寻找新基因、分析和预测蛋闩质结构功能、分子进化、药物设计等方面发挥了巨大的作用。 序列分析是生物信息学的重要研究方向,对生物火分子( 如核酸) 序列进行数字化处理后,利用统 计学的基本理论和方法进行统计分析,解决生物信息中的相关问题【2 。统计学方法就是在掌握基本数 据资料的基础上,首先提出检验假殴,然而将数据资料进行合理分类和整理。建立数据文件。接下米根 据研究者的实验设计和研究目的,选川合适的统计方法进行分析,虽后也是最关键的步骤是对统计结果 进行合理的解释。 g r a n t h a m 等人对生物体中密码子使用模式的研究开辟了该领域的先河( 3 】。多元统计方法已被广泛 1 一 肌仫:嘲勿j - 0 投j l 小耋占构分析 f f 心川丁赢维空间f 向多变馘数捌的分析,如一f 成分分析方法( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) 4 6 对席分析方法( c o r r e s p o n d e n c ea n a l y s i s c a ) ,模糊埘腑分析方法( f u z z yc o r r e s p o n d e n c ea n a l y s i s ,f c a ) 7 笱。 狂研究原核生物基因组中密码r 使川偏倚。f 幽0 问题- h 对应分析方法是最为流行的算法。川该方法处理 过的微生物很多,比如e s c h e r i c h i ac o i l 【8 ,9 , b a c i l l u ss u b t i l i s 1 0 1 4 】,b o r r e l i ab u r g d o r f e r i 【1 5 ,1 6 】。 c h l a m y d i a t r a c h o m a t i s 1 7 】,m y c o p l a s m a g e n i t a i i u m 【1 8 ,h e l i c o b a c t e rp y l o r i l l 9 ,p s e u d o m o n a s a e r u g i n o s a 2 0 等,这些研究结果虽然都给了相对合理的解释,但由丁对应分析算法本身的一些特点,使得一些结 论带有某种科度上的片面性 2 i 。 本论文以非线性映射算法( n o n l i n e a rm a p p i n g ,n l m ) 为: 具,将高维空间的数据在尽可能保持样本点 间的距离不变的条件t : 2 2 1 ,映j ! 到- 二维空间,以达到直观、可视化的目的。非线性映射算法在二二维空 间中包含了更多的原有空间的信息,得到梢对全面的结论,是分析基因组结构和生物遗传规律的有效工 且。 第二章生物学背景 2 - 1 遗传信息传递的中心法则 生命有机体除了某些病毒或噬菌体是以r n a 分子作为遗传信息的载体外,绝大多数生物是以d n a 分子作为其遗传信息的载体,而生命f - l 动的实现主要是通过蛋白质分子来完成的。蛋白质分子之间、蛋 白质与核酸分子( d n a 或r n a ) 之间以及核酸分子之间的相互作用。是生命活动的核心。克里克( c r i c k ) 丁二1 9 7 1 年提出了遗传信息传递的中心法则,阐述了从d n a 分子通过r n a 分子将遗传信息传递给蛋白 质分子的过程( 图2 1 ) 。 d ,执汰脯确执鳓伪民厉然 1 i f 一”、r e p 珏c 怕n 图2 1 中心法则 f i g2 1c e n t r a ld o g m a 在遗传信息传递过程中,d n a 双链解旋,并分别作为模板按碱基互补配对的原则指导以脱氧核苷 3 第二章生物学背景 2 - 1 遗传信息传递的中心法则 生命有机体除了某砦病毒或啦曲体是以r n a 分子作为遗传信息的敲体外,绝大多数生物是咀d n a 分子作为其遗传信息的载体,而生命7 动f 由实现土要是通过蛋白质分子米完成的。蛋白质分子之间、蛋 白质与核酸分子c d n a 或r n a ) 之间以及核酸分子之间的相互作j = | ! | 。是生命活动的核心。克里克( c r i c k ) 于1 9 7 1 年提山了遗传信息传递的中心法则,闸述了从d n a 分子通过r n a 分子将遗传信息传递给蛋白 质分子的过程( 圈2 1 ) 。 d 茁强 】搬决踊伪献贰釉鑫憨基二 | f 一一、”、r 印n c a t i o n 图2 1 中心法则 f i g2 1c e n t r a ld o g m a 在遗传信息传递过程中,d n a 烈链解旋,并分别作为模板按碱基互补配对的原则指导以脱氧核苷 在遗传信息传递过程中,d n a 础链解旋,扑分别作为模板按碱基互补配对的原则指导以脱氧核苷 3 一 n ;l 牲e 物j l 川瘦圳川纽绡构分析 酸5 + 二磷酸为前体的互补子链的合成,这样每个子坌l | j 胞接受亲代d n a 双链中的一条,即将遗传信息准 确的传递剑子代d n a 分子上,这一过年l | ! 叫做复制( r e p l i c a t i o n ) 。在生物细胞内又以d n a 的一些特定 片断( 基因) 为模扳合成与其核营酸顺序相对应的r n a 分子,这个过程将遗传信息传递到r n a 分子 中,此过程称为转录( t r a n s c r i p t i o n ) 。蚩一质编码基冈的转录单元称为m r n a ,以m r n a 为模板,按 照其核苷酸顺序所组成的密码子( c o d o n ) 指导蛋白质台成,这一过程称为翻译( t r a n s l a t i o n ) 。遗传信 息传递的规律称为中心法则( c e n t r a ld o g m a ) 。通过中心法则可以看出一个蛋白质的氨基酸序列是由为 其编码的核苷酸序列( 遗传密码) 所决定,通过转录和翻译过程,将储存于d n a 中的遗传信息传递到 蛋白质的氨基酸序列。 本论文涉及到的生物学问题主要是d n a 分子的复制以及密码子的使用问题,下面分别介绍这两部 分内容。 2 - 2d n a 分子的复制 除了少数噬菌体和病毒外从细菌到高等动、植物的遗传物质都是d n a 。d n a 具有双螺旋结构, 即两条多核苷酸链的走向相反,沿着螺旋看,一条链的走向由5 端到3 端而另一条链则由3 端到5 端。生命的繁衍实际上就是染色体d n a 自我复制的结果。d n a 分子忠实而准确的复制和修复机制保 证了它作为遗传信息载体不可替代的地位。染色体d n a 的自我复制( s e l f - r a p l i c a t i o n ) 主要是通过半保 留复制实现的,即以亲代d n a 分子的每一条链为模板合成两对d n a 链的过程。细胞分裂时,亲代细 胞分裂成两个子代细胞,同时将新复制的两条d n a 链分配到两个子代细胞中去。d n a 的双链结构对 于维持这类遗传物质的稳定性和复制的准确性都是极为重要的。 2 - 2 1 d n a 分子的半保留复制 w a t s o n 和c r i c k 在提出d n a 烈螺旋结构模型时就对d n a 的复制过程进行了探讨。由于d n a 分子 由两条多核营酸链组成,两条链上的列席碱基g 与c 相配对,a 与t 相配对所以两条链是互补的, 一条链上的核苷酸排列顺序决定了另一条链上的核苷酸排列顺序,就是说,d n a 分子的每一条链都含 有合成它的互补链所需的全部信息。w a t s o n 和c r i c k 推测,d n a 在复制过程中碱基间的氢键首先断裂, 双螺旋解旋并被分开每条链分别作为樱板合成新链,产生互补的两条链。这样新形成的两个d n a 分 子与原来d n a 分子的碱基顺序完全一样。因此,每个子代d n a 分子的一条链来自亲代d n a ,另一条 链则是新合成的所以这种复制方式被称为d n a 的半保留复制( s e m i c o n s e r v a t i v er e p l i c a t i o n ) 。 t 1 9 5 8 年,m e s e l s o n 和s t a h l 研究了经n 标记的3 个| 盐代的大肠杆菌d n a ,首次证明了d n a 的半 保留机制。他们将大肠杆菌k 期在以”n 作氮源的培养基中培养,得到”n d n a 。由于该d n a 分子的 密度比普通d n a ( 1 4 n d n a ) 的密度- 腰犬,在氯化铯密度梯废离心时,这两种d n a 形成位置不同的区 带。他们川普通培养基( 含”n 的氰渤! ) 培养”n 标记的火肠杆菌,经过一代以后,所有d n a 的密度 都在”n d n a 和”n d n a 之间,即形成了一半15 n 平一i 。4 n 的杂合分子,两代后出现等量的“n 分 子和1 4 n _ l s n 杂合分子。若再继续培养。可以看到14 n - d n a 分子增多说明d n a 分子在复制时均可被 分成两个可l j ! 单位,分别构成子代分子的一二h 这些而单位经过许多代复制仍然保持着完整性。现已查明, 无论是原核生物还是真核生物,其d n a 都是以半保留复制方式遗传的。d n a 的这种半保留复制保证 了d n a 在代谢上的稳定性。经过许多代的复制,d n a 多核营酸链仍可完整的存在于后代而不被分解 掉。这种稳定性与d n a 的遗传功能相符。 2 2 2d n a 分子的半不连续复制 一般而言,d n a 分子在复制时新。不是随机起始的,而是从特定的位点开始。这个特定的位点就叫 做复制起始点。在复制起始点处双链d n a 解旋,形成所谓的复制叉。在复制叉处新合成的子链d n a 以各自的亲链为模板,总是按5 端到3 端的方向进行合成。d n a 分子在复制过程中,复制叉是不对称 的。由于d n a 双螺旋的两条链是反向平行的,因此复制义附近解开的d n a 链一条是5 到3 。方向,另 一条是3 到方向,两个模板极性不同。所以,沿复制叉移动的方向,以3 到5 。方向的d n a 链为母 链合成的子链是连续合成的。叫做前导链( 1 e a d i n gs t r a n d ) 。另一条链是在模扳d n a 的指导下,通过一 种称作d n a 引发酶的蛋白质,在特定的间隔区先合成大约1 0 个核苷酸组成的r n a 引物( r n a p r i m e r ) 为d n a 聚合酶提供3 o h ,然后合成一个称之为冈崎片断( o k a z a k if r a g m e n t s ) 的不连续的d n a 片 断,最后通过专门的d n a 修复系统,快速去除r n a 引物而代之以d n a ,再经d n a 连接酶通过3 ,5 一磷酸二脂键将其连接起来,完成子链的台成。这一条链叫做后随链( 1 a g g i n gs t r a n d ) 。由此可见,无 论是前导链还是后随链,其合成的方向都是从5 端到3 端( 图2 2 ) 。进一步研究证明,这种前导链的 连续复制和后随链的不连续复制在生物界是有普遍性的,因此称之为d n a 的半不连续复制 ( s e m i - d i s c o n t i n u o u sr e p l i c a t i o n ) 。 5 坚丝竺丝兰些垒竺堡型丝丝尘丝 l a g g i n g 图2 , 2d n a 分子的半不连续复制 f i g 2 2t h es e m i d i s c o n t i n u o u sr e p l i c a t i o no fd n am o l e c u l a r 2 - 3 密码子 2 - 3 1 密码子简介 贮存在d n a 上的遗传信息通过m r n a 传递到蛋白质上,蛋白质上的氨基酸序列是由m r n a 中的 核苷酸序列决定的,所以。要了解它们之间的关系就要弄清核苷酸和氨基酸数目之间的关系。m r n a 中只有四种核苷酸,而蛋白质中有2 0 利,氨基酸,以一种核苷酸代表一种氨基酸是不可能的。若以两种 核苛酸作为一种氨基酸的密码子,它们所能代表的氨基酸只有4 2 = 1 6 种,还不足2 0 种。若以3 种核苷 酸代表一种氨基酸,则可以有4 3 = 6 4 种密码子,完全可以满足编码2 0 种氨基酸的需要( 表2 1 ) 。 6 表2 1 通用遗传密码表 f a b l e2 1t h et a b l eo fg e n e t i cc o d o n s e c o n db a s e ucag 裟 渐u 驰a u c ,母:罂 c 芦 u u c = l e u3 s e r 眦u a g s - ,:嚣葛 a g 翳 c:嚣 om 。c a u 肚:嚣 吨 u c 幽 叠伽c u a g ,1 , hor m 嚣 妇:嚣 她 a g司 一 口 盈 舞,mo m 然 a s n 嚣 s e r u倒 c墨 = a h a 裟jg :啦am 触,g 。 aca。 a um e tc g j a g g ,她g 伽g u c :罂 地裂 蛔:嚣 啡 u c g a 州g u a g c g : g a g 汕g g jg g g 在蛋白质合成过程中m r n a 上每3 个核苷酸翻译成蛋白质多肽链上的一个氨基酸,这三个核苷 酸就称为密码子,也叫三联密码子。翻译过程从起始密码子开始,沿着m r n a 的5 。到3 + 的方向连续 阅读密码子,直至终t 密码子为i l ,合成一条具有特定序列的多肽链蛋白质。新生的多肽链中氨基 酸的组成和排列顾序决定于其d n a ( 基因) 的碱基组成及其顺序。因此,作为基冈产物的蛋白质是受 基因控制的。 遗传密码是2 0 世纪6 0 年代科学e 的杰出成就之一,是通过设计出色的生物化学和遗传学试验阐明 的它不仪为研究蛋白质的生物台成提供了理论依据,也证实了中心法则的正确性。 2 - 3 2 遗传密码的特征 1 遗传密码的通明性。自然界所有的生命形式,都共用这本密码。除去线粒体外,生命界在这点 上是统一的。 2 遗传密码的简并性。所谓遗传密码的简并性是指,一个氨基酸有一个以上的密码子为其编码, 其中9 种氨基酸有2 个密码子,1 种氯基酸有3 个密码子,5 种氨基酸有4 个密码子,3 种氨基酸有6 个密码子( 表2 2 ) 。由一种以上密码子编码同一种氨基酸的现象称为简并( d e g e n e r a c y ) ,编码同一个 氧基酸的密码子称为同义密码子( s y 】l o a y l t l o t l sc o d o n ) 。同义密码子一般都不是随机分布的,因为其第 一7 脉恢生物l 及州i 州 1 上结构分析 、第二位核营酸往往是相同的,而第i 协核,竹酸的改变并不一定影响所编码的氨基酸,这种安排减少 了变异对生物的影响。本文讨论的就是义密码于住原核生物基因组中的使用问题。 表2 2 密码子的兼并性 t a b l e2 2t h ed e g e n e r a c yo f e o d o n 氨基酸密码子个数 氮基酸密码子个数 丙氨酸 4 亮氨酸 6 精氨酸 6 赖氨酸 2 天冬酰胺 2 甲硫氨酸 l 天冬氨酸 2 苯丙氨酸 2 半胱氦酸 脯氨酸 4 谷氨酰胺 2 丝氢酸 6 谷氨酸 2 苏氨酸 4 甘氨酸 4 色氨酸 l 组氨酸 2 酪氨酸 2 异亮氨酸 3 缬氨酸 4 3 遗传密码使用的偏倚性( c o d o nu s a g eb i a s ) 。遗传密码的简并性决定了一个氨基酸可以有不止一 个密码子为其编码。然而,在蛋白质生物合成时对简并密码子的使用频率是不同的。对于一个给定的氨 基酸而言,有的密码子使用频率明显高 j 其它密码子,这就是所谓的遗传密码使用的偏倚性。习惯上, 人们经常采用相对同义密码子使用( r e l a t i v es y n o n y m o u sc o d o nu s a g e r s c u ) 来衡量同义密码子在编码 一个氨基酸时使用的偏倚程度。所谓相对同义密码子使用是指,对下给定的氨基酸,所有的同义密码子 所占的 e 例。 4 密码子的不重叠性和阅读方向。对于给定的蛋白质编码序列,其密码子是不重叠的,严格的按 照特定的编码框架三个核苷酸对应一个氨基酸,从5 到3 的方向依次读下去。 第三章多元统计知识简介 3 - 1 引言 复杂大系统的科学决策取决丁剥系统深刻透彻的认识,以及对系统运动规律的准确判断和预测。 在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的数据 信息。这类原始数据集合往往由丁样本点数量巨大用于描述系统特征的指标变量众多,并且带有动态 特征,而形成规模宏大,复杂难辨的数据海洋。如何分析希i 认识高维复杂数据集合中的内在规律性,简 明扼要的把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐没在其中的重要信息集中 提取出来;如何充分发掘数据中的丰寓内涵,清晰的展示系统结构,准确的认识系统元素的内在联系, 以及直观的描绘系统的运动历程;这监是科学决策和决策支持系统建立的基础。利用统计学和数学方法, 对多维复杂数据集合进行科学分析的理论和方法,就是多元统计数据分析研究的基本内容。 广义的说,系统分析与决策的进程可以划分为四个阶段:首先,是对系统的描述性分析,它是运用 所掌握的信息,对系统进行尽可能充分和全面的认识;其次,是对系统的解析性分析,它往往通过建立 数学模型,识辨和描述系统的解析结构,确定系统中各因素或各元素的内在联系;第三,是有关系统的 预测性研究,其目的是掌握系统运行和动态变化的规律,对系统未来做出准确的预见,准确的预见是正 确决策的先决条件:第四,是决策阶段,所谓决策,就是指对系统状况进行充分的观察和认识,对系统 的构造及其要素的内在联系进彳亍识辨:f | f 深入的分析,并且在对系统未来做出正确判断的基础上,在多 种可行的方案中进行优选。 本论文所涉及到的主成分分析、对应分析及非线性映射,均属于描述性研究范畴。对统计数据进行 描述性分析的目的是要在大规模原始数据群中,迅速将重要信息提取出来,对系统的主要特征进行认识 性研究。这一类方法的显著特征是,它们均属于非模型化的研究方法。在对原始数据集合进行分析之前, 我们对数据的性质、结构儿乎一无所知。如果采j ;i j 多个变量来刻画系统,则这些变量的地位完是同等的, 而没有自变量( 解释变量) 与因变量( 被解释变量) 之分, 主成分分析 2 3 1 主要用于分析样本点与定量变量构成的数据表。它能够保证在数据信息较少的前提 下,对高维数据集台进行降维处理,迅速揭示系统中的主要因素。特别当高维空间被降至二维时,可以 在平面图上描述系统元素的相互关系,使高维复杂系统可视化,从而大大提高决策者的洞察能力和分析 效率。对应分析【2 4 ,2 5 】和非线性映射【2 2 都是对主成分分析的拓广,二者的共同目的是实现高维数据系 统的可视化。而对应分析主要是剥定性数据进行最佳综合简化,非线性映射则是把主成分分析的结果作 一9 一 为初始映j ! 点,利j h 物理学 :逐秆放m :l 舱埘的方法,适当变换各点位当! ,尽可能做到在降到一维空 间以后,各点之间的距离仍保持它们化“维- i 。问t l 的距离不变,以达到对样本进行可视化分类羽f 准确识 t 成分分析力法的计钟:步骤为 设原始数据矩阵为: 3 - 2 主成分分析方法 x = ( x 。,x :,一,) x 1 ix 1 2 x 2 ix 2 2 - ,i 2 则样本协方差矩阵和样本相关系数矩阵分别为 割 s = ( 小。= 击薹( 驴i ) ( 一弓) r = ( o ) ,i j 矗j 氍 其中,i = _ ,为每一个变蟮的均1 j ! :f 。 当基于样本协方差矩阵计算主成分干 ( 3 1 ) ( 3 2 ) ( 3 - 3 ) 首先,由的协方差阵s ,求出其特征根,即解方程i s - 2 i i = 0 ,可得特征根 a 冯- 4 0 。 然后,求出各个特征根所对麻的特砌目量u i ,u 2 ,u r 其中 u ,= ( ,叱- ,“,) ( 3 4 ) 第i 样本的土成分为:f = u 爿,i = 1 ,2 ,女( 玉p ) ,计算累积贡献率,恰当的找出主成分的个 数,在我们所讨论的问题中一般选棚个累积贡献率最人的主成分,以实现平面可视化的目的。 在实际应用中,我们常常将样本数捌中一t = q l ,这不会影响到样本协方羞矩阵s 。这样以米,第f 主 成分的值为: 1 0 r = u ,( 一牙) ,i = 1 ,2 ,p ( 35 ) 若将各观测值x ,代替b 式l 卜,的小测侦向“i t , ,川笫i 主成分的值为: = u ,( ,一i ) ,i = 1 ,2 ,- 一,p ( 3 6 ) s g z x j 为观测值的第i 土成分得分。所仃观测值内平均主成分得分 霉= 净广i u , ( 衍 = o f 乩z ,p n , 当基于样本相关系数矩阵汁算i 成分时: 如果变量有不同的餐纲,则必缄堆丁相犬系数矩阵进行主成分分析。不同的是计算得分时应采用标 准化后的数据。 设样本相关矩阵的p 个特彳i e 值为并正 :0 ,讲,旺,啡为相应的正交单位特征向量, 第i 样本主成分 r = u + ,i = i ,2 ,p( 3 8 ) 其中x 是各分量经样本标准化了的向量,即 令 z = d 。( 一牙) d :斫昭( 再,厄,污) 3 9 彳= d 。( x ,一牙) ( 3 1 0 ) 这是的各分量数据经标准化后f 向数据向量,将其代替式中的x ,即得观测值_ 在第f 主成分上 的得分 虻= 7 x :,i = 1 ,2 ,p ( 3 1 1 ) 所有观测值的平均主成分得分 霉= 吉喜i ,= 去u 善巧= 。,= ,:,一,p c ,z , 3 - 3 对应分析方法 1 9 7 0 年,b e o z e c r i 提出了对应分析方法,它是主成分分析方法的拓广。该种方法的计算步骤为 设有”个样品,每个样品有p 个变量划资料阵为 坚丝! :丝竺型丝兰型坐竺丝坌丝 其中矗 0 。 x l , x 2 - x ,v i , ( 1 ) 将按行、列求和,并记行弄| l 为- - e x i = j 总和丁= 而= 一= x ,。 f p j - lj = 1j = l j = l ( 3i 3 ) p - 1 ,2 ,p ,列承i 为x j = 南,歹= 1 ,2 ,n j - 1 铲掣,h ,2 ,朋川,2 ,。 x ,1 f r 3 1 4 ) ( 3 ) 进行r 型因子分析。计算a = z z 的特征根 五4 ,按其累积百分比 ,d i,p1 l 乃2 ,1 1 0 0 _ 8 0 ,取简月7 个特征根,t 0 1 投m 个公因子,计算其相应的单位化特征向量 lj = l= l 巨,易,e ,从而得r 型因子载* i 阵 e l i 柯 岛a f f l 2 压 石 e 。甄f f l ,2 压 石 e 2 m 佤 e p m 压 并在两两因子轴上作变量的点幽。水文t h 采川贡献率最大的两个因子作平面点图。 ( 3 1 5 ) ( 4 ) 进行q 型分析。对步骤( 3 ) 中a 的前个特征根计算相应于b = z z 矩阵的特征向量 e ? = z e ,i = 1 ,2 ,m ,并将p j 单位化,从而得到样品的载荷矩阵 矗再e f ! 压 e 2 1 压。:! 石 p :。河e l , 压 在月型因子平面上作相应的样品点蚓。 ( 5 ) 根据具体问题进行解释和推断。 e i + i 石1 。;。,万i 瓦瓜 ( 3 1 6 ) ,。l = 3 - 4 非线性映射方法 非线性殃射方法也是生成分分析方法n 勺拓j 。,它是在尽可能保持群本点问的距离不变的条件f ,把 高维空间中的样品点映j ! 划可显示的二维。问由它们在二维空间中的分布来实现对样品的分类和识 剧。 非线性映射方法的计算思路。 为了对由多维指标描述的样- f b b t j * n j ) - 类,可将样品点映照到低维空间( 如可显示的二维空间) , 并证某种意义f ( 如所有对麻点距离藉的加权平方和) 使点与点之间的距离变化最小。仍以有1 1 个样本, 每个样晶川p 个指标描述的资料i g t :- j , a 例,定义跌藉函数 = 寺蓦掣 “7 这里表示点,与点,在原高维空问中的距离 ( 3 1 7 ) :圭( 靠一) 2 ,( 扣l ,2 ,刚:l ,2 ,一) ( 3 - 1 8 ) v t = i 畋表示在映照平面( 坐标系为o y l 儿) 上点j 与点j 的对应点之间的距离 略:瓜i 再研,( 加一产1 2 ,n ) ( 3 1 9 ) 显然,所有是常数,如中包龠2 个未知数m ,只2 ( i = l ,2 ,”) 。问题归结为求m l ,y i 2 使误差 函数极小。 为此可设想误差函数等价一苛维空问盼睦网络f 肖点z 和,之间弹簧的弹性常数玛2 专,当节点 被约束到二维平面上变形后的总位能。从力学考虑,可以采用逐步松弛节点释放能量的过程:选用主成 分分析方法求得的结果为初始1 f 线性峡j ! 点,汁算各:肯点位能梯度,挑选最大者作为释放点,而固定其 它点刁i 动,被释放点可沿牛顿方j m 移动。洲此茸先对数据进行规格化 砖= ( 一i ) 以,( f = 1 , 2 ,n ;k = 1 ,2 ,p ) ( 3 2 0 ) 其g - , 瓦= 去瓢,盯净。( x i k 一瓦) 2 ( ) ,( ,2 ,m ) ( 3 z t ) 并在点的分类已知的情况卜各个指标可以根据其在分类上的相对重要性而加权,权因子取为组间 偏著与编内偏差之比,即 碥= w k x 。,( 扛1 ,2 ,n ;k = 1 ,2 ,p )( 32 2 ) 其中 ( x :一x i ) 2 旷葫 o 2 3 1 分子是对属于不同类的第j 和第j 个样本点求平| | ,分母是对属丁相同类的第i 和第j 个样本点求和。 假设该次被松弛点的足标为i 0 ,松弛点原坐标( h y 1 0 2 ) 的误差函数值为e ,松弛后移至新坐标 ( 只叭,受。) 的误差函数值记为言,而其余点不变u l j 歹m = y t l l ( p = l ,2 ,一,肝;p i 0 ;q = 1 ,2 ) ( 3 2 4 ) 这时牛顿迭代为 j ,翌2 + a y an 2 5 ) 1 = 只0 2 + a y 2 a 2 e0 2 e 、 耕砂9 吃f a :ea :ei o , a y 2 两j ( 3 2 6 ) 在逐点松弛时由于每次仅改变个节点( 叩i o ) ,所以仅需计算和f o 有关的二阶偏导数。而在每 次迭代中。对每点均需计算的一阶偏导数及e 值可采川逐项修正的方法( 初值除外) 避免重复计算。 设点,o 移动磊e 成为豆i o _ e 成为i o e _ ( p :1 ,2 , ;口:l ,2 ) 。令 o y | m印n t 孑。,= ( 奠。一歹。) 2 + ( 只。:一歹,:) 2 ,( ,= 1 ,2 ,一,z ;f o ) ( 3 2 7 ) 则容易推得 豆= e 一( 3 2 8 ) 其中 当p = i 0 时 一1 4 ( z 町一。,) ( 拭,一d i o ;- - d 。,) , ( 3 。2 9 ) i h m ,一c 1 1 e 蒉一烈镣 ( y j o q - - y j 。) b ,。, 弧,。置l 氐,j 、 、。 当p i o 时 其中,c = 薏= 瓦o e i 2 ( 面d ;o - d , , , o 卜,_ ( 镗卜, 型! ! :! ! 型竺些型些竺丝丝丝 第四章原核生物基因组密码子使用分析 4 - 1 前言 随着大规模基因组测序计划f j 实施,大精原核和真核生物的基因组已被测定,分析基因及基因组的 结构特征是生物信息学的主要任务2 一。原核,e 物基冈组较小、结构简单,是研究生物大分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论