分子进化与系统发育_第1页
分子进化与系统发育_第2页
分子进化与系统发育_第3页
分子进化与系统发育_第4页
分子进化与系统发育_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC生物信息学生物信息学第六章第六章 分子进化与系统发育分析分子进化与系统发育分析Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC生物学家:生物学家:We have a dreamr1. Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述Bioinformatics, 2007-20

2、08, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC梦想走进现实:梦想走进现实:How?r1. 最理想的方法:化石! 然而零散、不完整r2. 比较形态学和比较生理学:确定大致的进化框架。 然而,细节存在巨多的争议Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC第三种方案:分子进化第三种方案:分子进化r1. 1964年,Linus Pauling提出分子进化理论;r2. DNA & RNA: 4种碱基

3、;蛋白质分子:20种氨基酸;r3. 发生在分子层面的进化过程:DNA, RNA和蛋白质分子;r4. 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息;Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC分子进化的模式分子进化的模式r1. DNA突变的模式:替代,插入,缺失,倒位;r2. 核苷酸替代:转换 (Transition) & 颠换 (Transversion);r3. 基因复制:多基因家族的产生以及伪基因的产生;|A. 单个基因复制 重组或者逆转录;|B. 染

4、色体片断复制;|C. 基因组复制;Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC (1) DNA突变的模式突变的模式替代替代插入插入缺失缺失倒位倒位Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC(2) 核苷酸替代:转换核苷酸替代:转换 & 颠换颠换r1. 转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代;r2. 颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代;

5、Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC基因复制:单个基因复制基因复制:单个基因复制重组重组逆转录逆转录Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC基因复制:染色体片段复制基因复制:染色体片段复制Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Se

6、mester 1, USTC基因复制:基因组复制基因复制:基因组复制S. Cerevisiae (酿酒酵母)K. Waltii (克鲁雄酵母)研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为1:2Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC分子进化研究的目的分子进化研究的目的r 1. 从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of life; 物种分类;r 2. 大分子功能与结构的分析:同一家族的大分子,具有相似的三

7、级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测;r 3. 进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC(1) Tree of Life: 16S rRNABioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCOut of Africa5353个人的线粒体基因组个人的

8、线粒体基因组( (16,587bp) )人类迁移的路线人类迁移的路线Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC(2) 同源性分析同源性分析-功能相似性功能相似性rOrtholog (直系同源物):两个基因通过物种形成的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。rParalog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。rXenolog (异同源物):由某一个水平基因转移事件而得

9、到的同源序列。rConvergent evolution: 通过不同的进化途径获得相似的功能,或者,功能替代物。Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCparalogsorthologsBioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC异同源物Bioinformatics, 2007-2008, Semester 1, USTCBioinfor

10、matics, 2007-2008, Semester 1, USTC基因的趋同进化通过不同的进化过程获得保守的功能Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC趋同进化:趋同进化:Langur食叶猴RNASE: 纤维素分解、消化Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC同源关系的分析同源关系的分析r1.直系同源物的确定:Reciprocal

11、 Best Hits;r2. 旁系同源物的确定:BLAST,序列比对及数据库搜索,至少存在一个共有的功能结构域;r3. 整体分析/蛋白质家族分析:系统发育树的构建;Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCReciprocal Best Hits?直系同源物:直系同源物:Reciprocal Best HitsBioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester

12、1, USTC(3) HIV protease: 高突变性高突变性rKa/Ks 1, 强的正选择压力,具有很高的可突变性Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC本章内容提要本章内容提要r1. 密码子偏好及相应分析;r2. 氨基酸序列的进化演变;r3. DNA序列的进化演变;r4. 同义与非同义的核苷酸替代;r5. 系统发育树的构建;r6. 分子钟与线性树;r7. MEGA软件的使用;Bioinformatics, 2007-2008, Semester 1, US

13、TCBioinformatics, 2007-2008, Semester 1, USTC第一节第一节 密码子偏好及相应分析密码子偏好及相应分析r1. 密码子(codon): 在随机或者无自然选择的情况下,各个密码子出现频率将大致相等。r2. 密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致;r3. 可能的原因:密码子对应的同功tRNA丰度的不同。Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC标准密码子标准密码子Bioinformatics, 20

14、07-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC大肠杆菌大肠杆菌RNA聚合酶聚合酶Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC大肠杆菌大肠杆菌RNA聚合酶聚合酶 (2)r1. 密码子偏好非常明显;例如r2. 同为编码Phe的同义密码子UUU和UUC,二者出现的次数显著不等,UUU(15次),UUC(44次);r3. 再如:编码Arg的四个密码子CGU, CGC, CGA, CGG,

15、 出现次数分别为:89,46,1,0.r4. 提示:对应CGG的同功tRNA可能不存在!Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCtRNA & Anticodonr1. 每一个密码子,对应一个tRNA;r2. tRNA通过Anticodon来识别codon,联系mRNA和氨基酸序列的合成;r3. 密码子的使用偏好:由密码子对应的tRNA的进化及丰度来决定。Bioinformatics, 2007-2008, Semester 1, USTCBioinformatic

16、s, 2007-2008, Semester 1, USTC碱基出现的频率碱基出现的频率r1. 假如:每个核苷酸位点上的替代是随机发生的,则A,T,C,G出现的频率应该大致相等;r2. 实际情况:DNA受到自然选择的压力,各个位点的碱基出现频率并不相等;r3. 需要解决的问题:|A. 每个位点上受到什么样的选择压力?|B. 各个位点的碱基频率反映了什么样的规律?r4. 表征/统计的方法:计算G+C的含量,并进行比较;Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC分子进化

17、的理论分子进化的理论r1. 阳性选择,适应性进化,达尔文进化:DNA分子显著出现非同义替代,改变编码蛋白质的氨基酸组成,并产生新的功能;r2. 阴性选择,净化选择:DNA分子的同义替代显著,较少改变蛋白质的氨基酸组成,其原来的功能高度保守;r3. 中性进化:同义替代与非同义替代比例相当,突变不好不坏,不改变或轻微改变蛋白质的功能。Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC同义替代同义替代 vs. 非同义替代非同义替代GCGGTTTGGGAGGCGGTCTGCGAC6

18、4个密码子,编码20个氨基酸GTTGTCGTAGTGCGTCGC脯氨酸P组氨酸H四倍简并二倍简并TGGTGC色氨酸W半胱氨酸C同义替代非同义替代Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC编码区编码区 vs. 非编码区非编码区r1. 编码区:DNA上编码功能性的基因的部分;r2. 非编码区:或称基因组序列,绝大部分无功能;r3. 选择压力:|A. 编码区:阳性选择 1%;中性进化:80%;阴性进化:19%;|B. 非编码区:100%的中性进化;Bioinformati

19、cs, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC编码区:密码子编码区:密码子r1. 对于同义的密码子,第一位少部分可以允许不同,例如,编码Ser的六个密码子:TCT, TCC, TCA, TCG, AGT, AGC;r2. 第二位必须相同;r3. 第三位绝大多数可以不同 - 近似随机;r4. 因此:|A. 第一位:阴性进化占大部分,中性进化占小部分;|B. 第二位:阴性进化;|C. 第三位:阴性进化占小部分,中性进化占大部分;Bioinformatics, 2007-2008, Semester

20、 1, USTCBioinformatics, 2007-2008, Semester 1, USTC编码区编码区 & 密码子密码子: 推论推论r1. 密码子第三位的碱基出现概率接近基因组序列的碱基频率;r2. 第二位的碱基出现频率与基因组序列的基建频率相差最大;Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC11个细菌基因组与密码子三个位置个细菌基因组与密码子三个位置上的上的GC含量的关系含量的关系细菌基因组的GC含量:25%75%Bioinformatics, 200

21、7-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC密码子偏好的应用及计算密码子偏好的应用及计算r1. 基本假设:在高表达的基因中,密码子的选择,更倾向于使用“优化”的同义密码子;r2. 推论1:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布;r3. 推论2:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表达量!r4. 推论3:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?Bioinformatics, 2007

22、-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCRSCUr1. 相对密码子使用频率(relative synonymous codon usage, RSCU);r2. 定义:观测到的某一同一密码子的使用次数,除以“期望”的该密码子出现次数。injijiijijXnXRSCU11编码第i个氨基酸的第j个密码子的观测值编码第i氨基酸的同义密码子的数目编码第i个氨基酸的第j个密码子的RSCU值Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 200

23、7-2008, Semester 1, USTC密码子:密码子:the relative adaptationr1. 编码第i个氨基酸的第j个同义密码子的“相对适应性”:r2. 即,该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值。maxmaxiijiijijXXRSCURSCUwBioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC大肠杆菌大肠杆菌 & 酵母酵母Bioinformatics, 2007-2008, Semester 1, USTCBioinforma

24、tics, 2007-2008, Semester 1, USTCCAI: codon Adaptation IndexmaxCAICAICAIobsLKkkobsRSCUCAI1LKkkRSCUCAI1maxmax其中,LLkkwCAI1另外,L为序列的长度Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC例:大肠杆菌的例:大肠杆菌的rpsUrrpsU包含70个codon,部分序列如下:Bioinformatics, 2007-2008, Semester 1, USTC

25、Bioinformatics, 2007-2008, Semester 1, USTC大肠杆菌和酵母:部分基因的大肠杆菌和酵母:部分基因的CAIBioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC异源基因:在其他物种中的异源基因:在其他物种中的CAIBioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTC第二节第二节 氨基酸序列的进化演变氨基酸序列的进化演变r1

26、. 分子进化的分析:基于氨基酸序列的分析早于DNA序列。r2. 优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA远为简单;r3. p距离:p-distance;r4. 泊松校正,d距离;r5. 距离;Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCP-distancer1. 另两条蛋白质序列之间的氨基酸差异数为nd,所有序列的氨基酸数目相同为n,则nnpdP距离不同物种的血红蛋白链中不同氨基酸的数目及比例。长度:140aa所有的插入/缺失都要删除!

27、Bioinformatics, 2007-2008, Semester 1, USTCBioinformatics, 2007-2008, Semester 1, USTCPC:泊松校正:泊松校正r 1. 序列差异的百分比(p)与分歧时间t的关系:t较短的时候,回复突变较少,两者大致成线性关系;当t较大时,回复突变增多,二者成非线性关系;r 2. 令r为某一位点每年的氨基酸替代率,并假设所有为点的r都相同:基本假设;r 3. 在时间t年之后,每个位点替代的平均数为:rt;给定一个位点,氨基酸替代数k(k=0,1,2,3,)的可能性遵循泊松分布,即r 4. 因此,某一位点氨基酸不变的概率为!)();(krtetkPkrtrtetP); 0(Bioinformatics, 2007-2008, Semester 1, USTCBioinforma

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论