




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学复习资料生物信息学先锋版 中译本 第二版 科学出版社打分政策:60% 期末考试(70%掌握内容、25% 熟悉内容、5% 理解内容)(请注意红体与黑体字)A: 生物信息学概述1. 生物信息学:生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。 数据库生物信息学主要由三大部分组成 算法与统计工具 分析与解释测序策略:逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用:生物信息学需要计
2、算机快速、可靠地执行重复任务的能力以及处理问题的能力。然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。生物信息学课程范围:使初学者理解生物信息学的基本原理,并获得相应的应用能力。具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析 。2. 生物信息学实例:数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, 序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign基因搜索Genscan, GenomeScan, Gen
3、eMark, GRAIL蛋白结构域分析与鉴定pfam, BLOCKS, ProDom, 基因调控元件的计算机模式识别 Gibbs Sampler, AlignACE, MEME蛋白折叠预测PredictProtein, SwissModeler生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站:(详细参考书本p9)NCBI (The National Center for Biotechnology Information)/EBI (The European Bioinformatic
4、s Institute)http:/www.ebi.ac.uk/The Canadian Bioinformatics Resourcehttp:/www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource)http:/expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank)/PDB/B: 数据采集一、DNA, RNA 和蛋白质测序1. DNA 测序原理:DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基
5、的嵌套DNA片段。共有4种反应,每种代表DNA 4个碱基中的一个,每个碱基分别带有不同的荧光标记。DNA片段通过聚丙烯酰胺凝胶电泳(PAGE)分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。 2. DNA 序列类型:DNA序列来源主要有3种方式。基因组DNA直接来自基因组,包括基因和基因外核酸序列,真核生物的基因组DNA包含内含子;cDNA由mRNA反转录而来,并且只对应于基因组中能表达的部分,它不包含内含子;最后,重组DNA来自实验室,包含克隆载体等人工DNA分子。 3. 基因组测序策略:一次读段(one read)只能用于短的DNA分子(约800bp)测序,所以大的DNA分子,如
6、基因组,必须首先将其打碎成片段。基因组测序可以分为两种方式:霰弹法测序(shot-gun sequencing)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,克隆重叠群测序(clone contig sequencing)包括亚克隆系统的产生及其测序。4. 序列质量控制:通过在DNA双链上进行多次读段完成高质量序列数据的测定。可使用如Phred等程序对最初的跟踪数据(trace data)进行碱基识别和质量判断。载体序列和重复的DNA片段被屏蔽后,使用Phrap程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工校对解决。5. 单遍(Single-pass
7、)测序:低质量的序列数据可以由单次读段产生(单遍测序,single-pass sequencing)。尽管不很准确,但单遍序列如ESTs和GSSs,可以以低廉的价格快速大量地产生。6. RNA 测序:大部分RNA序列可以从相应的DNA序列推断得到,但是需要用特殊的方法来识别被改变的核苷,这些方法包括:生化实验、核磁共振谱( NMR spectroscopy)、质谱 7. 蛋白质测序:目前,大部分蛋白质测序是通过质谱(MS)技术进行的,应用这一技术可以通过测量真空中离子的分子质量电荷比来计算精确的分子质量。软离子化方法可以对蛋白质这样的大分子进行质谱分析。通过比较经胰蛋白酶裂解而获得的多肽片段的
8、分子质量与从数据库中蛋白质的虚拟消化(virtual digest)预测而来的分子质量的异同推断序列。通过在碰撞室(collision cell)中产生的蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。二、蛋白质结构的确定1. X-ray 衍射晶体学:X衍射晶体学是一种通过精确定向的蛋白质晶体的X射线衍射模式来确定蛋白质结构的方法。这种方法中,X射线因晶体中原子的电子密度和空间方向的不同而发生散射,可用傅立叶变换的数学方法从衍射数据中重构电子密度图,以建立结构模型。 2. 核磁共振谱: NMR是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐
9、射可以在不同的磁状态间转换。吸收光谱的性质受原子类型及其周围化学性质影响,所以NMR spectroscopy可以区分不同的化学功能团。核磁共振谱也因空间上原子的接近而改变。NMR谱的分析可以重建原子的三维构型,产生一系列结构模型。这一技术只适合小的可溶性蛋白的分析。3. 其他方法:对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X射线纤维衍射、电子显微镜和CD光谱(circular dichroism spectroscopy) 。C:数据库内容、结构和注释一、文件格式1. 三种常用序列格式:常用核酸和蛋白序列格式:NBRF/PIR格式 文件名后缀为:.pir o或 .se
10、q FASTA格式 文件名后缀为:.fasta GDE格式 文件名后缀为 gde例:ID代码: 5H1B_CAVPO 序列登录号: O08892NBRF/PIR格式:>P1; 5HT1B_CAVPO Guinea pig serotonin receptor accession: O08892 MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT.FASTA格式:>5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPAVLGSQTGLPHANVS
11、APPNNCSAPSHIYQDSIALPWKVLLVVLLALIT.GDE格式:% 5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT.2. 比对序列文件:可用下述常用格式中任何一种: NBRF/PIR, FASTA,GDE多序列比对格式:MSF, PHYLIP and ALN3. 结构数据文件:结构数据用PDB格式的平面文件(flat files)来维护,这类文件包含:正交的原子坐标值(X, Y, Z轴);注释、说明和实验细
12、节。NOTE:1、ATOM行以字符计数,而不是以单词计数; 2、NMR文件没有分辨率REMARK行。二、已注释的序列数据库1. 初级序列数据库:保存raw sequence data, 并对每个条目做了进一步的注释: feature table-properties of seq.2. 辅助序列数据库:特别类型的序列数据. eg. ESTs, GSSs and unfinished genomic seq. data 3. 序列提交:Sequence(序列)Internet(互联网)NCBI/EMBL/DDBJ(数据库)4. SWISS-PROT 和 TrEMBL:SWISS-PROT: 收集
13、了确认的蛋白质序列及与结构、功能和所属蛋白质家族有关的注释信息 。TrEMBL: 翻译了初级核酸数据库中的编码序列。TrEMBL中各条目的注释不如SWISS-PROT中的条目那样详细。5. 数据库查询:Searching by Sequence similarityBLASTText-based SearchingEntrez or SRS accession numberaccession number:提供基因及其产物的唯一标示号 D: 生物数据检索一、通过 Entrez 和DBGET/LinkDB进行数据检索1. 访问分布数据:利用专业的数据检索工具 Entrez, DBGET 和 SR
14、S 进行数据库搜索2. Entrez:Entrez 可以用来搜索 NCBI 中集成的所有数据库包括 GenBank, OMIM 以及文献数据库 MEDLINE3. NCBI 和 Entrez:EntrezAll databases模式搜索,以文本是形式进行文本搜索:以单词或逻辑短语为关键词4. DBGET/LinkDBDBGET/ LinkDB : 日本京都大学和人类基因组中心联合开发的集成数据检索系统。它整合了20数据库并与KEGG相关联。LinDB: is a database of links, each of which is represented as a binary relat
15、ion in the form of: dbname1:identifier1 -> dbname2:identifier2 DBGET: has powerful capabilities to search against this graph object The molecular biology databases in the world can be retrieved uniformly by specifying the combination of the database name and the identifier: dbname:identifier Iden
16、tifier:organism:gene 三种搜索模式:bget, bfind, blink2、 使用 SRS 的数据检索1. 开源SRS:SRS 由欧洲生物信息研究所开发,其集成有80多个分子生物学数据库。SRS可下载和安装在本地计算机上使用。2. 使用 SRS :SRS 与 Entrez 和DBGET的数据分类的原理不同。SRS的使用包括选择一个或多个分组,在每一个选定的组中选择一个或多个现有的数据库。查询方式有两种: 标准模式、 扩展模式。3. 安装 SRS :SRS 可以通过脚本语言ICARUS编程来查询使用者自己的数据库。E: 通过序列相似性标准搜索序列数据库(重难点章节)一、以序列
17、相似性标准搜索序列数据库 1. 序列相似性搜索1.1. 序列相似性搜索:通过序列相似性来搜索数据库,我们可以找到与所查询序列相似的序列。可以用这些找到的序列信息来预测查询序列的结构或功能。依据相似性进行预测是生物信息学中强大而且广泛使用的方法,其根本依据是分子进化。当序列拥有个共同的祖先序列时,它们往往在序列、结构和生物学功能上具有相似性。这很可能是生物信息学上最重要的思想,因为它使得我们可以进行预测。1.2. 序列比对:任何一对DNA序列都有一定程度的相似。序列比对:是使相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。比对结果:以变化(突变)、插入或缺失(indels或空位)来显
18、示序列之间的差异,这些差异可以用进化术语来说明。1.3. 比对算法:动态规划算法(Dynamic programming algorithms)可以计算两条序列之间的最佳联配。两个变体:Smith-Waterman algorithm: local align.Needleman-Wunsch algorithm: global align.当序列不是全长关联时局部比对是有效的。例如仅在某些特定功能域相似的蛋白质序列,或仅在外显子区域关联的DNA序列等。Local alignment-BLAST1.4. 比对打分和空位罚分:用简单的比对打分来测量相同匹配残基的比例或数目。得从比对打分中扣去空位
19、罚分,以保证比对算法能得出有生物学意义的结果而没有太多的空位。Score: S = sum (si) + sum (xk)空位罚分可以根据预期的应用进行调整。有下述三种情况 :固定罚分: 与空位长度无关;比例罚分:与空位长度成比例; 放射罚分: 包括 gap opening 和 gap extension 两部分罚分Constant: x=u+vk, v=0Proportional: x=u+vk, u=0Affine: x=u+vk, u, v 0k is the number (length) of the linked gaps例:SEQ1: AATTGATTGCGCATTTAAAGGG
20、 SEQ2: AACTGA - - - CGCATCTTAAGGGK=3我们并不总是很清楚空位罚分常数u 和 v该采用什么值,这在某种程度上依赖于所比对的序列的性质。 Close sequence relationship: higher gap penaltiesDistant relationships: lower gap penalties1.5. 序列相似性测量:序列相似度可用比对算法、序列一致性百分率( percentage sequence identities )或更复杂的方法得出的分值来量化。SEQ1: AATTGATTGCGCATTTAAAGGGSEQ2: AACTGA -
21、 - - CGCATCTTAAGGGpercentage sequence identities: (16/22) ×100=73%Note:必须是在长的比对结果中找到的高比例一致,才有可能反映真正的生物学或进化关系。对DNA序列来说,比对序列并使序列一致性百分率(即percentage sequence identities )最大化是合乎情理的。但对蛋自序列而言,则应该更多地考虑组成序列的单体的属性。某些氨基酸之间的替代比其他氨基酸更频繁,所以,在蛋白序列比对算法中需要考虑这个因素。1.6. 相似性和同源性:任何序列之间均存在相似,但是仅当序列是从一个共同的祖先进化而来时,它们才
22、是同源的。同源序列常常具有相似的生物学功能, 但是基因复制的进化机制允许生物体有多余的基因拷贝。这些多余的基因拷贝于是自由地进化出新的功能,成为有不同功能的同源基因。直系同源(orthologs): 不同物种的两个同源基因有相同的功能,就称它们是直系同源; 旁系同源(paralogs): 当同一或不同物种的两个基因有不同的功能,就把它们称为是旁系同源.不同功能的同源基因的例子:溶解酶(lysozyme,一种酶)和-乳白蛋白(-lactalbumin,一种哺乳动物调节蛋白)。这些蛋白质有非常相似的序列,几乎已肯定是同源的,但却有极其不同的功能。2. 氨基酸替换矩阵(难点)2.1. 相同氨基酸数目
23、的最大化:比对蛋白质序列从而使相同的氨基酸数目(即percentage sequence identities)最大化。其中,每对匹配的相同氨基酸对比对分值的贡献是1,不一致的氨基酸对对比对分值的贡献是0。(如下图所示)这是对密切相关的序列进行比对的好方法,但这并不能揭示远亲之间的进化关系。2.2. 进化:因为要维持蛋白质结构和功能,所以编码蛋白质的序列的进化比基因组的大多数其他部分的进化更为缓慢。一个例外是快速进化也可能发生在新近复制基因的多余拷贝中。2.3. 允许的替换:进化中蛋白序列的变化往往包括相近属性氨基酸间的替代,因为这样才能保持蛋白质的结构稳定。比如:同一进化家族的蛋白质序列通常
24、表现为有相似物理化学性质的氨基酸间的替代。2.4. 替换打分矩阵:这些矩阵给进化中所有可能的氨基酸替换打分,分值越高,意味着替换的可能性越大。进行序列比对的动态规划算法可以采用从这些矩阵得到的分值来进行运算。E.g. BLOSUM62 and PAM250.PAM: Accepted Point Mutations(认可的点突变)PAM250: 表示矩阵的进化距离是每100个残基有250个氨基酸变化。PAMn: n值越小,表示进化距离越短。PAM250BLOSUM: blocks substitution matrixBLOSUM62: 用于构造矩阵的blocks的最小序列一致性百分数至少为
25、62%。更小数字的BLOSUM矩阵表示更长的进化距离(BLOSUM50所代表的进化距离要比BLOSUM62要长)。 Note: BLOSUM 矩阵通常比 PAM 好用。Blossum62Note: 一致氨基酸比对的分值也有差异,这反映了氨基酸在天然蛋白序列中的出现频率的不同。两个相同的非常见氨基酸的比对(如W和W)要比两个相同的常见氨基酸的比对更有可能反映一个进化上有意义的比对。因此,相同的非常见氨基酸的比对具有更高的分值。2.5. 意义:替换打分矩阵可以查找蛋白质序列间较远的亲缘关系。NOTE:蛋白序列比对比核酸序列比对更可能找到较远的亲缘关系。2.6. 可视化:点阵图(Dot plots)
26、-点阵图是使序列相似性可视化并找到重复片段的一一个非常好的方法。3. 数据库搜索: FASTA 和 BLAST:3.1. 数据库搜索:把查询序列与数据库中每条序列依次比对并返回最高分(最相似)序列,就能找到与查询序列相近的序列。这可以通过动态规划算法完成,但实际上常用的是更快的近似方法。3.2. 算法和软件:BLAST 和 FASTA 提供了非常快速的序列数据库搜索途径。与动态规划不同,它们并不能保证找到数据库里每条序列的最佳可能比对,但实际上这对性能的影响通常来说是最小的。它们最初通过搜索短的一致或接近一致匹配的字母(word)片段,然后再将这些片段延伸到更长的匹配。BLAST 和 FAST
27、A 都基于同样的假设,即高分值的比对结果可能含有短的一致或近似一致的序列片段(short stretches or words) 。(1)BLAST: W (word length); T (threshold score); 寻找长度为W比对得分 > T 的words 扩展这些 words 直到比对得分跌落到一定值, 产生大量 HSPs (high-scoring segment pairs) 通过动态规划比对好全部序列高打分区域, 得出最终比对结果及其分值。(2)FASTA: ktup; 寻找完全匹配的长度为ktup的 words 寻找含有高密度words 匹配的 ungapped
28、的序列比对 ; 将其组装成高分值的 gapped 的序列比对 通过动态规划比对好全部序列高打分区域,得出最终比对结果及其分值。3.3. 统计得分:相似度记分的p值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低p值表明重要的匹配,这些匹配可能会有真实生物学意义。相关的E值是至少与所识别的相似性记同样高分值的偶然事件的期望频率。 两序列间相似度的低p值对应于大数据库搜索的高E值。low phigh E 当E值很小的时候和p值很接近3.4. 敏感性和特异性:敏感性衡量数据库中真实生物序列关系的比例,该关系表现为击中项(hit)。特异性指的是对应于真实生物学关系的击中项的比例。这些测度
29、量化了数据库搜索策略的优良度。Sensitivity: Sn = ntp / (ntp + nfn ) Specificity: Sp = ntp / (ntp + nfp ) 注:(tp: true positive;fn: false negative;fp: false positive)改变E和p的默认值会导致这些互补的优良度测量方法之间的平衡。3.5. 数据库类型:数据库和查询序列可以是蛋白质或核苷酸序列,不同种类的序列和组合有不同的查询策略。一般来说,如果使用编码蛋白质的核苷酸数据库和或将查询序列翻译成蛋白质序列,搜索会更加敏感。3.6. 可行例子和现有程序:BLAST at th
30、e NCBI、FASTA at the EBI搜索许多一般用途的序列数据库。RESULTS: 按E value 排序NOTE: 必须检查有关序列的比对结果以发现序列间相似的区域。NCBI的BLAST网站:/BLAST/(建议自己动手操作以加深理解)4. 序列过滤:4.1. 非特异性的序列相似:一些类型的序列相似要比其他类型难揭示进化关系。Examples: 低组成复杂度区域间的相似,短的重复片段间的相似以及编码普通结构的蛋白序列(如卷曲螺旋)间的相似等。4.2. 相似性搜索:上述区域类型会降低相似性搜索结果的质量,所以在搜索前常常要将其从搜索
31、序列中过滤掉。SEG and DUST: detect and filter low complexity sequences;XNU: filter short period repeats;COILS: detect the presence of potential coiled coil structures.5. 数据库迭代搜索和PSI-BLAST5.1. 寻找进化关系:趋异进化可以使蛋白质序列变得无法识别,但却保持结构和功能的相似。而BLAST和FASTA此类方法有时只能发现数据库中的一小部分进化关系。有许多生物信息学搜索已经着重于发现序列间的疏远进化关系。5.2. 数据库的迭代搜
32、索:PSI-BLAST是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。每次迭代都发现一些中间序列,用来在接下去的迭代中寻找查询序列的更多疏远相关序列。PSI-BLAST常常可以找到比BLAST结果多达两倍的进化关系。PSI-BLAST的潜在问题是存在不相关序列对迭代结果的污染,而其难点则与蛋白质的结构域的结构有关。F: 多重序列比对: 基因和蛋白家族(实验四) 一、多序列比对和家族关系1.多序列比对:家族性蛋白质和核苷酸序列的内在关系可以用多序列比对来阐明。当所考察的序列不同时,保守的残基往往是维持稳定结构或生物学功能的关键残基。多序列比对可以揭示关于蛋白质结构和功能的许
33、多线索。与两序列比对相比,多序列比对更富含进化保守关系的信息,因此通常能告诉我们更多的信息。2.软件:最著名的是ClustalW 软件包,ftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalX.3.渐进比对:目前大多数程序使用渐进的比对方法,该方法有运行速度较快的优点。该法以两序列比对来初步评价序列的相关性,并在这个基础上构建向导树(guide tree);然后使用向导树逐步添加序列到比对中,从最密切相关的序列开始到距离最远的序列结束。渐进比对方法通常非常有效,但也存在一个问题,即比对过程中早期产生的比对错误不能被矫正而是被“冻结”在比对结果中。生物化学知识有时能够提
34、供正确的比对信息。当自动产生的比对结果不太理想时,就需要软件来人工编辑比对结果。 渐进比对过程中常用到几种精练方法。例如在Clustal程序包中,1)空位罚分发生变化以使空位插入更有可能发生在亲水的环状区域;2)根据比对序列的相关程度可以采用不同的氨基酸替换打分矩阵。二、蛋白家族和模式数据库1.蛋白家族:把序列分配到蛋白质家族中是预测蛋白质功能的一种非常有价值的方法。已开发出许多方法来代表蛋白质家族信息,这些方法存储在二级蛋白质家族数据库中。2.一致序列:是把多序列比对的信息压缩至单条序列。 主要的缺点是除了在特定位置最常见的残基(>60%)之外,它们不能表示任伺概率信息。一致序列的缺陷
35、:1)大量来自序列的不含一致残基的信息被忽略掉,即使这些位点包含所允许的保守替换。2)一致序列的产生说明了任何蛋白家族的表示是有偏向的,这主要是由于来源的序列集是有偏向的。3.数据库:1)PROSITE数据库:包含与蛋白质家族成员、特定蛋白功能及翻译后修饰有关的序列模式。数据库是人工编排的,任何已知的假阳性或假阴性都会报道出来。在PROSITE中, 特殊的符号,包括方括号(如LIVM)、波形括号(如FD)和x(n)用来表示模式中每个位点可供选择的残基。PROSITE 模式的特点:它们长度比序列全长短得多;它们允许特定位置的替换。因此,它们能够发现家族中的远亲关系,也能够帮助我们了解家族成员共有
36、的结构或功能信息。PROSITE 模式有很多缺点:首先,它们长度较短使得不相关序列中有假阳性的存在;其次,虽然它们允许描述特定位置的变化,但无法计算该变化的概率。2)PRINTS和BLOCKS:它们用来自序列最保守区域的多序列比对的无空位片段(blocks or motifs)来表示蛋白质家族。通过更多代表序列的信息,它们有可能比短PROSITE模式更为敏感。如果能匹配某特定家族相关motif的一个子集就意味着它们有发现剪接突变体、序列片段以及代表亚家族的能力。两者都已有基于WWW的数据库搜索引擎。 这些数据库中的motifs要比PROSITE模式覆盖更大的序列区域。与PROSITE不同,序列
37、中motifs的匹配通常要考虑氨基酸替换矩阵,因而对某一固定模式不要求严格的匹配。因此,这种匹配更为敏感(可以找到更多远亲关系)和更加特异(更少的假阳性出现)。三、蛋白结构域家族1.结构域家族:许多蛋白质是由结构域以模块化的方式构建的。因此蛋白质家族的研究其实是对蛋白质结构域家族的研究。Prodom是由自动方法产生的蛋白质结构域序列的数据库,这一数据库来自于蛋白质序列数据库。2.序列轮廓:又称为权重矩阵,它们表示完全的结构域序列,是一种描述蛋白结构域家族相关序列的方法。多序列比对中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法。序列轮廓可以被用作某些PROSITE数
38、据库条目中序列模式之外的替代方法。3.隐马尔可夫模型:这类模型是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。代表某蛋白结构域家族的模型从该家族中生成序列的概率较高,从其他家族中生成序列的概率较低。现在已有算法可以近似地得出从某特定家族模型中生成一条新的蛋白序列的概率,而且它们可以用来把新的蛋白序列归类到某一蛋白家族中。4.网上资源:Pfam和SMART可以被用于蛋白质结构域家族的分析。Interpro联合了PROSITE, PRINTS, Pfam, Prodom和SMART,从而形成了一个整合的资源。G
39、: 系统发育学(实验四)一、系统发育学、遗传分类学和存在论1.物种间的相似性和差异性可以被用来推断进化关系(系统发育学)。这是因为,如果两物种非常相似,它们可能拥有一个新近的共同祖先。确定生物体间进化关系的科学分支即系统发育学。三种方法:表现型分类法、遗传分类法 、进化分类法 系统发育分析:许多不同的特征能够用于系统发育的分析中,但是 核苷酸和蛋白质序列是最为常用的,因为它们为所有的生命形式所共有(允许研究关系密切或疏远的类别),而且可以客观地比较。序列间的相关性可以使用序列比对算法客观地量化。这即是生物信息学在系统发育学中所起的重要作用。序列系统发育分析背后的简单原理是:两条序列间相似度越高
40、,从一条序列变成另一条序列所需要的突变就越少,因而它们拥有的共同祖先就越近。然而,从这类分析得出的任何进化关系必须假定:所比较的序列存在不变的突变率并且没有差异选择。但是这些条件实际上很难达到。二、构建系统发育树1.系统发育树是一种显示进化关系的简单方法,物种由节点(nodes)表示,遗传路径由枝(links)来表示。系统发育树可以从相似度表( similarity tables )或距离表( distance tables )中构建而来。这些表显示了生物体中一套给定特征间的相似性,采用匹配的百分比(相似度表),或者差异的百分比(距离表)来表示。三种建树方法:距离矩阵法、最大简约法、最大似然法
41、2.建树软件:PAUP (phylogenetic analysis using parsimony)、PHYLIP (phylogenetic inference package)3.检验方法:一棵给定的树不一定能准确地代表进化历史。然而,数据的可靠性可以通过下述方法进行评估:1)如果不同方法构建树能得出同样的结果,这可很好证明该树是可信的。2) Bootstrapping和jack-knifing方法:重新取样并构建更多的树来评估。 三、大分子序列的进化1. DNA在进化过程中积累突变,导致了不同株系后代DNA、RNA和蛋白质序列的分歧。基于大分子序列间差异的系统发育树被称为分子系统发育。
42、由于内部突变率和选择压力的差异,不同大分子序列进化速率不同,使得对亲缘关系较近和较远的生物体都可以进行系统发育分析2.大分子序列的选择:对于密切相关的生物体,使用一种快速进化的分子如线粒体DNA 比较合适。对于有很大分歧的系统发育关系,则需要用高度保守的分子如核糖体RNA。注意不要选择不适当的大分子序列来解释明显的系统发育关系。H: 序列注释(实验三)一、基因组注释原理1.注释:这一术语是指从原始序列数据中获得有用的生物学信息。这主要是指在基因组.DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能信息(功能注释)。 由于基因结构和基因组组织的不同,原核生物和真核生物的基因组注释涉
43、及不同的问题。2.用计算机寻找基因:可以用计算机来预测基因组DNA上基因的位置。这可以通过信号自动检测寻找保守的模体(motif)、内容自动检测(寻找序列背景类似基因的区域)和同源性搜索(寻找与以前已发现的基因序列相匹配的区域)等方法的组合来完成。然而,没有一种基因查找的方法是100%可靠的。 Signals 是不连续的局部序列模体,如启动子,剪切供体和受体位点,起始和终止密码子,以及polyA尾位点。Contents 是不同长度的扩展序列,如编码区、CpG岛 (CpG island )等。Homologies 是已知基因之间的匹配,如代表基因的表达序列标签(ESTs)序列等。3.检测 ORF
44、s(可读框):ORF: 一段较长(>300bp) 的位于 起始密码子 (usually, ATG) 和 终止密码子 (无义密码子, TGA, TAG or TAA)之间的有义密码子序列,在细菌基因组中,基因很少有内含子的中断。因此,检测基因的有效途径是对基因组序列进行六个可读框的翻译并识别长的可读框(ORF)。4.检测 Exons 和 Introns在高等真核生物基因组中,基因呈分散状分布,并被大量的长内含子所中断。外显子太短,从而不能仅仅通过ORF搜索来发现,所以需要采用包括外显子检测和内容自动检测、剪切信号的识别这种组合方法,并结合cDNA序列等辅助信息来构建全长基因的模型。二、注释
45、工具和资源1.基因预测软件基因预测程序使用从头算预测 (ab initio methods) and/or 同源搜索(homology searches) 来识别基因组 DNA中的基因。NCBI ORF finder 通过执行六个可读框的翻译来识别 ORFs。 对于复杂的真核生物基因组,则需要更复杂的统计分析方法。2.测量预测准确性:没有一个基因查找程序是100%精确的,所以较好的方法是使用几个程序来注释相同的基因组序列。预测精度用敏感性(能正确预测真正的基因或外显子)和特异性(能正确排除假基因或假外显子)来衡量。3.注释流水线:处理从基因组计划中产生的大量数据的唯一途径是使用连续的流水线-注
46、释流水线 “飞速”注释。I: 结构生物信息学(实验六)一、蛋白结构的概念模型1.结构类型和概念模型三种不同的蛋白结构类型:纤维蛋白(如胶原质);球状蛋白,它往往存在于如细胞质和细胞外液等水性溶剂中;内在膜蛋白,它存在于生物膜的脂质环境当中。2.球状蛋白中,线性氨基酸多聚体折叠成球状的紧凑形状从而形成一种三维结构。球状蛋白在水性溶剂中往往是可溶的,其折叠受疏水效应控制,疏水效应使疏水氨基酸侧链朝向蛋白质的结构核心,远离溶剂。3. 内在膜蛋白是生物信号和跨膜运输系统的关键元件。这些蛋白存在于生物脂质膜中,遵循与球状蛋白不同的结构原则。 它们包含与跨膜片段(常常但不总是螺旋)有关的多条普通的疏水氨基
47、酸链,并由膜外水性环境中的更多亲水回环连接。4.二、三、四级结构概念:1)球蛋白通常包含规则的二级结构的元件,如-helices (H) 和 -strands (E or B). -helices 由每个氨基酸的主链上的 CO功能团和氨基酸沿着螺旋的四个残基上的H-N功能团之间的氢键来稳定。 -strands由主链上的残基与多肽其他部分形成的链中的残基连接形成的。这意味着单一链不能孤立地存在,它在空间上总是与至少另一条链相邻。这种由连续的、空间上相邻的、以氢键相连的链形成的扭,曲的折叠结构被称为折叠片。2)三级结构是单一多肽链的完全三维原子结构。它可以被看作是二级结构元件的组合,二级元件之间由
48、主要存在于蛋白质表面的不规则回环(C,coils)连接。3)几种三级结构可以组装起来形成生物学功能上的四级结构。5.结构域:自然界通过组合独立的组件单元或通常具有较简单功能的结构域创造了具有复杂功能的蛋白质。许多蛋白质含有大量的结构域,这些结构域往往是混合类型的,如混合的内在膜和球结构域。6.进化:球状蛋白中的环的表面残基要比疏水核心中的残基进化更快。内在膜蛋白中,进化最慢的是那些在跨膜结构域中的残基。 二、蛋白质三维结构与其功能的关系:蛋白质依赖于其三维结构的形状和关键功能域的性质来执行生物功能。蛋白质结构的知识对于理解蛋白质功能是关键的,这也是其在生物信息学中有很大重要性的一个原因。三、蛋
49、白质结构和功能的进化(关系)1.结构和功能约束:进化接受蛋白质中氨基酸残基发生的对蛋白质结构稳定或蛋白功能来说中性或有利的变化。出于结构或功能的需要,残基可以被保留下来。当氨基酸残基能独特地实现特定的结构作用时,它们能被保留。这种情况常常出现在 cysteine, glycine and proline.2.多序列比对:理解结构怎样进化有助于我们理解多序列比对。关键的结构和功能残基常常是保守的。插入和缺失主要出现在亲水的表面回环中,而不是规则的二级结构元件中。这个效应可以在多序列比对中观察到,比对结果往往是由对应于二级结构元件的较保守残基和来自表面回环的不保守残基交替组成的。3.整体蛋白质折叠
50、的进化:如果两条自然出现的蛋白质序列可以比对,并且80个以上的残基的比对显示出25%以上的相似度,那么它们将共有同样的基本结构。Sander and Schneiders rule:t (L) = 290.15L-0.562(其中L指的是比对的长度,t指保证结构相似所需的一致度百分比阈值。)4.结构的保留:蛋白质结构往往被保留,甚至由于进化使序列改变到不能被识别时结构仍被保留。所以结构知识是理解蛋白质进化的个关键因素。5.功能的进化:虽然结构往往被进化保留下来,功能却会发生变化。有许多蛋白质,其序列和结构非常相似,但功能却不相同。当功能发生变化,关键的功能残基也变化了,多序列比对常常能清楚地显
51、示出这一点。四、结构数据的获取、展示和分析1.获取数据:通用搜索引擎: SRS and NCBI专业搜索引擎:RSCB: /pdb2.结构的可视化:常用的观察结构数据的程序:RasMol; TOPS: http:/www.tops.leeds.ac.uk3.结构和功能位点的分析PDBSum: 包含了清晰的结构数据摘要和对结构数据库每一条目的分析,这些条目都可以通过访问号来访问,其提供的信息包括二级结构、二硫键位置、配体结合位点、活性位点、关键残基、分子间相互作用图、折叠拓扑以及酶的EC号等信息。SURFNET: 该软件能够帮助确定蛋白表面潜在的功能位点,特别
52、是酶的活性位点。然后考虑这些位点的结构能揭示该新结构的何种可能功能。预测蛋白表面任何潜在位点的实际功能仍是目前生物信息学研究的一个前沿课题。五、结构比对1.要在关系非常疏远的蛋白序列之间找到正确的、有生物学意义的比对是很难的,因为它们只含有极少比例的相同残基。但在这种情况下,结构信息能帮上忙,因为进化往往尽量少地改变结构。叠加相似结构的骨架以发现相同结构残基的过程被称为结构比对。2.软件:DALI: http:/www.ebi.ac.uk/dali3.结构相似性:结构比对方法通常会创建衡量结构相似度的尺度。最常见的衡量尺度是RMSD(root mean square difference),许
53、多程序都用这个标准,它是指最佳结构重叠中比对残基的碳原子间位置的均方差。RMSD = sum(di2)/N0.54.结构相似性搜索:我们常常需要搜索序列数据库以查询某一序列的相似序列,同样,有时我们也需要搜索结构数据库以查询与某一结构相似的结构,这也是很有意义的。Web-based search engines:DALI; SSAP;TOPS;VAST and RCSB六、已知三维结构的蛋白分类: CATH 和 SCOP1.为什么要将蛋白质进行结构分类? 蛋白质结构在进化中要比蛋白质序列保守得多。因此,根据结构的标准对蛋白质进行分类是把蛋白质划分为各种家族的最有效的方法,可以揭示远距离的进化关
54、系。蛋白质结构分类的方法主要依据序列比较方法和结构比较方法。2.折叠或拓扑:所有的分类都是将具有同样的整体折叠或拓扑的蛋白归为一类。具有同样的折叠或拓扑类型的蛋白质或多或少地都含有同样的SSEs(secondary structure elements),以同样的方式相连接并位于同样的相对空间位置。CATH (拓扑)和SCOP折叠水平把蛋白质分成具有相同总体折叠的组。3.同源体与相似体:Homologs (homologous proteins) 是从某一共同祖先趋异进化而来的蛋白,它们相互关联,并具有同样的折叠。 Analogs (analogous proteins) 有同样的折叠,但关于
55、共同祖先的其他证据却不充分。4. Super-folds (超折叠)是指在进化中可能不止出现一次的蛋白质折叠。普遍认为它们具有物理化学性质上的某种优势,在SCOP与CATH中它们以含有几个同源超家族的折叠或拓扑的形式存在。比如TIM桶和免疫球蛋白的折叠。七、蛋白质结构预测简介1.原因:结构预测是有意义的,因为通过实验来确定结构仍然要比通过实验确定序列慢得多。结构预测帮助我们理解蛋白质的功能和作用机制,对合理的药物设计也是很有意义的。Levinthal和Anfinsen的早期工作使得结构预测成了又一个极有发展潜力的科学领。2.什么是结构预测:一般说来,结构预测是指仅依据蛋白序列的信息来预测蛋白质
56、每个原子在三维空间中的相对位置。结构预测方法包括:比较建模法(comparative modeling), 折叠识别法(fold recognition), 二级结构预测法(secondary structure prediction), 从头预测法(ab initio prediction) 以及跨膜片段预测法( transmembrane segment prediction)。按理论基础可分为: ab initio prediction: 尝试计算并最小化自由能,或得出一个合适的近似最小值的方法。knowledge-based prediction: 尝试使用已知结构数据库中的信息来预测蛋白质结构。 (comparative modeling, fold recognition).Blind testing: CASP (Critical Assessment of Structure Prediction)八、通过比较建模预测结构(建模步骤)1.理论基础
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔护理专家面试必 备:护士牙医面试题及答案详解
- 迎新会面试题目及答案:求职路上如何保持积极心态
- 传统文化与现代春节活动融合面试题
- IT行业招聘面试:软件开发、网络工程师岗位面试题库
- 销售经理招聘面试题及答案
- 会计行业面试实战经验:常见面试题及答案
- 求职路上心路历程:如何解读面试题目提升自我精神状态
- 接触网临时支柱课件
- 接待礼仪烘焙培训课件
- 农村岗位招聘面试题及答案解析
- 机场旅客医疗救援应急预案
- 2025-2030中国音箱塑胶外壳市场营销格局与未来前景投资风险评估研究报告
- 电缆组管理制度
- 计算机基础知识教学培训课件
- 工程款保障措施
- 2025年一建《铁路工程管理与实务》考前必刷必练题库500题(含真题、重点题)
- 2025届湖北省荆门市钟祥市重点中学小升初数学入学考试卷含解析
- DB32∕T 2452-2013 刺参浮筏吊养技术规范
- 放射科护理服务规范礼仪课件
- 充电桩安装与使用管理制度
- 乡村天然气管道铺设合同
评论
0/150
提交评论