序列分析的原理和方法+结构的预测+全序列分析和进化分析.ppt_第1页
序列分析的原理和方法+结构的预测+全序列分析和进化分析.ppt_第2页
序列分析的原理和方法+结构的预测+全序列分析和进化分析.ppt_第3页
序列分析的原理和方法+结构的预测+全序列分析和进化分析.ppt_第4页
序列分析的原理和方法+结构的预测+全序列分析和进化分析.ppt_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第三章序列分析的基本原理,序列分析的基本原理就其本质,主要来源于:几种主要的记分法和几种基本算法,(一)几种主要记分法,所谓记分法(scoringmethod)是将被分析的序列中的元素通过某种手段转化为简单的、直观的、便于计算机处理的数值的方法。生物信息学将被分析的序列中的氨基酸或核苷酸称为“元素”。记分法主要有如下几种:,1.性质矩阵法,用能体现元素特征的理化性质来描述序列中出现的特定元素。,具有某种性质的元素记为1,不具此性质的记为0。,元素特征的理化性质有:,疏水性,极性,带电性,芳香性,分子大小,2.遗传密码矩阵,3.结构遗传矩阵,4.突变数值矩阵,5.氨基酸替换矩阵,(二)几种主要算法,生物信息学中的算法(algorithm)指的是根据上述记分法或者元素本身的特征以及在序列或结构中的分布规律而推导出来的能反映被检序列生物学意义的数学方法。,1.动态程序算法,动态程序算法是现代序列分析的发展基础。,动态程序算法(dynamicprogrammingalgorithm)起始于1970年。,现在普遍使用的用于同源性搜索和序列分析起步搜索的软件都是以动态程序算法为基础,加以适当的改进而建立起来的。,该算法开始多用于双重序列分析,包括全序列对齐(globalsequencealignment)和局部序列对齐(localsequencealignment)。,其基本原理是两序列的最大匹配依赖于序列的相似性,即一种序列中的元素与另一种序列相应位置的元素相同的最大数目。,请指出下面两个序列的保守部分:,由于是双重序列对比,所以采用2-D列阵法,将对比的两个序列分别置于相互垂直的两个轴。,对应位置的两个元素相同则在列阵中对应点记分1,不相同记为0。,1CAGCCUCGCUUAG2AAUGCCAUUGACGG,GCCUCGGCCAUUG,GCCUCGGCCAUUG,2.点矩阵作图法,点矩阵作图法(dotmatrix)也称图式矩阵(graphicmatrix)法。在矩阵中用点“.”和空位代替动态程序算法中的数字1,0。两条对比的序列中对应的元素相同打点,不相同作空白。,两条序列比较,若完全相同,形成的点组成一条对角线;,若部分相同,形成的点可连成一条或几条与对角线平行的线段;,若不相同,形成的点呈不规则散布;,序列内存在回文结构,对应的点形成的线段则垂直于主对角线;,TTAAGCTTATTAAGCTTA,CGTTAAGCTTATTAAGCTTAGC,用点矩阵作图法写出下面序列的alignment:,CGTTAAGCTTATTAAGCTTAGC,CGTTAAGCTTA-TTAAGCTTAGC,TCATTCGCTTAATTCGCTTACT,用点矩阵作图法分析:,TCATTCGCTTAATTCGCTTACT,回文结构,为了排除不规则散布的点对有意义点模式的干扰,该方法增加了一过滤程序以滤去散杂点,强化有意义的点。,过滤程序(filtrationprocedure),此外,该方法为了增加矩阵的容量,将一很大的点矩阵压缩成一个单面,并用彩色增加效果,一次能分析两条各5000个元素的序列。,3.最大期望值算法,最大期望值算法(expectationmaximizationalgorithm)简称EM法。,该方法是从多重序列对齐中反复分析找出体现序列特性的最优模型。,可用于:,蛋白质序列分析;,DNA特殊序列的搜寻;,调节蛋白作用位点的分析,Gibbs抽样法(Gibbssampling)是一种改进的最大期望值算法。,4.权值矩阵法,上述方法给出了反映序列特征的最优模式。然而模式中元素对反映序列特征的贡献是平均化的。,事实上,蛋白质、酶以及核酸的活性部位中元素的作用是有差异的,因此,包含在反映序列特性的模式中的各元素除了出现的频率外,还应有能反映贡献差异的数学模式。权值矩阵法(Weightmatrix)在这方面有所侧重。,然后,在以权值矩阵法为基础建立的程序反复分析,得到的Motifs能反映序列生物学本质。,综上所述,我们可以看到,用于相似性分析的各种记分法、动态程序算法、点矩阵法是序列分析的基础;,由此建立的软件BLAST等扫描数据库得到的相似性序列集合(alignment),该相似性序列显著性意义可能不大;,经过Gibbs抽样法、EM法等反复抽样分析得到Blocks,包含在Blocks的序列已经具有显著性意义;,权值矩阵法,由此我们得到一个从无规则排列的蛋白质、核酸序列中建立Blocks和Motifs的流程图:,Alignment-Block-Motifs,丝氨酸蛋白酶在自然界分布广泛,具有重要的生物学功能。早在70年代末,His-57、Asp-102和Ser-195作为酶的催化活性中心已经被证明,已被大家所公认。His-57-Asp-102-Ser-195(H-D-S)高等生物至低等生物其丝氨酸蛋白酶均具有类似的功能和结构。将这些物种的相应蛋白序列利用生物信息学上述方法进行分析,得到下图。,AlignmentBlockMotifs#,H-D-C/S,既然病毒的这些蛋白质包含有体现丝氨酸蛋白酶催化活性Motif:H-D-S我们可以推测病毒的这些蛋白质也具有丝氨酸蛋白酶活性.,生物信息学Blocks和Motifs方法在病毒研究中的应用.武汉大学学报,2000,46(6):709-716,(三)DNA或RNA序列分析,以软件MACAW为例,Reference1:ProceedingsoftheNationalAcademyofSciencesUSA87,2264-2268(1990)MethodsforAssessingtheStatisticalSignificanceofMolecularSequenceFeaturesbyUsingGeneralScoringSchemes,Reference2:Science262,208-214(1993)DetectingSubtleSequenceSignals:AGibbsSamplingStrategyforMultipleAlignment,MACAW:MultipleAlignmentConstruction&AnalysisWorkbench,整理序列,FASTAformat,Nucleotide,KeyWords(NS5B),NS5B,NS5B,Display,Sendto,Display,Sendto,Default,FASTA,Display,Sendto,FASTA,Display,Sendto,Display,Sendto,FASTA,FASTA,File,Text,Display,Sendto,FASTA,Text,Sendto,Display,文件,另存为,NS5B-1.txt,整理序列,FASTAformat,2)项目开始,AlignmentSummaryInformation,Title:,Sequencetype:,Score:,NS5B,RNA,Nucleotide,OK,3)输入序列,修改,Open-Copy,Import,Open-Copy,整理序列,FASTAformat,2)项目开始,FileMenu-NewProject,3)输入序列,SequenceMenu-Import,BVDVNS5BCSFVNS5BHCVNS5B,4)选择范围,通过Mouse选择范围,通过EditMenu选择范围,SelectAll,整理序列,FASTAformat,2)项目开始,FileMenu-NewProject,3)输入序列,SequenceMenu-Import,4)选择范围,EditMenu-SelectAll,5)搜寻Blocks,Alignmentmenu-SearchForBlocks,对话框SearchForBlocks显示,SearchForBlocks,Begin,SegmentPairOverlapGibbsSamplerRegularExpression,SearchMethod:,SearchResults,View/Edit,Link,Unlink,Keep,Help,4Blocks,Keep+,m:序列数量,len:碱基数量,Info.:重要性,View/Edit:显示和编辑Blocks,link:Alignment-Block,SearchResults,View/Edit,Link,Unlink,Keep,Help,Significant?Yes:significantMaybe:possiblysignificantNo:notsignificant,BVDVNS5BCSFVNS5BHCVNS5B,整理序列,FASTAformat,2)项目开始,FileMenu-NewProject,3)输入序列,SequenceMenu-Import,4)选择范围,EditMenu-SelectAll,5)搜寻Blocks,Alignment-SearchFor,6)保存项目,Filemenu-saveproject,Filename:NS5B,NS5B.MCW,整理序列,FASTAformat,2)项目开始,FileMenu-NewProject,3)输入序列,SequenceMenu-Import,4)选择范围,EditMenu-SelectAll,5)搜寻Blocks,Alignment-SearchFor,6)保存项目,Filemenu-saveproject,7)转换成文本文件,Filemenu-export,Filename:NS5B,NS5B.txt,Open,NS5B.txt,BVDVNS5BCSFVNS5BHCVNS5B,BVDVNS5BCSFVNS5BHCVNS5B,BVDVNS5BCSFVNS5BHCVNS5B,整理序列,FASTAformat,2)项目开始,FileMenu-NewProject,3)输入序列,SequenceMenu-Import,4)选择范围,EditMenu-SelectAll,5)搜寻Blocks,Alignment-SearchFor,6)保存项目,Filemenu-saveproject,7)转换成文本文件,Filemenu-export,核酸序列分析步骤,MACAW,(四)蛋白质序列分析,以软件MACAW为例,NS5B,整理序列,AlignmentSummaryInformation,Title:,Sequencetype:,Score:,NS5B,Protein,BLOSUM-62,2)项目开始,FileMenu-NewProject,对话框AlignmentSummaryInformation显示,3)输入序列,4)选择范围,5)搜寻Blocks,6)保存项目,7)转换成文本文件,另外,ClustalX也是多重序列对齐分析的常用软件。,第四章结构的预测,核苷酸和氨基酸序列只有形成了三级或四级结构才能表现功能。了解病毒蛋白质和核酸高级结构是非常重要的,它有助于疫苗的研制、抗病毒药物的筛选以及药物的分子设计。,目前对大分子空间结构测定的方法一般是用X光衍射核磁共振(NMR)这些方法能较精确地测定大分子的高级结构。著名的蛋白质和核酸三维结构数据库PDB(http:)专门收集通过X光衍射和NMR确定了结构的蛋白质和核酸。,X光衍射需要高纯度的结晶,周期要求长;NMR也只能测定较小的蛋白质分子的结构。仅靠X光衍射和NMR远远跟不上序列测定的速度。,不了解空间结构,就很难确定大分子的功能,更谈不上作用机理的阐明。因此,随着计算机科学的发展,人们开始着手高级结构预测的研究。,一,同源建模(homologymodeling),所谓同源建模就是选择行使同一功能、同源性较高的且空间结构已被X光衍射或NMR确定了的蛋白质或核酸作为参考模板,从而构建序列三级结构模型的方法。,一般分如下几个步骤:1).选定参考模板2).一级结构、二级结构对比分析3).三维结构模型构建4).模型精炼5).模型评估,二,折叠法,蛋白质折叠RNA折叠,许多小的折叠类型的结构已经清楚。,整个蛋白质或RNA分子,分解成,小的折叠类型,相应的结构类型,寻找到,整体结构,合并,三,RNA二级结构预测的实例,RNAstructure3.5,References:JournalofMolecularBiology,288,911-940,(1999).RNA,3,1-16,(1997).,预测的步骤,转化序列,sequence(小写字母),SEQUENCE(大写字母),预测的步骤,转化序列输入序列,OPEN,Filemenu-Newsequence,Title,Comment,Sequence,CSFV3UTR,singlepositive-strandRNA,Format,FoldRNA,EnterSequence,GCATGGTTGGCCCTTGATCGGGCCCTATCAGTAGAACCCTATTGTAAATAA12120CATTAACTTATTAATTATTTAGATACTATTATTTATTTATTTATTTATTTATTGAATGAG12180CAAGTACTGGTACAAACTACCTCATGTTACCACACTACACTCATTTTAACAGCACTTTAG12240CTGGAGGGAAAACCCTGACGTCCACAGTTGGACTAAGGTAATTTCCTAACGGCCCCC,预测的步骤,转化序列输入序列整理序列,Title,Comment,Sequence,CSFV3UTR,singlepositive-strandRNA,Format,FoldRNA,EnterSequence,GCATGGTTGGCCCTTGATCGGGCCCTATCAGTAGAACCCTATTGTAAATAA12120CATTAACTTATTAATTATTTAGATACTATTATTTATTTATTTATTTATTTATTGAATGAG12180CAAGTACTGGTACAAACTACCTCATGTTACCACACTACACTCATTTTAACAGCACTTTAG12240CTGGAGGGAAAACCCTGACGTCCACAGTTGGACTAAGGTAATTTCCTAACGGCCCCC,GCATGGTTGGCCCTTGATCGGGCCCTATCAGTAGAACCCTATTGTAAATAACATTAACTTATTAATTATTTAGATACTATTATTTATTTATTTATTTATTTATTGAATGAGCAAGTACTGGTACAAACTACCTCATGTTACCACACTACACTCATTTTAACAGCACTTTAGCTGGAGGGAAAACCCTGACGTCCACAGTTGGACTAAGGTAATTTCCTAACGGCCCCC,预测的步骤,转化序列输入序列整理序列保存序列,Title,Comment,Sequence,CSFV3UTR,singlepositive-strandRNA,Format,FoldRNA,EnterSequence,GCATGGTTGGCCCTTGATCGGGCCCTATCAGTAGAACCCTATTGTAAATAA12120CATTAACTTATTAATTATTTAGATACTATTATTTATTTATTTATTTATTTATTGAATGAG12180CAAGTACTGGTACAAACTACCTCATGTTACCACACTACACTCATTTTAACAGCACTTTAG12240CTGGAGGGAAAACCCTGACGTCCACAGTTGGACTAAGGTAATTTCCTAACGGCCCCC,GCATGGTTGGCCCTTGATCGGGCCCTATCAGTAGAACCCTATTGTAAATAACATTAACTTATTAATTATTTAGATACTATTATTTATTTATTTATTTATTTATTGAATGAGCAAGTACTGGTACAAACTACCTCATGTTACCACACTACACTCATTTTAACAGCACTTTAGCTGGAGGGAAAACCCTGACGTCCACAGTTGGACTAAGGTAATTTCCTAACGGCCCCC,File,Save,预测的步骤,转化序列输入序列整理序列保存序列折叠序列,Title,Comment,Sequence,CSFV3UTR,singlepositive-strandRNA,Format,FoldRNA,EnterSequence,GCATGGTTGGCCCTTGATCGGGCCCTATCAGTAGAACCCTATTGTAAATAACATTAACTTATTAATTATTTAGATACTATTATTTATTTATTTATTTATTTATTGAATGAGCAAGTACTGGTACAAACTACCTCATGTTACCACACTACACTCATTTTAACAGCACTTTAGCTGGAGGGAAAACCCTGACGTCCACAGTTGGACTAAGGTAATTTCCTAACGGCCCCC,Start,RNAfoldingiscomplete.,Exit,DrawStructures,茎环结构,单链区,环,茎,预测的步骤,转化序列输入序列整理序列保存序列折叠序列输出结构,复制到,EditMenu-Copy,四,蛋白质二级结构预测的实例,蛋白质二级结构的类型:,-螺旋(-helix,H)-折叠(-sheet,EorS)-转角(-turn,T)无规卷曲(coil,C),蛋白序列分析软件包,操作步骤,1.下载序列,HCVNS5B,RNAdependentRNApolymerase,RNA-directedRNApolymerase,2014-3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论