研究生序列对比和数据库搜索_第1页
研究生序列对比和数据库搜索_第2页
研究生序列对比和数据库搜索_第3页
研究生序列对比和数据库搜索_第4页
研究生序列对比和数据库搜索_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ll第一节第一节概述概述 l在生物学的研究中,有一个最常用和最经典的研究手段,就是通过比较分析获取有用的信息和知识。通过将研究对象相互比较来寻找对象可能具备的特性。我们从核酸以及氨基酸的一级结构层次分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是序列对比,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。 l进一步的对比是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和图谱,分析产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸

2、序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质空间结构的信息。 第二节第二节序列对比和数据库搜索序列对比和数据库搜索ll我们都很清楚,生物物种之间存在进化关系,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的比较分析,只不过更加精细,更加详尽,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失以及序列重组等遗传变异过程分别演化而来。值得注意的是序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。 gb|AAA419

3、76.1|gb|AAA41976.1| (M27883) pancreatic secretory trypsin (M27883) pancreatic secretory trypsin inhibitor type II inhibitor type II precursorprecursor Rattus norvegicus Rattus norvegicus Length = 79 Length = 79 Score = 109 bits (272), Expect = 6e-24 Score = 109 bits (272), Expect = 6e-24 Identities

4、= 53/79 (67%), Positives = 61/79 (77%) Identities = 53/79 (67%), Positives = 61/79 (77%) Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60 MKV IFLLSALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+L MKV IFLL

5、SALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+LSbjctSbjct: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60Query: 61 CFENRKRQTSILIQKSGPC 79Query: 61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+ G C CFENRK TSI IQ+ G CSbjct

6、Sbjct: 61 CFENRKFGTSIRIQRRGLC 79: 61 CFENRKFGTSIRIQRRGLC 79图3.1 对人和褐家鼠pancreatic secretory trypsin inhibitor蛋白序列作对比,能形成二硫键的半胱氨酸残基极为保守。 l在残基-残基对比中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图3.1所示,处于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,

7、另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。 l当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,系列对比仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。 l例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要

8、的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。 l通过大量实验和序列对比的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。必须指出的是,理论分析只提供了序列进化的可能性,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。 l早期的序列对比是全局的序列比较,但早期的序列对比是全局的序列比较,但由于蛋白质具有的模块性质,可能由于由于蛋白质具有的模块性质

9、,可能由于外显子的交换而产生新蛋白质,因此局外显子的交换而产生新蛋白质,因此局部对比会更加合理。通常用打分矩阵描部对比会更加合理。通常用打分矩阵描述序列两两对比,两条序列分别作为矩述序列两两对比,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个基的相似性分数,分数越高则说明两个残基越相似。残基越相似。l序列对比问题变成在矩阵里寻找最佳对比路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用动态规划算法进行序列

10、对比的工具LALIGN,它能给出多个不相互交叉的最佳对比结果。 l在进行序列两两对比时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的对比方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。 l因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高对比的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有PAM和BLOSUM等,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90

11、、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30矩阵。 l空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特色。一般的处理方法是用两个罚分值,一个对插入的第一个空位罚分,如1015;另一个对空位的延伸罚分,如12。对于具体的对比问题,采用不同的罚分方法会取得不同的效果。 l对于对比计算产生的分值,到底多大才能说明两个序列是同源的,对此有统计学方法加以说明,主要的思想是把具有相同长度的随机序

12、列进行对比,把分值与最初的对比分值相比,看看对比结果是否具有显著性。相关的参数E代表随机对比分值不低于实际对比分值的概率。对于严格的对比,E值必须低于一定阈值才能说明对比的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高对比得分的可能。 lGenbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两对比为基础的。不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。 lFASTA是第一个被广泛应用的序列对比和搜索工具包,包含若干个独立的程序。FASTA为了提高序列搜索的速度,会先建立序列片段的“

13、字典”,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳对比结果,以及这个对比的统计学显著性评估E值。FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。 lBLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。用户输入网址:/blast就可以进入BLAST网页。 l一、BLAST搜索主界面l如图3.2;3.3,最新版本为BLAST 2.2.18 ,其子集BLASTP

14、可达2.2.1。今年作了较大的更新,具体功能包括: l组合基因组检索;l分为标准的核酸与核酸数据库搜索;lMEGABLAST提供大量长序列的比较;l完全匹配的短序列搜索;l特殊搜索。 l分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系的存在与否和进一步获取这个蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索。 l包括blastx,tblastn,tblastx 程序程序数据库数据库查查询询简简述述blastp蛋白质蛋白质氨基酸序列氨基酸序列可能找到具有远源进化关系的匹配序可能找到具有远源进化关系的匹配序列列

15、blastn核苷酸核苷酸核苷酸序列核苷酸序列适合寻找分值较高的匹配,不适合远适合寻找分值较高的匹配,不适合远源关系源关系blastx蛋白质蛋白质核苷酸序列所有核苷酸序列所有阅读框架的翻译阅读框架的翻译产物产物适合新适合新DNA序列和序列和EST序列的分析,序列的分析,能够发现未知核酸序列潜在的翻译产能够发现未知核酸序列潜在的翻译产物物tblastn所有阅读框架所有阅读框架动态翻译的核动态翻译的核苷酸序列苷酸序列蛋白质序列蛋白质序列适合寻找数据库中尚未标注的编码区适合寻找数据库中尚未标注的编码区tblastx核苷酸序列核苷酸序列6个阅读框架的个阅读框架的翻译产物翻译产物核苷酸序列核苷酸序列6个个

16、阅读框架的翻译阅读框架的翻译产物产物适合分析适合分析EST序列,序列,l4、保守区域的搜索:主要使用RPS-BLAST程序完成。l5、配对序列的两两比较:用于核酸和蛋白的两两比较分析。l6、针对特定数据库的搜索:比如人类基因组、微生物基因组等。Table 3.1 Program Selection for Nucleotide QueriesLength DatabasePurposeProgramExplanation20 bp or longer28 bp or above for megablastNucleotideIdentify the query sequencedisconti

17、guous megablast,megablast, orblastnLearn more .Find sequences similar to query sequencediscontiguous megablast or blastnLearn more .Find similar sequence from the Trace archiveTrace megablast, or Trace discontiguous megablastLearn more .Find similar proteins to translated query in a translated datab

18、aseTranslated BLAST (tblastx)Learn more .PeptideFind similar proteins to translated query in a protein databaseTranslated BLAST (blastx)Learn more .7 - 20 bpNucleotideFind primer binding sites or map short contiguous motifsSearch for short, nearly exact matchesLearn more .Table 2.1 Content of Protei

19、n Sequence DatabasesDatabaseContent DescriptionnrNon-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF, excluding those in env_nr. Protein sequences from NCBI reference sequence project.swissprotLast major release of the SWISS-PROT protein sequence database (no incremental updates).pa

20、tProteins from the Patent division of GenBank.monthAll new or revised GenBank CDS translations + PDB + SwissProt + PIR + PRF released in the last 30 days.pdbSequences derived from the 3-dimensional structure records from the Protein Data Bank. Non-redundant CDS translations from env_nt entries.Table

21、 2.2 Nucleotide Databases for BLASTDatabaseContent DescriptionnrAll GenBank + EMBL + DDBJ + PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer non-redundant due to computational cost.refseq_mrna mRNA sequences from NCBI Reference Sequence Project.refseq_genomic Genomi

22、c sequences from NCBI Reference Sequence Project.estDatabase of GenBank + EMBL + DDBJ sequences from EST division.est_humanHuman subset of est.est_mouseMouse subset of est.est_othersSubset of est other than human or mouse.gssGenome Survey Sequence, includes single-pass genomic data, exon-trapped seq

23、uences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2. Finished, phase 3 HTG sequences are in nr.patNucleotides from the Patent division of GenBank.pdbSequences derived from the 3-dimensional structure records from Protein Data Bank. They are NOT the codin

24、g sequences for the coresponding proteins found in the same PDB record.monthAll new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days.alu_repeatsSelect Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. See Alu alert by Claverie and Makalowski, Nat

25、ure 371: 752 (1994).dbstsDatabase of Sequence Tag Site entries from the STS division of GenBank + EMBL + DDBJ.chromosomeComplete genomes and complete chromosomes from the NCBI Reference Sequence project. It overlaps with refseq_genomic.wgsAssemblies of Whole Genome Shotgun sequences.env_nt Sequences

26、 from environmental samples, such as uncultured bacterial samples isolated from soil or marine samples. The largest single source is Sagarsso Sea project. This does overlap with nucleotide nr.l三、 BLAST搜索格式:lBLAST搜索框中允许三种输入格式l(一)FASTA格式: FASTA格式第一行是描述行,第一个字符必须是”字符;随后的行是序列本身,一般每行序列不要超过80个字符,各行之间不允许有空行

27、,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写,序列可由基因库中调出,亦可自行输入。 lgi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPS

28、ANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPES l1核酸输入代码如下: lA - adenosine(腺嘌呤) M - A C (amino) 氨基的lC - cytidine (胞嘧啶) S - G C (strong) 强的lG - guanine (鸟嘌呤) W - A T (weak) 弱的 lT - thymidine(胸腺嘧啶) B - G T C lU - uridine (尿嘧啶) D - G A TlR - G A (purine)嘌呤 H - A C TlY - T C (pyrimidine)嘧啶 V - G C Al K

29、 - G T (keto) 酮基的 N - A G C T (any)其中任 何一个gap of indeterminate length 不明长度的空位 l2氨基酸输入代码如下(BLASTP、TBLASTN接受的):lA alanine (丙氨酸) P proline(脯氨酸)lB aspartate or asparagine (天门冬氨酸) Q glutamine (谷氨酰胺)lC cystine (胱氨酸) R arginine(精氨酸)lD aspartate(天冬氨酸) S serine(丝氨酸)lE glutamate(谷氨酸盐) T threonine(苏氨酸)lF pheny

30、lalanine(苯丙氨酸) U selenocysteine(硒代半胱氨酸)lG glycine(甘氨酸) V valine(缬氨酸)lH histidine(组氨酸) W tryptophan(色氨酸 )lI isoleucine(异亮氨酸) Y tyrosine(酪氨酸)lK lysine (赖氨酸) Z glutamate or glutaminelL leucine (亮氨酸) X any(任何一种氨基酸)lM methionine(蛋氨酸) * translation stop(翻译终止符)lN asparagine(天冬酰胺) - gap of indeterminate len

31、gthl(二)单纯序列数据输入格式:该格式无FASTA描述定义行亦可,是GenBank/GenPept中的单纯文本格式。如下: QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP 1 qikdllvsss tdldttlvlv n

32、aiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw spl(三)标识符格式:(三)标识符格式:l通常只输入NCBI存取号、存取号版号或基因库中的标识符号,如p01013,

33、AAA68881.1, 129295。亦可有NCBI中带有分隔竖线的序列标识符, l注意注意:l用以上三种输入格式输入信息时,蛋白质必须对应搜索蛋白质的程序,核酸必须对应搜索核酸的程序,否则提交不能成功。 l第三节第三节同源性分析同源性分析 待检核酸序列与整个核酸序列库中的序列进行类比以检索E-cadherin部分序列为例。 l在“search”框中可输入基因的标识符或单纯序列格式或FASTA格式,并可限制序列的起点和终点,根据需要选择数据类型(本例选nr),在高级选项中可进一步限定条件,设定好后点击BLAST按纽提交。 l图3.6 BLAST两两比较提交界面l在BLAST主页中选Pairwi

34、se BLAST中的BLAST 2 Sequences,进入两两比较界面如图3.6,在程序中选blastn,分别输入两个基因的标识符或FASTA格式的序列,碱基数不要超过150Kb,可进一步限定条件,然后点击Align按纽即可提交,等待结果。l三、蛋白质与蛋白质数据库或蛋白质两两比较l1蛋白质与蛋白质数据库比较:l选Protein BLAST中的Standard Protein-Protein BLASTblastp与蛋白质数据库比较,输入方法基本与核酸比较相同,存取号或序列内容必须是蛋白质库中的。 l2蛋白质的两两比较:在Pairwise BLAST中的BLAST 2 Sequences程序

35、中进行,在程序中选blastp,序列输入格式同上。其输出搜索结果见图3.7,进一步点击Format button可看详细结果。图图3.7蛋白质的两两比较输出搜索结果蛋白质的两两比较输出搜索结果l1结果总览图:通用于蛋白质和核酸的结果表示。图中列了红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其它各种颜色同源性逐渐降低; l各种颜色同源性逐渐降低;每条图代表搜索蛋白质匹配的序列;如果出现阴影区,其对应的是二个或多个搜索数据库相似序列中的非相似区;鼠标指在哪条图上,图上面的框中会显示匹配蛋白质或核酸的名字;同一条图内的分离部分对应于无关的采样数。 l2显著性序列列表:如图3.10所示,最

36、有显著性(同源性最高)的行排在最上面,其E值最低,排列行按E值增加排序;每行四部分描述内容:数据序列标识符,对该序列的简单描述,在每个数据库中搜索得到的分数E值;点击序列标识符可以连接到GenBank;点击分数可连接到对应的相互比较的序列行。 l3行列比较:因申请者提交的要求行列可有不同的输出形式,系统默认的是配对行列输出格式,即查询序列与数据库中匹配的序列垂直对应。针对蛋白质查询而言,相同的残基排在二序列之间,用“+”表示保守性残基;针对DNA而言,垂直线连接相同的碱基。空位部分代表查询序列与检索匹配序列不一致。由于过滤作用,在低复杂区氨基酸查询序列可以包含Xs(核苷酸包含Ns)。HPSs中

37、可列出每个检索数据库中的多个行列。 l相关的参数E值代表随机比较分值不低于实际比较分值的概率。对于严格的比较,必须E值低于一定阈值才能说明比较的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比较得分的可能。具体界定值在搜索设置中界定,系统默认为10,搜索的严谨度越高,E值越小。若要比较短序列,获得更多的信息,则可增加E值到1000或更高;或降低字符大小(W),经验之法是查询序列至少是W的二倍;或禁止过滤功能的使用;或改变矩阵以优化搜索序列。 l l第四节第四节PSI-BLAST程序简介程序简介llBLAST的当前版本是2.2.10,它的新发展是位点特异性反复BLAST(PSI-B

38、LAST)。PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比较来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比较方法,如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-

39、BLAST的独立程序。 PSI-BLAST程序程序第五节第五节多序列比较多序列比较ll顾名思义,多序列比较就是把两条以上可能有系统进化关系的序列进行比较的方法。目前对多序列比较的研究还在不断前进中,现有的大多数算法都基于渐进的比较的思想,在序列两两比较的基础上逐步优化多序列比较的结果。进行多序列比较后可以对比较结果进行进一步处理,例如构建序列模式的profile,将序列聚类构建分子进化树等等。 l目前使用最广泛的多序列比较程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一种渐进的比较方法,先将多个序列两两比较构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵计算产

40、生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比较,直到所有序列都被加入为止。 lCLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户。 lCLUSTALW对输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal

41、、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。 l在CLUSTALW得到的多序列比较结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,”*”号表示保守性极高的残基位点;”.”号代表保守性略低的残基位点。 lE B I 的 C L U S T A L W 网 址 是 :http:/www.ebi.ac.uk/clustalw/。 l下载CLUSTALW的网址是:ftp:/ftp.ebi.ac.uk/pub/software/。 l关于序列比较,对比方法多种多样,很有必要从中挑选出最好的一

42、个或几个方法,这就是把一种对比描述成一个路径。许多计算机科学的问题都可以简化为通过图表寻求最优路径。为了这一目的已经确立了许多行之有效的算法,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和。假定相同残基加正分,有插入或缺失的残基就加负分(扣分),根据这一定义,最合适的对比方法会得到最高分,也就是我们寻找的最佳路径。 l应该注意,寻优方法总是把最佳的对比方法表达出来,而不在意它是否具有生物学意义,另一方面,寻求局部对比时可能会发现若干个重要的对比,因此,不能仅仅注意最佳的一个。 l不管是蛋白还是核酸都包含一些特殊的区域,在进行序列数据库搜索时这些区域可能会导致一些令人迷惑的结果。这些低复杂度区域(LCRs)在从明显的同性聚合顺串和短周期重复到更精细的情况(如其中某些或一些残基过多表现)的范围内变化。LCRs的进化、功能和结构性质并没有被很好地了解。 l在DNA中,有许多种简单的重复,其中一些已经知道是高度多态性的,并且在作基因图谱时经常使用的。它们产生的机制可能是聚合酶滑动、偏颇核苷酸取代或者不等交换。LCRs更偏好于在结构上以非球形区域的形式存在,那些在物理化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论