




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 作业邮箱 概述概述 克隆获得的序列 gatttgttta ccgtgttgat ttgagaagcc ctgaagaaat ttttgaacat ggcttttcaa ctttaggtga tgtgagaaat ttctttgaac acattctctc cactaatttt ggtagaagct attttatttc cacttcagaa acacccacag cagctattcg cttctttggt agctggttac gggaatatgt accagagcac cccagaaggg cttacttata tgaaattcgt gccgaccaac acttttacaa tgcccg
2、cgcc actggggaga acttgttaga tttaatgcgt caaagacaag tagtatttga ctctggtgat cgagaaatgg cacaaatggg aattagagct ttacgcactt cctttgcgta tcaacgtgaa tggtttaccg atggtccaat tgcagcagct aatgtccgta 在生物学的研究中在生物学的研究中, 有有一个最常用和最经典的研究手一个最常用和最经典的研究手 段段, 就是就是通过通过比较分析比较分析获取有用的信息和知识。通过获取有用的信息和知识。通过 将研究对象相互比较来寻找对象可能具备的特性。将研究
3、对象相互比较来寻找对象可能具备的特性。 我们从核酸以及氨基酸的一级结构层次分析序列的我们从核酸以及氨基酸的一级结构层次分析序列的 相同点和不同点,以期能够推测它们的相同点和不同点,以期能够推测它们的结构、功能结构、功能 以及进化以及进化上的联系。上的联系。 最常用的比较方法是序列对比,它为两个或更多个最常用的比较方法是序列对比,它为两个或更多个 序列的残基之间的相互关系提供了一个非常明确的序列的残基之间的相互关系提供了一个非常明确的 图谱。通过比较两个序列之间的相似区域和保守性图谱。通过比较两个序列之间的相似区域和保守性 位点,寻找二者可能的分子进化关系位点,寻找二者可能的分子进化关系。 进一
4、步的对比是将多个蛋白质或核酸同时进行比较,进一步的对比是将多个蛋白质或核酸同时进行比较, 寻找这些有进化关系的序列之间共同的寻找这些有进化关系的序列之间共同的保守区域、位保守区域、位 点和图谱点和图谱,分析产生共同功能的序列模式。此外,还,分析产生共同功能的序列模式。此外,还 可以把蛋白质序列与核酸序列相比来探索核酸序列可可以把蛋白质序列与核酸序列相比来探索核酸序列可 能的表达框架;把蛋白质序列与具有三维结构信息的能的表达框架;把蛋白质序列与具有三维结构信息的 蛋白质相比,从而获得蛋白质相比,从而获得蛋白质空间结构蛋白质空间结构的信息。的信息。 生物物种之间存在进化关系,我们对基因和蛋白质生物
5、物种之间存在进化关系,我们对基因和蛋白质 序列进行比较,从本质上来讲是同达尔文一样,进序列进行比较,从本质上来讲是同达尔文一样,进 行同样的比较分析,只不过更加精细,更加详尽,行同样的比较分析,只不过更加精细,更加详尽, 如果两个序列之间具有足够的相似性,就推测二者如果两个序列之间具有足够的相似性,就推测二者 可能有共同的进化祖先,经过序列内残基的替换、可能有共同的进化祖先,经过序列内残基的替换、 残基或序列片段的缺失以及序列重组等遗传变异过残基或序列片段的缺失以及序列重组等遗传变异过 程分别演化而来程分别演化而来。 序列相似性和序列相似性和序列序列同源性是同源性是不同的不同的概念,概念, 序
6、列序列相似性相似性:序列:序列之间的相似程度是可以量之间的相似程度是可以量 化的化的参数。参数。 序列序列同源性同源性:序列:序列是否同源需要有进化事实是否同源需要有进化事实 的验证。的验证。 人和褐家鼠人和褐家鼠pancreatic secretory trypsin inhibitor蛋白蛋白 序列作对比,能形成二硫键的半胱氨酸残基极为保守序列作对比,能形成二硫键的半胱氨酸残基极为保守 gb|AAA41976.1|gb|AAA41976.1| (M27883) pancreatic secretory trypsin inhibitor type II precursor (M27883)
7、 pancreatic secretory trypsin inhibitor type II precursor Rattus norvegicus Rattus norvegicus Length = 79 Length = 79 Score = 109 bits (272), Expect = 6e-24 Score = 109 bits (272), Expect = 6e-24 Identities = 53/79 (67%), Positives = 61/79 (77%) Identities = 53/79 (67%), Positives = 61/79 (77%) Quer
8、y: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60 MKV IFLLSALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+L MKV IFLLSALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+L Sbjct: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPN
9、TLIGCPRDYDPVCGTDGKTYANECIL 60Sbjct: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60 Query: 61 CFENRKRQTSILIQKSGPC 79Query: 61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+ G C CFENRK TSI IQ+ G C Sbjct: 61 CFENRKFGTSIRIQRRGLC 79Sbjct: 61 CFENRKFGTSIRIQRRGLC 79 在残基在残基-残基对比中残基对比中,某些,某些位置的氨基酸残
10、基相对位置的氨基酸残基相对 于其它位置的残基具有较高的保守性,这个信息揭于其它位置的残基具有较高的保守性,这个信息揭 示了某些残基对于一个蛋白质的结构和功能是极为示了某些残基对于一个蛋白质的结构和功能是极为 重要的重要的。处于。处于活性位点的残基都是极为活性位点的残基都是极为保守的。保守的。这这 些些保守的残基对于保持蛋白的结构与功能非常重要,保守的残基对于保持蛋白的结构与功能非常重要, 另一方面,由于历史原因,某些保守位置对蛋白功另一方面,由于历史原因,某些保守位置对蛋白功 能并无太大的重要性。能并无太大的重要性。 当我们处理非常相近的物种时必须十分小心,因为当我们处理非常相近的物种时必须十
11、分小心,因为 相似性在某些情况下更多地是历史的反映而不是功相似性在某些情况下更多地是历史的反映而不是功 能的反映,比如,能的反映,比如,mouse和和rat的某些序列具有高度的某些序列具有高度 的相似性,可能仅仅是因为没有足够的时间进行分的相似性,可能仅仅是因为没有足够的时间进行分 化而已化而已。 尽管如此,系列对比仍然是从已知获得未知的一个尽管如此,系列对比仍然是从已知获得未知的一个 十分有用的方法,比如通过比较一个新的蛋白同其十分有用的方法,比如通过比较一个新的蛋白同其 它已经经过深入研究的蛋白,可以推断这个未知蛋它已经经过深入研究的蛋白,可以推断这个未知蛋 白的结构与功能的某些性质白的结
12、构与功能的某些性质。例如它们可能是酶的例如它们可能是酶的 活性位点残基,形成二硫键的半胱氨酸残基,与配活性位点残基,形成二硫键的半胱氨酸残基,与配 体结合部位的残基,与金属离子结合的残基,形成体结合部位的残基,与金属离子结合的残基,形成 特定结构特定结构motif的残基的残基等。等。 但并不是所有保守的残基都一定是结构功能重要的但并不是所有保守的残基都一定是结构功能重要的 ,可能它们只是由于历史的原因被保留下来,而不,可能它们只是由于历史的原因被保留下来,而不 是由于进化压力而保留下来。是由于进化压力而保留下来。因此,如果两个序列因此,如果两个序列 有显著的保守性,要确定二者具有共同的进化历史
13、有显著的保守性,要确定二者具有共同的进化历史 ,进而认为二者有近似的结构和功能还需要更多实,进而认为二者有近似的结构和功能还需要更多实 验和信息的支持。验和信息的支持。 通过大量实验和序列对比的分析,一般认为蛋白质的通过大量实验和序列对比的分析,一般认为蛋白质的 结构和功能比序列具有更大的保守性,结构和功能比序列具有更大的保守性,因此粗略的说,因此粗略的说, 如果序列之间的相似性超过如果序列之间的相似性超过30%,它们就很可能是同,它们就很可能是同 源的。源的。必须指出的是,理论分析只提供了序列进化的必须指出的是,理论分析只提供了序列进化的 可能性,不能够仅仅是通过比较分析这一判据来断定可能性
14、,不能够仅仅是通过比较分析这一判据来断定 结论是否正确,结论还必须经过实验验证。结论是否正确,结论还必须经过实验验证。 早期的序列对比是全局的序列比较,但由于蛋白质早期的序列对比是全局的序列比较,但由于蛋白质 具有的模块性质,可能由于外显子的交换而产生新具有的模块性质,可能由于外显子的交换而产生新 蛋白质,因此局部对比会更加合理。通常用打分矩蛋白质,因此局部对比会更加合理。通常用打分矩 阵描述序列两两对比,两条序列分别作为矩阵的两阵描述序列两两对比,两条序列分别作为矩阵的两 维,矩阵点是两维上对应两个残基的相似性分数,维,矩阵点是两维上对应两个残基的相似性分数, 分数越高则说明两个残基越相似。
15、分数越高则说明两个残基越相似。 序列对比问题变成在矩阵里寻找最佳对比路径,目序列对比问题变成在矩阵里寻找最佳对比路径,目 前最有效的方法是前最有效的方法是Needleman-Needleman-WunschWunsch动态规划算法,动态规划算法, 在此基础上又改良产生了在此基础上又改良产生了Smith-WatermanSmith-Waterman算法和算法和 SIMSIM算法。在算法。在FASTAFASTA程序包中可以找到用动态规划算程序包中可以找到用动态规划算 法进行序列对比的工具法进行序列对比的工具LALIGNLALIGN,它能给出多个不相,它能给出多个不相 互交叉的最佳对比结果。互交叉的
16、最佳对比结果。 /so/so ftware/LALIGN_form.htmlftware/LALIGN_form.html 在进行序列两两对比时,有两方面问题直接影响相在进行序列两两对比时,有两方面问题直接影响相 似性分值:似性分值:取代矩阵取代矩阵和和空位罚分空位罚分。粗糙的对比方法。粗糙的对比方法 仅仅用相同仅仅用相同/不同来描述两个残基的关系,显然这种不同来描述两个残基的关系,显然这种 方法无法描述残基取代对结构和功能的不同影响效方法无法描述残基取代对结构和功能的不同影响效 果,缬氨酸对异亮氨酸的
17、取代与谷氨酸对异亮氨酸果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸 的取代应该给予不同的打分。的取代应该给予不同的打分。 因此如果用一个取代矩阵来描述氨基酸残基两两取代因此如果用一个取代矩阵来描述氨基酸残基两两取代 的分值会大大提高对比的敏感性和生物学意义。虽然的分值会大大提高对比的敏感性和生物学意义。虽然 针对不同的研究目标和对象应该构建适宜的取代矩阵针对不同的研究目标和对象应该构建适宜的取代矩阵 ,但国际上常用的取代矩阵有,但国际上常用的取代矩阵有PAM和和BLOSUM等,它等,它 们来源于不同的构建方法和不同的参数选择,包括们来源于不同的构建方法和不同的参数选择,包括 PAM250、BL
18、OSUM62、BLOSUM90、BLOSUM30等等 。 空位罚分空位罚分是为了补偿插入和缺失对序列相似性的影是为了补偿插入和缺失对序列相似性的影 响,由于没有什么合适的理论模型能很好地描述空响,由于没有什么合适的理论模型能很好地描述空 位问题,因此空位罚分缺乏理论依据而更多的带有位问题,因此空位罚分缺乏理论依据而更多的带有 主观特色。一般的处理方法是用两个罚分值,一个主观特色。一般的处理方法是用两个罚分值,一个 对插入的第一个空位罚分,如对插入的第一个空位罚分,如1015;另一个对空;另一个对空 位的延伸罚分位的延伸罚分,对于,对于具体的对比问题,采用不同的具体的对比问题,采用不同的 罚分方
19、法会取得不同的效果。罚分方法会取得不同的效果。 对于对比计算产生的分值,到底多大才能说明两 个序列是同源的,对此有统计学方法加以说明, 主要的思想是把具有相同长度的随机序列进行对 比,把分值与最初的对比分值相比,看看对比结 果是否具有显著性。 相关的参数E代表随机对比分值不低于实际对比分值 的概率。对于严格的对比,E值必须低于一定阈值才 能说明对比的结果具有足够的统计学显著性,这样 就排除了由于偶然的因素产生高对比得分的可能。 GenbankGenbank、SWISS-PROTSWISS-PROT等序列数据库提供的序列搜等序列数据库提供的序列搜 索服务都是以序列两两对比为基础的。不同之处在索服
20、务都是以序列两两对比为基础的。不同之处在 于为了提高搜索的速度和效率,通常的序列搜索算于为了提高搜索的速度和效率,通常的序列搜索算 法都进行了一定程度的优化,如最常见的法都进行了一定程度的优化,如最常见的FASTAFASTA工工 具和具和BLASTBLAST工具。工具。 FASTA是第一个被广泛应用的序列对比和搜索工具包,是第一个被广泛应用的序列对比和搜索工具包, 包含若干个独立的程序。包含若干个独立的程序。FASTA为了提高序列搜索的为了提高序列搜索的 速度,会先建立序列片段的速度,会先建立序列片段的“字典字典”,查询序列先会在,查询序列先会在 字典里搜索可能的匹配序列,字典中的序列长度由字
21、典里搜索可能的匹配序列,字典中的序列长度由ktup 参数控制,缺省的参数控制,缺省的ktup=2。FASTA的结果报告中会给的结果报告中会给 出每个搜索到的序列与查询序列的最佳对比结果,以及出每个搜索到的序列与查询序列的最佳对比结果,以及 这个对比的统计学显著性评估这个对比的统计学显著性评估E值。值。FASTA工具包可以工具包可以 在大多提供下载服务的生物信息学站点上找到。在大多提供下载服务的生物信息学站点上找到。 http:/fasta.bioch.virginia.e du/fasta_www2/fasta_list2 .shtml BLAST是现在应用最广泛的序列相似性搜索工具,是现在应
22、用最广泛的序列相似性搜索工具, 相比相比FASTA有更多改进,速度更快,并建立在严格有更多改进,速度更快,并建立在严格 的统计学基础之上。用户输入网址:的统计学基础之上。用户输入网址: /blast就可以进入就可以进入 BLAST网页。网页。 一、一、BLAST搜索主界面搜索主界面 l组合基因组检索; l分为标准的核酸与核酸数据库搜索; lMEGABLAST提供大量长序列的比较; l完全匹配的短序列搜索; l特殊搜索。 分为标准的蛋白与蛋白数据库搜索;分为标准的蛋白与蛋白数据库搜索;PSI-and PHI- BLAST,其中,其中PSI用于搜
23、索证实远源进化关系的存在用于搜索证实远源进化关系的存在 与否和进一步获取这个蛋白家族中的功能信息,而与否和进一步获取这个蛋白家族中的功能信息,而 PHI用于搜索蛋白基序用于搜索蛋白基序;DELTA-BLAST用于快速用于快速结结 构域搜索;同样构域搜索;同样包括蛋白的完全匹配的短序列搜索。包括蛋白的完全匹配的短序列搜索。 包括:包括: blastx Searchproteindatabaseusingatranslatednucleotidequery tblastn Searchtranslatednucleotidedatabaseusingaproteinquery tblastx Se
24、archtranslatednucleotidedatabaseusingatranslated nucleotidequery 4、保守区域的搜索:主要使用、保守区域的搜索:主要使用RPS-BLAST程程 序完成。序完成。 5、配对序列的两两比较:用于核酸和蛋白的、配对序列的两两比较:用于核酸和蛋白的 两两比较分析。两两比较分析。 6、针对特定数据库的搜索:比如人类基因组、针对特定数据库的搜索:比如人类基因组、 微生物基因组等。微生物基因组等。 三、三、 BLAST搜索输入序列格式:搜索输入序列格式: (一)一)FASTA格式:格式: FASTA格式第一行是描述行,格式第一行是描述行, 第一
25、个字符必须是第一个字符必须是”字符;随后的行是序列本身,字符;随后的行是序列本身, 一般每行序列不要超过一般每行序列不要超过80个字符,各行之间不允许个字符,各行之间不允许 有空行,回车符不会影响程序对序列连续性的看法。有空行,回车符不会影响程序对序列连续性的看法。 序列由标准的序列由标准的IUB/IUPAC氨基酸和核酸代码代表;氨基酸和核酸代码代表; 小写字符会全部转换成大写,序列可由基因库中调小写字符会全部转换成大写,序列可由基因库中调 出,亦可自行输入。出,亦可自行输入。 l1核酸输入代码如下核酸输入代码如下: lA - adenosine(腺嘌呤)(腺嘌呤) M - A C (amin
26、o) 氨基的氨基的 lC - cytidine (胞嘧啶)(胞嘧啶) S - G C (strong) 强的强的 lG - guanine (鸟嘌呤)(鸟嘌呤) W - A T (weak) 弱的弱的 lT - thymidine(胸腺嘧啶)(胸腺嘧啶) B - G T C lU - uridine (尿嘧啶)(尿嘧啶) D - G A T lR - G A (purine)嘌呤嘌呤 H - A C T lY - T C (pyrimidine)嘧啶嘧啶 V - G C A l K - G T (keto) 酮基的酮基的 N - A G C T (any)其中其中任任 何一个何一个gap of
27、 indeterminate length 不明长度的空位不明长度的空位 (二)单纯序列数据输入格式:该格式无(二)单纯序列数据输入格式:该格式无FASTA描述定义行描述定义行 亦可,是亦可,是GenBank/GenPept中的单纯文本格式。如下:中的单纯文本格式。如下: QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCM NNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTME KRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGIS
28、SAESLKISQAVHGAFMEL SEDGIEMAGSTGVIEDIKHSPESEQFRADHP 1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek 121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flfli
29、khnpt ntivyfgryw sp (三)标识符格式:(三)标识符格式: 通常只输入通常只输入NCBI存取号、存取号版号或基因库中的存取号、存取号版号或基因库中的 标识符号,如标识符号,如p01013, AAA68881.1, 129295。亦可有。亦可有 NCBI中带有分隔竖线的序列中带有分隔竖线的序列标识符。标识符。 相似性分析相似性分析 待检核酸待检核酸序列或蛋白序列与整个现有核酸序列数据序列或蛋白序列与整个现有核酸序列数据 库或蛋白序列数据库中库或蛋白序列数据库中的序列的序列进行比对。进行比对。 E-cadherin l在BLAST主页中选Pairwise BLAST中的BLAST
30、 2 Sequences,进入两两比较界面,在程序中选blastn, 分别输入两个基因的标识符或FASTA格式的序列, 可进一步限定条件,然后点击Align按纽即可提交, 等待结果。 三、蛋白质与蛋白质数据库三、蛋白质与蛋白质数据库 蛋白质两两比较蛋白质两两比较 1蛋白质与蛋白质数据库比较:蛋白质与蛋白质数据库比较: 选选Protein BLAST中中的的 Protein-Protein BLASTblastp 与蛋白质数据库比较,输入方法基本与核酸比较相同,与蛋白质数据库比较,输入方法基本与核酸比较相同, 存取号或序列内容必须是存取号或序列内容必须是蛋白质的蛋白质的。 2蛋白质的两两比较:在
31、蛋白质的两两比较:在Pairwise BLAST中的中的 BLAST 2 Sequences程序中进行,在程序中选程序中进行,在程序中选blastp, 序列输入格式同上序列输入格式同上。进一步。进一步点击点击Formatting Options 可可看详细结果。看详细结果。 1结果总览图:通用于蛋白质和核酸的结果表示。结果总览图:通用于蛋白质和核酸的结果表示。 图中列了红、粉、绿、蓝、黑五种颜色,图中列了红、粉、绿、蓝、黑五种颜色,红色相似性红色相似性 性性最高,排在最上面,其它各种最高,排在最上面,其它各种颜色相似性逐渐颜色相似性逐渐降低;降低; 各种颜色同源性逐渐降低;每条图代表搜索各种颜
32、色同源性逐渐降低;每条图代表搜索蛋白质或蛋白质或 核酸匹配核酸匹配的序列;如果出现阴影区,其对应的是二个的序列;如果出现阴影区,其对应的是二个 或多个搜索数据库相似序列中的非相似区;鼠标指在或多个搜索数据库相似序列中的非相似区;鼠标指在 哪条图上,图上面的框中会显示匹配蛋白质或核酸的哪条图上,图上面的框中会显示匹配蛋白质或核酸的 名字;同一条图内的分离部分对应于无关的采样数。名字;同一条图内的分离部分对应于无关的采样数。 2显著性序列列表显著性序列列表:最:最有显著性(同源性最高)的有显著性(同源性最高)的 行排在最上面,其行排在最上面,其E值最低,排列行按值最低,排列行按E值增加排序;值增加
33、排序; 每行四部分描述内容:数据序列标识符,对该每行四部分描述内容:数据序列标识符,对该 序列的简单描述,在每个数据库中搜索得到的分序列的简单描述,在每个数据库中搜索得到的分 数数E值;点击序列标识符可以连接到值;点击序列标识符可以连接到GenBank; 点击分数可连接到对应的相互比较的序列行。点击分数可连接到对应的相互比较的序列行。 3行列比较:因申请者提交的要求行列可有不同的输行列比较:因申请者提交的要求行列可有不同的输 出形式,系统默认的是配对行列输出格式,即查询序列出形式,系统默认的是配对行列输出格式,即查询序列 与数据库中匹配的序列垂直对应。针对蛋白质查询而言,与数据库中匹配的序列垂
34、直对应。针对蛋白质查询而言, 相同的残基排在二序列之间,用相同的残基排在二序列之间,用“+”表示保守性残基;表示保守性残基; 针对针对DNA而言,垂直线连接相同的碱基。空位部分代而言,垂直线连接相同的碱基。空位部分代 表查询序列与检索匹配序列不一致。由于过滤作用,在表查询序列与检索匹配序列不一致。由于过滤作用,在 低复杂区氨基酸查询序列可以包含低复杂区氨基酸查询序列可以包含Xs(核苷酸包含(核苷酸包含 Ns)。)。HPSs中可列出每个检索数据库中的多个行列。中可列出每个检索数据库中的多个行列。 相关的参数相关的参数E值代表随机比较分值不低于实际比较值代表随机比较分值不低于实际比较 分值的概率。
35、对于严格的比较,必须分值的概率。对于严格的比较,必须E值低于一定值低于一定 阈值才能说明比较的结果具有足够的统计学显著性,阈值才能说明比较的结果具有足够的统计学显著性, 这样就排除了由于偶然的因素产生高比较得分的可这样就排除了由于偶然的因素产生高比较得分的可 能。具体界定值在搜索设置中界定,系统默认为能。具体界定值在搜索设置中界定,系统默认为10, 搜索的严谨度越高,搜索的严谨度越高,E值越小值越小。 若要比较短序列,获得更多的信息,则可增加若要比较短序列,获得更多的信息,则可增加E值值 到到1000或更高;或降低字符大小(或更高;或降低字符大小(W),经验之法),经验之法 是查询序列至少是是
36、查询序列至少是W的二倍;或禁止过滤功能的使的二倍;或禁止过滤功能的使 用;或改变矩阵以优化搜索序列。用;或改变矩阵以优化搜索序列。 PSI-BLAST程序简介程序简介 PSI-BLAST程序简介程序简介 PSI-BLAST的特色是每次用的特色是每次用profile搜索数据库后再利搜索数据库后再利 用搜索的结果重新构建用搜索的结果重新构建profile,然后用新的,然后用新的profile再再 次搜索数据库,如此反复直至没有新的结果产生为止次搜索数据库,如此反复直至没有新的结果产生为止 。PSI-BLAST先用带空位的先用带空位的BLAST搜索数据库,将搜索数据库,将 获得的序列通过多序列比较来
37、构建第一个获得的序列通过多序列比较来构建第一个profile。 PSI-BLAST自然地拓展了自然地拓展了BLAST方法,能寻找蛋白方法,能寻找蛋白 质序列中的隐含模式,有研究表明这种方法可以有效质序列中的隐含模式,有研究表明这种方法可以有效 的找到很多序列差异较大而结构功能相似的相关的找到很多序列差异较大而结构功能相似的相关蛋白蛋白 。 多序列比较多序列比较 多序列比较多序列比较 多序列比较就是把两条以上可能有系统进化关系的多序列比较就是把两条以上可能有系统进化关系的 序列进行比较的方法。目前对多序列比较的研究还序列进行比较的方法。目前对多序列比较的研究还 在不断前进中,现有的大多数算法都基
38、于渐进的比在不断前进中,现有的大多数算法都基于渐进的比 较的思想,在序列两两比较的基础上逐步优化多序较的思想,在序列两两比较的基础上逐步优化多序 列比较的结果。进行多序列比较后可以对比较结果列比较的结果。进行多序列比较后可以对比较结果 进行进一步处理,例如构建序列模式的进行进一步处理,例如构建序列模式的profile,将,将 序列聚类构建分子进化序列聚类构建分子进化树等树等。 CLUSTAL是一种渐进的比较方法,先将多个序列是一种渐进的比较方法,先将多个序列 两两比较构建距离矩阵,反映序列之间两两关系;两两比较构建距离矩阵,反映序列之间两两关系; 然后根据距离矩阵计算产生系统进化指导树,对关然
39、后根据距离矩阵计算产生系统进化指导树,对关 系密切的序列进行加权;然后从最紧密的两条序列系密切的序列进行加权;然后从最紧密的两条序列 开始,逐步引入临近的序列并不断重新构建比较,开始,逐步引入临近的序列并不断重新构建比较, 直到所有序列都被加入为止。直到所有序列都被加入为止。 CLUSTALW的程序可以自由使用,在的程序可以自由使用,在NCBI的的FTP 服务器上可以找到下载的软件包。服务器上可以找到下载的软件包。CLUSTALW程程 序用选项单逐步指导用户进行操作,用户可根据需序用选项单逐步指导用户进行操作,用户可根据需 要选择打分矩阵、设置空位罚分等。要选择打分矩阵、设置空位罚分等。EBI
40、的主页还的主页还 提供了基于提供了基于Web的的CLUSTAL服务。服务。 CLUSTAL对输入序列的格式比较灵活,可以是前对输入序列的格式比较灵活,可以是前 面介绍过的面介绍过的FASTA格式,还可以是格式,还可以是PIR、SWISS- PROT、GDE、Clustal、GCG/MSF、RSF等格式。等格式。 输出格式也可以选择,有输出格式也可以选择,有ALN、GCG、PHYLIP和和 GDE等,用户可以根据自己的需要选择合适的输出等,用户可以根据自己的需要选择合适的输出 格式。格式。 在在CLUSTAL得到的多序列比较结果中,所有序列得到的多序列比较结果中,所有序列 排列在一起,并以特定的
41、符号代表各个位点上残基排列在一起,并以特定的符号代表各个位点上残基 的保守性,的保守性,”*”号表示保守性极高的残基位号表示保守性极高的残基位 点;点;”.”号代表保守性略低的残基位点。号代表保守性略低的残基位点。 EBI的的Clustal Omega网址网址是是: http:/www.ebi.ac.uk/Tools/msa/clustalo/。 下载下载CLUSTALW的网址是的网址是: http:/ 关于序列比较,对比方法多种多样,很有必要从中关于序列比较,对比方法多种多样,很有必要从中 挑选出最好的一个或几个方法,这就是把一种对比挑选出最好的一个或几个方法,这就是把一种对比 描述成一个路
42、径。许多计算机科学的问题都可以简描述成一个路径。许多计算机科学的问题都可以简 化为通过图表寻求最优路径化为通过图表寻求最优路径。 对每一种路径都有必要对其进行某种意义上的打分对每一种路径都有必要对其进行某种意义上的打分 ,通常是对沿这一途径的每一步的增量进行加和。,通常是对沿这一途径的每一步的增量进行加和。 假定相同残基加正分,有插入或缺失的残基就加负假定相同残基加正分,有插入或缺失的残基就加负 分(扣分),根据这一定义,最合适的对比方法会分(扣分),根据这一定义,最合适的对比方法会 得到最高分,也就是我们寻找的最佳路径。得到最高分,也就是我们寻找的最佳路径。 应该注意,寻优方法总是把最佳的对
43、比方法表达出应该注意,寻优方法总是把最佳的对比方法表达出 来,而不在意它是否具有生物学意义,另一方面,来,而不在意它是否具有生物学意义,另一方面, 寻求局部对比时可能会发现若干个重要的对比,因寻求局部对比时可能会发现若干个重要的对比,因 此,不能仅仅注意最佳的一个。此,不能仅仅注意最佳的一个。 不管是蛋白还是核酸都包含一些特殊的区域,在进不管是蛋白还是核酸都包含一些特殊的区域,在进 行序列数据库搜索时这些区域可能会导致一些令人行序列数据库搜索时这些区域可能会导致一些令人 迷惑的结果。这些迷惑的结果。这些低复杂度区域(低复杂度区域(LCRs)在从明显在从明显 的同性聚合顺串和短周期重复到更精细的
44、情况(如的同性聚合顺串和短周期重复到更精细的情况(如 其中某些或一些残基过多表现)的范围内变化。其中某些或一些残基过多表现)的范围内变化。 LCRs的进化、功能和结构性质并没有被很好地了解。的进化、功能和结构性质并没有被很好地了解。 在在DNA中,有许多种简单的重复,其中一些已经知中,有许多种简单的重复,其中一些已经知 道是高度多态性的,并且在作基因图谱时经常使用道是高度多态性的,并且在作基因图谱时经常使用 的。它们产生的机制可能是聚合酶滑动、偏颇核苷的。它们产生的机制可能是聚合酶滑动、偏颇核苷 酸取代或者不等交换。酸取代或者不等交换。LCRs更偏好于在结构上以非更偏好于在结构上以非 球形区域
45、的形式存在,那些在物理化学上已经被定球形区域的形式存在,那些在物理化学上已经被定 义为非球形的区域通常可以在使用义为非球形的区域通常可以在使用SEG程序时获得程序时获得 较好的较好的结果。结果。 对于包含对于包含LCR的序列进行对比是成问题的,因为这的序列进行对比是成问题的,因为这 些序列不符合残基些序列不符合残基-残基序列守恒的模型。有些时候,残基序列守恒的模型。有些时候, 与功能相关的属性可能仅仅是周期性或组成结构,与功能相关的属性可能仅仅是周期性或组成结构, 而不是任何特异的序列。而且,对对比作统计学显而不是任何特异的序列。而且,对对比作统计学显 著性分析的方法是建立在一定的随机概念基础
46、上的,著性分析的方法是建立在一定的随机概念基础上的, LCR显然不符合这一条件显然不符合这一条件 。 因此,对于一个包含因此,对于一个包含LCR的查询序列,在进行数据的查询序列,在进行数据 库搜索的输出里会发现很多不正确的条目,因为这库搜索的输出里会发现很多不正确的条目,因为这 些匹配的显著性被过高评价了些匹配的显著性被过高评价了(Altschul et al., 1994)。 这个问题大体上可以通过过滤(或者叫屏蔽)解决,这个问题大体上可以通过过滤(或者叫屏蔽)解决, 操作是这样的,把有问题的子序列转化为不明确的操作是这样的,把有问题的子序列转化为不明确的 字符(蛋白质用字符(蛋白质用X,核酸序列用,核酸序列用N),这样它们就不),这样它们就不 会对对比贡献正分了。会对对比贡献正分了。 如果使用合适的参数,过滤可以由如果使用合适的参数,过滤可以由BLAST程序自动程序自动 完成完成。如果。如果对比的序列中有对比的序列中有LCR,查询序列中会出现查询序列中会出现 不明确的字符串(在原序列中没有出现)。操作者不明确的字符串(在原序列中没有出现)。操作者 可以使用可以使用BLAST程序来进行低复杂度区域的屏蔽。程序来进行低复杂度区域的屏蔽。 当一个低复杂度区域被屏蔽掉的序列作为查询序列当一个低复
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年光伏电站智能化运维设备故障诊断与发电量提升策略分析
- 教育大数据在国际化教育交流中的应用与挑战分析
- 2025年储能电站热管理解决方案研究报告
- 2023年知识竞赛复习题目
- 2025年工业互联网平台同态加密技术在智能设备协同控制中的应用研究报告
- 2023青海安全生产月知识竞赛试题及参考答案
- 2023年造价工程师考试真题(工程造价计价与控制)
- 2023广东“安全生产月”知识主题测题含参考答案
- 二零二五年度定制木门设计、生产、安装全流程服务合同
- 二零二五年度建筑工程施工全过程服务合同范本
- 茅台质量管理办法
- T-WAA 015-2025 家庭场景 WLAN 单设备网络性能及体验技术要求(基于 IEEE 802.11be)
- 市场专员笔试试题及答案
- 2025基孔肯雅热的预防控制课件
- 江苏岚泽能源科技有限公司岚泽大丰港年产30万吨绿色甲醇项目环评资料环境影响
- 大班早期阅读培训
- 2025中国南水北调集团新能源投资有限公司中层及职员社会招聘笔试参考题库附带答案详解
- 健身房安全生产应急预案
- 2025年精细化工技术考试试卷及答案
- GB/T 36548-2018电化学储能系统接入电网测试规范
- GB/T 28724-2012固体有机化学品熔点的测定差示扫描量热法
评论
0/150
提交评论