Blast使用入门.ppt_第1页
Blast使用入门.ppt_第2页
Blast使用入门.ppt_第3页
Blast使用入门.ppt_第4页
Blast使用入门.ppt_第5页
已阅读5页,还剩201页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,Blast使用入门,于浩,生物信息学第六讲,1988年.,Pubmed,lanl,NCBI,GenBank,NIH,NLM,DOE,BLAST,象风暴一样有力,Pam250,blosum62,Fasta算法,Blast算法,Dayhoff,Neelleman-Wunsch算法,Henikoff,Smith-Waterman算法,得分矩阵,比对算法,Pam矩阵,blosum矩阵,全局比对,局部比对,建立评分矩阵,执行比对 (动态规划算法),确定最佳途径,Pam250,blosum62,Needleman-Wunsch,Smith-Waterman,当面向数据之海的时候,该怎么办?,生物信息学:

2、努力在数据的海洋里畅游,BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.,BLAST (基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性搜索程序,Local:局部 研究对象:DNA或者蛋白质 搜多对象:数据库,BLAST Application,BLAST Theory,BLAST Pract

3、ice,Database Searching,Identify similarities between novel query sequences whose structures and functions are unknown and uncharacterized and sequences in (public) databases whose structures and functions have been elucidated,鉴定结构和功能未知或者 特征未知新奇咨询序列与公共数据库中已经阐明了结构和功能的序列之间的相似性。,Database Searching,The q

4、uery sequence is compared/aligned with every sequence in the database. High-scoring database sequences are assumed to be evolutionary related to the query sequence. If sequences are related by divergence from a common ancestor, there are said to be homologous.,咨询序列与数据库中所有序列进行比对 得分高的序列被认为与咨询序列存在进化相关

5、如果序列都是从同一先祖趋异分化而来,那么它们是同源的,/Web/Newsltr/Spring99/spring99.htm,Dr. Altschul (PhD, M.I.T., 1987) is a Senior Investigator with Computational Biology Branch of the NCBI. The principal author of BLAST, PSI-BLAST and PHI-BLAST Dr. Altschuls contribution to bioinformatics, evolut

6、ionary biology and computational biology is almost immeasurable. Today more than 100,000 BLAST searches are performed each day on NCBI servers. Indeed, the original 1990 BLAST paper was far and away the most cited scientific paper of the last decade. Over the past decade, Dr. Altschul has played a c

7、ritical role in developing robust statistical methods for assessing sequence similarity. These contributions, which were key to the development of BLAST, not only enhanced the speed with sequence searching could be performed, but also greatly improved the sensitivity of sequence searches. With the i

8、ntroduction of PSI-BLAST in 1997, Dr. Altschul and co-workers once again demonstrated how the smart use of statistics can make sequence searching a truly awesome scientific tool.,Altschul博士(1987年在MIT获得Phd)是NCBI计算生物学部门的高级研究员,是BLAST, PSI-BLAST 和PHI-BLAST原理的创造者. Altschul博士对于生物信息学、进化生物学、计算生物学的贡献是不可估量的,时

9、至今日,每天有超过100,000名的BLAST搜索者在使用NCBI的服务器,实际上,在过去的十年中,1990年的BLAST的原文献是被引用次数最多的科学文献. 在过去的十年中,Altschul博士在发展评估序列相似性更有效的统计方法方面起到了重要作用,无论是提高搜索速度,还是加大相似序列间的敏感性上,这些贡献对于BLAST的发展是至关重要的,随着1997年PSI-BLAST的采用,Altschul博士和他的合作伙伴再一次展示了聪明地使用统计学是如何使得序列搜索变成了一个真实地、令人生畏的科学工具。,Query sequence,Blast,Database,Subject sequence S

10、ubject sequence Subject sequence Subject sequence ,兼顾搜寻的速度以及搜寻结果的精确度 BLAST使用启发式搜索代替动态规划算法来找出相关的序列,在速度上比完全只使用动态规划大约快上50倍左右,引用次数:35799,引用次数:36501,引用次数:4179,引用次数:12894,了解BLAST算法的主要精神,Query word,移除Query序列中之低复杂度以及有串接重复现象的区域,将长序列转换成短序列,KNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTH,KNTM YVII ILTW NLTM TNDM KNHR

11、 CHST TRTL MTNI RKTH,KNTMYVIIIL TWNLTMTND MKNHRCHSTTR TLMTNIRKTH,KNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTH,W=1,W=4,W=10,W=40,KNTM YVII ILTW NLTM TNDM KNHR CHST TRTL MTNI RKTH,需要一个类似Dayhoff矩阵的打分表,将每一组字符看出一个字符,确立打分值,A B C D E F G H I J,将Query序列中每k个字的组合做成一个表,Blosum62,打分矩阵,BLAST和FASTA之间很重要的一点不同处。FASTA关心所

12、有在第二步中所找出的字组表上的每一个字组,它会去搜寻数据库中的序列,看看这些序列是否含有这些字组;然而,BLAST只对高分的一些字组有兴趣,而字组的分数是由依序比较字组间的每个字,再配合得分矩阵(substitution matrix或scoring matrix)所产生的。因此,对于每一个字组而言,可能有203个BLAST可能关心的字组,当然这些字组经过一个门槛分数的筛选后,只有少数的字组会留下,而这些就是BLAST真正所关心的字组。举例来说,若以BLOSUM62为得分矩阵,则PQG分别和PEG以及PQA比较所得的分数是15以及12分,若门槛值是13,则PEG会留下来并被用于之后的步骤,而P

13、QA则不被考虑。,旧版的BLAST会从这个匹配的位置,分别向左右去扩展, 直到比对出来的分数开始变小为止。,为了要维持搜寻的灵敏度,BLAST2使用比较低的门槛值以留下较多的高分字组,因此第3步的高分字组表会变的比较长。接着,如果在图3中以X代表的匹配字组是在同一个从左下往右上的对角线上,而且它们的距离是小于一个门槛值A,则这两个匹配的位置会被结合成一个更长的区域。最后,这个新的区域会用旧版BLAST向左右扩展的方式来延伸成HSP,而这个HSP的分数一样也是用得分矩阵来评分每一个比对的情形,并将这些分数加总起来,就跟之前找高分字组的方法一样,为了更有效率,新版的BLAST被开发出来,叫做BLA

14、ST2或是Gapped BLAST。,核酸打分矩阵,等价矩阵,是最简单的一种打分矩阵,其中,相同核苷酸匹配的得分为“1”,而不同核苷酸的替换得分为“0”(没有得分)。,BLAST是目前最流行的核酸序列比较程序,其打分矩阵是一个非常简单的矩阵,如果被比的两个核苷酸相同,则得分为“+5”,反之得分为“-4”。,核酸打分矩阵,BLAST矩阵,核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换(transition),如AG,CT;如果环数发生变化,则称为颠换

15、(transversion),如AC,AT等。在进化过程中,转换发生的频率远比颠换高,转换-颠换矩阵正好反映了这种情况,其中转换的得分为“-1”,而颠换的得分为“-5”。,核酸打分矩阵,转换-颠换矩阵,实际问题,BLAST能解决的,确定特定的蛋白质和核酸序列有那些直系同源和旁系同源序列。 确定哪些蛋白质和基因在特定的物种中出现。 确定一个基因或者蛋白质的身份。 发现新基因。 确定一个特定基因有那些已经发现的变种。 研究可能存在的多种剪切方式的表达序列标签。 寻找对于一个蛋白质的功能和结构起关键作用的氨基酸残基。,确定特定的蛋白质和核酸序列有那些直系同源和旁系同源序列,新发现的基因位于中央神经系

16、统,它可以产生“胃泌素释放蛋白受体”(GRPR)。许多科学家都试图研究GRPR基因与疼痛知觉的相关性,并没有人将它与瘙痒联系起来。 在最新的研究中,由美国华盛顿大学医学院的华人遗传学家Zhou-Feng Chen领导的小组对GRPR基因进行了深入的研究。他们发现,GRPR仅存在于一些脊髓神经元中,而这些神经细胞能够将痛和痒的信号传递给大脑。进一步的研究表明,肌体产生疼痛知觉并不一定需要GRPR蛋白受体失去GRPR基因的小鼠仍然能够对热量、炎症和机械伤害产生疼痛反应 。 研究人员随后对GRPR基因突变的小鼠注射了组胺等痒诱导物质,从而确定了GRPR与痒知觉的相关性。他们发现,突变小鼠不会像正常小

17、鼠一样到处乱挠。而当正常小鼠被注射仿GRPR蛋白功能的物质时,它们抓狂地更厉害了。 许多疾病,包括皮肤病和肿瘤都会引起慢性瘙痒,这是一项顽疾,而新的发现无疑将为瘙痒患者带来希望。,脊柱内的GRPR蛋白(红色)。,不同寻常的分子标靶,/,gastrin-releasing peptide receptor,寻找GRPR的同源基因,确定哪些蛋白质和基因在特定的物种中出现,鱼类是否也有对冷敏感的基因,夏天放在口中的冰块可以带给你无限清凉,但这是哪种蛋白的功劳呢?三个不同的小组对小鼠的最新研究都表明,一种名为TRPM8的蛋白质在产生冷知觉的过程中起着主导作用,

18、并且控制着低温对机体疼痛的缓解效果。由于人类和小鼠都具有编码该蛋白的基因,因此科学家推断,人类体内也具有类似的蛋白受体和生理机制。 TRPM8与感应热和辣的蛋白质属于同一家族,它存在于特定神经细胞的细胞膜上,成为响应外界信号的开关通道。科学家研究发现,当温度低于27摄氏度或者薄荷醇存在的条件下,TRPM8通道都会打开,使钙离子等带正电的粒子进入细胞。 最新的三项研究都表明,由于基因突变而无法制造TRPM8的小鼠,对于较低的温度几乎没有感觉,这确立了TRPM8在生物体感应低温过程中的主导地位。其中,美国加州大学旧金山分校的David Julius和同事直接检测了小鼠皮肤神经的电化学变化,他们的研

19、究5月30日在线发表于自然杂志上。 人们知道,冰冷可以使皮肤麻木,缓解疼痛和炎症。为了弄清楚TRPM8是否与这一过程有关,美国斯克利普斯研究所(Scripps Research Institute)的Ardem Patapoutian和同事将一种会产生疼痛感的化学物质分别注入突变鼠和正常鼠体内,结果发现,TRPM8基因突变鼠的疼痛时间更久。这证明了TRPM8蛋白与低温诱发的疼痛缓解有关。他们的研究论文发表在5月3日的神经元上。 在第三项研究中,美国宾州Johnson药物研发实验室(Johnson & Johnsons pharmaceutical research and developmen

20、t lab)的Ning Qin和同事研究了TRPM8蛋白与医学上“冷超敏”(Cold allodynia,对低温极度敏感)症状的关系。结果发现,即使在缺乏TRPM8蛋白的小鼠中人工导入患“冷超敏”的条件,这些小鼠也不会对低温表现出显著的敏感性。相关论文同样发表在5月3日的神经元上。,更改打分矩阵,蛋白替换核酸,确定一个基因或者蛋白质的身份,晚餐中的DNA考古,Tyrolean Iceman,2000年9月25日,研究者们终于将一直在意大利南提洛尔考古博物馆中冰冻保存的冰人完全解冻,作彻底的分析研究。意大利蒂卡梅雷诺大学的弗兰科教授和他的同事检查了奥兹的大肠和小肠,在显微镜下发现了动物肌肉纤维和

21、未消化的食物后,他们对抽样进行了 D NA分析,确定是红鹿的肌肉和残留谷物。在咨询了病理学家食物消化过程后,他们分析出了奥兹最后两顿饭的内容。检测在奥兹体内发现了花粉和真菌,说明冰人死前曾在森林中活动过。,Otzis last meals: DNA analysis of the intestinal content of the Neolithic glacier mummy from the Alps.,PCR,未知 的真菌16SRNA序列,Blast,梭 菌,弧菌,Sequence analysis of bacterial DNA in the colon and stomach of

22、 the Tyrolean Iceman,gi|3414664|gb|AF018640.1| Uncultured bacterium OIm26 16S ribosomal RNA gene, partial sequence CCTGCGTGCGCTTTACGCCCAGTAATTCCGGATAACGCTAGCCCCCTACGTATTACCGCGGCTGCTGGCA CGTAGTTAGCCGGGGCTTCCTCCTCAAGTACCGTCATTATCTTCCTTGAGGACAGAGCTTTACGACCCGA AGGCCTTCATCGCTCACGCGGCGTTGCTGCATCAGGCTTTCCC

23、CCATTGTGCAATATTCCCCACTGCTGC CTCCCGTAGGAGTCTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCACCCTCTCAGGTCGGCTACGCATC GTCGCCTTGGTAGGCCGTTACCCCACCAACTAGCTAATGCGCCGCGGGTCCATCTCATAGTATCATCTCG TATTAGCGCATCGTCGCCTTGGTGAGCCATTACCTCACCAACTAGCTAATGCGCCGCGGGTCCATCTTGT AGCGGATTACTCCTTTAATTGCTGTTTCATGCGAAACTACAATCTTATGCGGTATTAAT

24、CTTCCTTTCGG AAGGCTATCCCCCTCTACAAGGCAGGTTACCCASGTGTTACTCACCCGTCCGCCGCTAATCCATTTCCCG AAGGAAACTTCATCGCTCGACTTGCATGTGTTAGGCACGCCCGCCAGCGTTCGTCCTGAGCCAGGATCAA ACTCTCCAA,发现新基因,人类肤色的基因一直是生物学的一个谜,研究人员发现普通斑马鱼的变种-金斑马鱼的黑素体比普通斑马鱼数量少,体积小,而且色素分布稀。 研究人员发现金斑马鱼色素浅的原因,是SLC24A5基因发生了变异,导致某一种主要蛋白质生产减少。 一旦增加从普通斑马鱼提取的这种蛋白

25、质数量,金斑马鱼的皮肤就会变黑。 SLC24A5 基因编码一种位于黑色素体 膜上的钾离子依赖性阳离子交换蛋白,负责将钙离子摄入黑色素体,并将钠离子从该细胞器内泵出,后者与质子泵的作用相藕联,这对维持黑色素体内外的氢离子和钙离子浓度梯度具有重要作用,这种离子梯度的形成参与黑色素在黑色素体内的合成过程,因此与肤色有一定关系。,从斑马鱼的SLC24A5基因到人的SLC24A5基因,基因组之前经常这么做,获得斑马鱼的SLC24A5基因序列,对人的基因组和转录组数据库进行Blast检索,atgatcggaatatatttgctgatcgctgcagtcacgctgctatatgtctatctcaagtg

26、gacatttagctactgggatcgcaagggattcccatcgacgggagtgagcataccgttcggtgccctggaatccgtgacaaagggaaagcgatccttcggtatggccatatacgatatgtacaagtcgacaaaggaaccggtgatcggtttgtatctcacattgagaccggcacttctcgtccgagatgcccaactggcccacgatgtgttggtcaaggattttgccagttttcacgatcgtggcgtgtatgtggatgaaaagaacgatcccatgtccgcgagtttgttccaaatggaagg

27、agccagctggcgggccttgcgcaacaagctgacgccctcattcacatccggcaaactgaaggccatgttcgagacctcagattcggttggagacaagttggtggacagcattaggaagcaactgcctgcgaacggcgccaaggagctggaactcaagaagctaatggctacatacgccatcgacattattgccacgactatttttggactggatgttgatagctttgcggatcccaacaacgaattccagattattagcaaaaaagtgaatcgtaacaacattgaagatattattcgtgg

28、aacatctagtttcctgtatcccgggctggagaaattctttgtgaaaatcggctggaaacaggaggccaccgaaagaatgcgcgagttgtccaatcgaaccgtcgatctcagggaacagaacaatatagttcgcaaggatctgctgcaacttctgctgcagctgcggaatcagggaaagatcaataccgatgacaatatttggtcggcggaaagcactaagaatggtgttaagtccatgtccaaggacttgattgccggccagctattcctcttctatgttgccggttatgagacgacagc

29、ttctacaacatcctttaccctatacgagctaacccaaaatcctgaagtgatggaaaaggctaaggaggatgttcgcagtgccatcgaaaagcatggcggaaagctgacatacgacgccatctcggacatgaagtatctggaggcgtgtatactcgagactgctcgcaaatatcccgctctgccactgctgaatagaatctgcaccaaggactatcctgtgcccgatagcaaacttgtgatccaaaagggtactcccatcataatctccctcatcggaatgcaccgcgatgaggagtactt

30、ccccgatccgcttgcctacaaaccggaacggtatctggagaatggtaaagactacacccaggcggcctatttgccattcggcgagggacccaggatgtgtatcggcgcccgcatgggaaaggtgaatgtgaagatagcgattgccaaggttttgtcgaacttcgatctggagatccggaaggaaaagtgtgagattgagttcggcgtgtatggaataccgctgatgcccaaatcaggtgttcccgtgcgtctgtctctcaaaaagtag,一段没头没尾的未知序列,如何鉴定是否存在基因?,确定一个特定基

31、因有那些已经发现的变种,迄今禽流感引发人类疫情有两种模式:一是像“西班牙流感”那样,病毒从禽类直接“跳”到人类身上,经过一段适应期后获得在人际间传染的能力; 另一个模式是像1957年和1968年流感那样,禽流感病毒与人流感病毒交换基因,产生新的“重组病毒”引发疫情。H5N1病毒的演化也脱离不出上述两个模式。,PAC:PB1N复合体的三维结构。其中“龙嘴”部位的紫色飘带为PB1 N端多肽,“龙头”为PA_C亚基; 背景为禽流感病毒的电镜负染图片及病毒颗粒剖面示意图。,PB1是病毒RNA聚合酶的催化亚基,负责病毒RNA的复制以及转录; PB2是负责以一种称为“Snatch”的方式夺取宿主mRNA的

32、CAP帽子结构用于病毒mRNA转录。 PA亚基不但参与病毒复制过程,而且还参与病毒RNA转录、内切核酸酶活性、具有蛋白酶活性以及参与病毒粒子组装等多种病毒活动过程,因而在整个聚合酶复合体的研究中显得格外重要。,多年来的研究认为:,研究可能存在的多种剪切方式的表达序列标签,VEGF基因的可变剪切分析,寻找对于一个蛋白质的功能和结构起关键作用的氨基酸残基,乙型肝炎病毒(HBV)是嗜肝DNA病毒,HBV DNA长度约为3.2kb,含4个开放读码框架(ORF),分别编码HBV的表面抗原蛋白,核心/e抗原蛋白,X蛋白以及HBV DNA聚合酶(HBV Pol)。HBV Pol基因在ORF中最长,并且与C、

33、S、X基因区有重叠,其编码的P蛋白含有3个功能域和1个无意义的隔离片(spacer,SP),排列顺序为N-末端蛋白(TP),SP,逆转录酶(RT)/DNA聚合酶(PR)和核糖核酸酶H(RNase H)。由于受到不能从病毒体直接纯化和在不同的系统中表达有活性的酶的限制,目前对聚合酶及其所编码的各个功能区域蛋白质的功能的认识还不是很清楚。,美国加州索尔克生物学研究中心研究小组成员安德鲁-迪林教授表示,一种名为pha-4的基因的活动与长寿密切相关,这种基因此前被认为在线形虫的胚胎发育过程中有重要作用。在实验中,研究人员向线形虫体内注入更多的pha-4基因,发现其寿命被延长。,研究人员表示,人体内也有

34、3种基因与pha-4基因十分相似,这3种基因与一种名为胰增血糖素的激素制造与调节过程密切相关。当食物缺乏时,这些基因将调节胰增血糖素的水平,最终影响到衰老过程。研究人员表示,将对这3种基因进行研究,观察其是否与线形虫体内基因的作用机制相似。,寻找pha-4的同源基因,请看下节,通过Entrze检索PHA-4基因,pha-4 Caenorhabditis elegans,Caenorhabditis elegans defective PHArynx development family member (pha-4) (pha-4) mRNA, complete cds.,保存PHA-4基因,进

35、入BLAST界面,/blast/Blast.cgi,This page will be automatically updated in 15 seconds,BLAST 进阶使用,继续探寻pha-4的同源基因,蛋白质数据库,BlastP,因为蛋白质比核酸高级一点吧,非冗余蛋白质数据库,Forkhead (FH), also known as a winged helix. FH is named for the Drosophila fork head protein, a transcription factor which promotes terminal rather than segmental development,马来丝虫的FH基因,Molgula occulta,FH1,The forkhead gene FH1 is involved in evolutionary modification of the ascidian tadpole larva,Molgula occulta,皮海鞘,PSI-Blast,浅谈,补充内容,探索远亲,位点特异性BLAST(Position-Speci

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论