序列数据库-核酸序列数据库.ppt_第1页
序列数据库-核酸序列数据库.ppt_第2页
序列数据库-核酸序列数据库.ppt_第3页
序列数据库-核酸序列数据库.ppt_第4页
序列数据库-核酸序列数据库.ppt_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4.2序列数据库,序列数据库,核酸序列数据库蛋白序列数据库,4.2序列数据库核酸数据库,4.2.1核酸数据库4.2.2数据库序列格式4.2.3数据库的查询4.2.4数据库搜索4.2.5数据提交4.2.6核酸数据库使用实例,4.2.1核酸数据库,1常用核酸序列数据库,国际上权威的核酸序列数据库欧洲分子生物学实验室的EMBLhttp:/www.embl-heidelberg.de美国生物技术信息中心的GenBank/Web/Genbank/日本遗传研究所的DDBJhttp:/www.ddbj.nig.ac.jp/,1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,NCBIGenBank,美国国家健康研究院(NationalInstiturteofHealth,简称NIH)于80年代初委托洛斯阿拉莫斯(LosAlamos)国家实验室建立GenBank,1982年正式运行后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆(NationalLiabratyofMedicine,简称NLM),EBIEMBL,EMBL是由欧洲分子生物学实验(EuropeanMolecularBiologyLaboratory)于1982年创建的目前由欧洲生物信息学研究所EBI(EuropeanBioinformaticInstiturte)负责管理。,DDBJ,DDBJ是DNADataBaseofJapan的简称,创建于1986年,由日本国家遗传学研究所负责管理。,2其它常用核酸序列数据库,dbESTUniGenedbSNP,3GenBank、EMBL数据库结构,了解序列数据库的格式,有助于更好地使用,提高数据库检索的效率和准确性DDBJ数据库的内容和格式与GenBank相同下面分别介绍EMBL和GenBank的数据库结构,GenBank数据库结构,完整的GenBank数据库包括序列文件索引文件其它有关文件索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。,GenBank序列文件,GenBank中最常用的是序列文件序列文件的基本单位是序列条目,包括核酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件,GenBank序列文件的结构,GenBank序列文件由单个的序列条目组成序列条目由字段组成每个字段由关键字起始,后面为该字段的具体说明有些字段又分若干子字段,以次关键字或特性表说明符开始每个序列条目以双斜杠“/”作结束标记,序列文件:序列条目字段关键字“/”,GenBank序列条目的关键字,LOCUS(序列名称)DEFINITION(说明)ACCESSION(接收编号)NID(核酸标识)KEYWORDS(关键词)SOURCE(数据来源)REFERENCE(文献)FEATURES(特性表)BASECOUNT(碱基组成)ORIGIN(碱基排列顺序),EMBL数据库结构,EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分序列条目由字段组成每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始最后以双斜杠“/”作本序列条目结束标记,EMBL条目的关键字,ID(序列名称)DE(序列简单说明)AC(序列编号)SV(序列版本号)KW(与序列相关的关键词)OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置)RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者单位),RX(相关文献Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释)CC(关于序列的注释信息)DR(相关数据库交叉引用号)FH(序列特征表起始),FT(序列特征表子项)SQ(碱基种类统计数),4.2.2数据库序列格式,GenBank和EMBL数据结构对比E.colik-12全基因组序列文件为例,LOCUSU000964639221bpDNAcircularBCT18-NOV-1998DEFINITIONEscherichiacoliK-12MG1655completegenome.ACCESSIONU00096KEYWORDS.SOURCEEscherichiacoli.ORGANISMEscherichiacoliBacteria;Proteobacteria;gammasubdivision;Enterobacteriaceae;Escherichia.REFERENCE1(bases1to4639221)AUTHORSBlattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,TITLEThecompletegenomesequenceofEscherichiacoliK-12JOURNALScience277(5331),1453-1474(1997)MEDLINE97426617COMMENTThissequencewasdeterminedbytheE.coliGenomeProjectattheUniversityofWisconsin-Madison(FrederickR.Blattner,director).SupportedbyNIHgrantsHG00301andHG01428(fromHumanGenomeProjectandNCHGR).TheentiresequencewasindependentlydeterminedfromE.coliK-12strainMG1655.PredictedopenreadingframesweredeterminedusingGeneMarksoftware,kindlysuppliedby,GenBank,FEATURESLocation/Qualifierssource1.4639221/organism=Escherichiacoli/strain=K-12“/sub_strain=MG1655/db_xref=taxon:562promoter71.99/note=factorSigma70;predicted+1startat106promoter104.132/note=factorSigma70;predicted+1startat139promoter188.212/note=factorSigma32;predicted+1startat219gene190.255/note=b0001/gene=thrLCDS190.255/gene=thrL/function=leader;Aminoacidbiosynthesis:Threonine/note=o21;100pctidenticaltoLPT_ECOLISW:P03059/codon_start=1/transl_table=11/product=throperonleaderpeptide/db_xref=PID:g1786182/translation=MKRISTTITTTITITTGNGAG“BASECOUNT1142136a1179433c1176775g1140877t,ORIGIN1agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc61tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg121tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac181acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt241aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg301ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt361acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc421aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg4639021caacatcaactgcaagctttacgcgaacgagccatgacattgctgacgactctggcagtg4639081gcagatgacataaaactggtcgactggttacaacaacgcctggggcttttagagcaacga4639141gacacggcaatgttgcaccgtttgctgcatgatattgaaaaaaatatcaccaaataaaaa4639201acgccttagtaagtatttttc/,IDU00096standard;circulargenomicDNA;CON;4639221BP.ACU00096;SVU00096.1DT24-JUL-2003(Rel.76,Lastupdated,Version3)DEEscherichiacoliK-12MG1655completegenome.KW.OSEscherichiacoliK12OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OCEnterobacteriaceae;Escherichia;Escherichiacoli.RN1RP1-4639221RXMEDLINE;97426617.RXPUBMED;9278503.RABlattnerF.R.,PlunkettG.III,BlochC.A.,PernaN.T.,BurlandV.,RTThecompletegenomesequenceofEscherichiacoliK-12;RLScience277(5331):1453-1474(1997).DRGOA;O32528.DRREMTREMBL;AAC74436;AAC74436.DRSPTREMBL;O32530;O32530.DRSWISS-PROT;O32528;YPDI_ECOLI.,EMBL,CCThissequencewasdeterminedbytheE.coliGenomeProjectattheCCUniversityofWisconsin-Madison(FrederickR.Blattner,director).CCSupportedbyNIHgrantsHG00301andHG01428(fromtheHumanGenomeCCProjectandNCHGR).TheentiresequencewasindependentlyCCdeterminedfromE.coliK-12strainMG1655.PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware,kindlysuppliedbyFHKeyLocation/QualifiersFTsource1.4639221FT/db_xref=taxon:83333FT/mol_type=genomicDNAFT/organism=EscherichiacoliK12FT/strain=K12FT/sub_strain=MG1655FTpromoter71.99FT/note=factorSigma70;predicted+1startat106FTCDS190.255FT/codon_start=1FT/db_xref=GOA:P03059FT/db_xref=SWISS-PROT:P03059FT/note=o21;100pctidenticaltoLPT_ECOLISW:P03059FT/transl_table=11FT/gene=thrLFT/function=leader;Aminoacidbiosynthesis:ThreonineFT/product=throperonleaderpeptideFT/protein_id=AAC73112.1FT/translation=MKRISTTITTTITITTGNGAG“,SQSequence4639221BP;1142136A;1179433C;1176775G;1140877T;0other;agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc60tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg120tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac180acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt240aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg300ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt360acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc420aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg480gcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaa540tattgctatcaattagcaacattaatacaacaaccggcgaaaagtgatgcaacggcagac4639020caacatcaactgcaagctttacgcgaacgagccatgacattgctgacgactctggcagtg4639080gcagatgacataaaactggtcgactggttacaacaacgcctggggcttttagagcaacga4639140gacacggcaatgttgcaccgtttgctgcatgatattgaaaaaaatatcaccaaataaaaa4639200acgccttagtaagtatttttc4639221/,EMBL和GenBank数据库的行识别标志比较,4.2.3数据库的查询,数据库查询是对数据库中的序列、结构、命名及注释信息进行关键词匹配查找。常用的数据库查询系统有美国NCBI开发的Entrez系统和EMBL开发的SRS(SequenceRetrievalSystem)系统。,Entrez是基于Web界面的综合生物信息数据库检索系统。是NCBI提供的集成检索工具。利用Entrez系统,使用者可以检索Genbank的核酸数据,以及Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、Medline的文献数据。Entrez所有操作都可以在网络浏览器上完成,利用Entrez界面上提供的限制条件(Limits)检索历史(History)剪贴板(Clipboard)等功能实现各种复杂的检索查询工作,Entrez系统具有三个特点,Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一个数据库。Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Relatedsequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。Entrez系统的开发基于特殊的数据模型NCBIASN.1(AbstractSyntaxNotation),在对于文献摘要中的关键词查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“RelatedArticles”继续查找相关文献。,SRS是SequenceRetrievalSystem的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的SRS是欧洲各国主要生物信息中心必备的数据库查询系统,SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务器上在我国,北京大学生物中心,中国科学院微生物研究所、上海生命科学院等多家单位也相继安装了SRS系统,国内的科研工作者可以利用局域网登陆使用,国际上主要SRS数据库查询系统服务器系统的网址,欧洲生物信息研究所http:/srs6.ebi.ac.uk/srs6/英国基因组资源中心http:/iron.hgmp.mrc.ac.uk/srs6/英国基因组测序中心http:/www.sanger.ac.uk/srs6/法国生物信息中心biogen.fr/srs6/荷兰生物信息中心http:/www.cmbi.kun.nl/srs6/澳大利亚医学研究所.au/srs6/德国癌症研究所http:/genius.embnet.dkfz-heidelberg.de/menu/srs/加拿大生物信息资源中心http:/www.cbr.nrc.ca/srs6.1/,SRS采用建立数据库索引文件的方式,能够快速高效地对各种数据库进行查询,并具有查询结果相关处理功能可根据不同的要求利用三种方式进行查询快速查询标准查询扩展查询,SRS系统主要特点,1.统一的用户界面2.高效的查询功能3.灵活的指针链接4.方便的程序接口5.开放的管理模式6.统一的开发平台,4.2.4数据库搜索,数据库搜索与数据库查询是本质不同的概念,1.数据库搜索的概念,数据库搜索是指通过序列相似性比对的算法,在核酸序列数据库和蛋白质序列数据库中检测出与被检序列具有一定相似性的序列(或称为同源序列),数据库搜索的基础是序列的相似性比对。对于在分子生物学研究中获得的新碱基序列或由此翻译得到的氨基酸序列,通过数据库搜索方法,得到具有一定相似性的同源序列,预测未知序列基因家族的归属,及其生物学功能。对于氨基酸序列,如果得到与已知三维结构的同源蛋白质,进而推测其可能的空间结构,预测其蛋白质功能。因此,数据库搜索与数据库查询一样,是生物信息学研究中的一个重要工具。,选择恰当的搜索算法和搜索程序,正确分析搜索结果,都是数据库搜索过程中的重要环节。目前,常用的序列类似性检索软件工具是BLAST、FASTA和BLITZ等。,一般而言,对于DNA序列相似性检索FASTA算法的敏感度较高但BLAST检索速度较快当使用BLAST和FASTA均不能找出显著相似的匹配序列时,需要采用BLITZ程序,虽然BLITZ的运行速度较慢,但是其特异性比较高,程序的选用除了考虑其算法外,还要考虑其易用性,从整体上考虑联合使用效果最佳序列相似性搜索可以通过电子邮件或下载软件和数据库到自己的计算机实现最佳方式是利用www互连网进行序列类似性搜索。Web网页服务器提供免费共享的序列数据库和高效专门的软件,运算速度快,结果可以传输到用户计算机上,2.BLAST数据库搜索工具,BLAST(basiclocalalignmentsearchtool)的含义是基本局部相似性比对搜索工具其算法基本路线是找出被检测序列与已知序列之间相似性最高的片段作为中心单元,并向两端延伸找出最长的相似性序列片段,BLAST的基本思想:,序列S:,序列t:,找出两个序列共同的短片段经过扩展后形成更长的相似片断,扩展,扩展,给定一个检测序列,BLAST返回所有检测序列与数据库序列得分超过某个阈值S的片段对阈值S可以由用户设定,但程序有一个缺省的推荐值选择S的基本原则是:一条随机序列与查询序列比较的得分不会超过S,BLAST对序列格式的要求是常见的FASTA格式FASTA格式广泛应用于许多分子生物学软件包中第一行是描述行,第一个字符必须是“”字符,表示一个新文件的开始,并注释序列的相关信息随后是序列行本身,每行序列一般不超过80个字符,可用回车符,FASTA格式,sequenceleaderACAGAAATTTGGCAATTCCGAGAGTACTAGCTTACGTCCAAAGTCAGTCCAGTACCGTTTTAGGGGAAACCCGGGGG,BLAST可以按照检测的序列性质和数据库序列的类型分为以下几个基本类别BlastnBlastpBlastxTBlastnTBlastx,BLAST程序检测序列和数据库类型,BLAST搜索的核酸数据库,BLAST使用界面,3.BLAST提供了许多参数,直方图(Histogram):显示每次检索评分的直方图。有yes、no两种选择,默认值为yes。期望值(Expect,E值):它是期望数据库中具有某一统计学意义配对序列的值。有default、0.001、0.01、0.1、1、10、100、1000等选择值,默认值为10,一般地,期望值越低,限制越严格,甚至会导致无随机配对序列。,BLAST程序显示搜索结果,它包括四个部分:一是程序的介绍二是一系列配对数据库序列的描述,从记分值高到低排列,一行描述一条序列三是实际的序列对准四是检索中设定的参数及其它统计数据,4.BLAST服务的四种基本方法,经由WWW使用的BLAST网络版的BLAST独立运行的BLAST电子邮件的BLAST,序列数据库搜索流程,检测序列(靶序列),服务器(NCBI、EBI),搜索程序(BLAST、FASTA),选择适合的BLAST程序,选择适当的数据库,分析输出结果,4.2.5数据提交,GenBank的数据来源主要有是科学家直接提交的数据和测序中心以序列表达标识EST或以大量的基因组记录形式成批发送的数据,最主要的来源是科学家直接提交的数据。目前常用的提交工具是NCBI设计的Bankit和Sequin等软件。,Bankit,它的提交方法是一种基于www的网络提交软件,使用方便而且速度快。BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。,数据库的提交原则,不接受长度少于50bp的序列;不接受不含有内含子的基因组序列;不接受引物序列;不接受蛋白序列;不接受基因组和mRNA的混合序列等。,提交的步骤,输入提交核酸序列的长度,点击“NEW”按钮在原始表格中完整输入提交者和序列的基本信息及核酸序列数据检查草稿并修改可能出现的错误详细注释该记录的生物学特征的数目和类型,然后点击“ModifySubmission”按钮,返回表格,输入每个特征的详细情况,包括蛋白质翻译重复第三、第四的步骤,直到整个记录完成点击“ReviewandSubmit”按钮,检查最后的草稿点击“SubmittoGeneBank”按钮,发送提交序列数据,Sequin,大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。在不同操作系统下运行的Sequin程序都可以在/sequin/下载。,此外,EST序列应通过EST数据库提交,EST序列的提交可以通过email方式,email地址:。,4.2.6核酸数据库使用实例,核酸序列的检索数据库核酸序列相似性搜索,1.核酸序列的查询,以NCBI网站的ENTREZ查询系统为例登陆NCBI网站选择Entrez进入Entrez主页选择检索的数据库,(1)直接查找,在查询框中键入检索词例如输入“p53”检索词可以是GenBank接受编号、基因名、分类、关键词、注释信息、作者及文献题目等相关内容如果一次查询多个序列信息,可输入多个基因接受编号,检索结果有若干条符合条件的序列。选择其中所需的序列,点击打开该序列的链接,得到序列的原始信息记录和注释。解读GenBank数据库序列文件的注释信息,(2)根据基因名称,以人血清白蛋白为例基因名:ALB,通过基因名称,REFERENCE1(bases1to19002)AUTHORSMinghetti,P.P.,Ruffner,D.E.,Kuang,W.J.,Dennison,O.E.,Hawkins,J.W.,Beattie,W.G.andDugaiczyk,A.TITLEMolecularstructureofthehumanalbumingeneisrevealedbynucleotidesequencewithinq11-22ofchromosome4JOURNALJ.Biol.Chem.261(15),6747-6757(1986)PUBMED3009475REFERENCE2(bases17688to17755;18526to18555),COMMENTComputer-readablesequencein1waskindlyprovidedbyA.Dugaiczyk,01-JUL-1986.Draftentryandprintedcopyofsequencefor2kindlyprovidedbyL.Minchiotti,09-DEC-1988.2describesamissplicingeventinalooalbumin.FEATURESLocation/Qualifierssource1.19002/organism=Homosapiens/mol_type=genomicDNA/db_xref=taxon:9606/chromosome=4/map=4q11-q13/,(3)根据基因接受号,以人血清白蛋白Genbank接受号:M12523,通过接受号获得序列,2.数据库核酸序列相似性搜索,利用NCBI上的BLASTn核酸搜索工具查找基因名为人ALB基因(AF116645)的相似序列,登陆NCBI网站选择BLAST进入BLAST主页,点击进入BLASTn页面选择搜索的核酸数据库选择人类数据库向数据库提交序列在搜索框中键入基因接收号或粘贴FASTA格式的核酸序列,点击提交按钮传输分析结果服务器返回一个所提交任务的标识号(RID)稍后可输分析结果,3.数据提交,向GeneBank提交新EST序列利用email方式提交两条无高度同源性序列片段,编号为02A和03B。Email地址:,提交的内容和格式,有关文献的信息PublicationFilesTYP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论