核酸数据库的应用_第1页
核酸数据库的应用_第2页
核酸数据库的应用_第3页
核酸数据库的应用_第4页
核酸数据库的应用_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于核酸数据库的应用第1页,讲稿共77页,2023年5月2日,星期三

数据库查询和数据库搜索是分子生物信息学中两个常用序语。数据库查询是指对序列、结构以及各种二级数据库中的注释信息进行关键词匹配查找。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。第2页,讲稿共77页,2023年5月2日,星期三第一节常用的核酸数据库

一、GenBank-NCBI核酸序列数据库1、GenBank核酸序列数据库的检索GenBank数据库的简单查询是在NCBI首页上的Search中直接查询检索窗口第3页,讲稿共77页,2023年5月2日,星期三利用著者进行查询时,输入格式应为作者的姓加上名的缩写。如:Thomas点击第4页,讲稿共77页,2023年5月2日,星期三点击第5页,讲稿共77页,2023年5月2日,星期三第6页,讲稿共77页,2023年5月2日,星期三也可以用序列登记号(accessionnumber)进行一般查询,如:AF477385点击第7页,讲稿共77页,2023年5月2日,星期三第8页,讲稿共77页,2023年5月2日,星期三

高级检索是通过NCBI的Entrez检索系统实现。Entrez是NCBI的数据库检索查询系统的核心。利用Entrez系统,可以检索GenBank和其他数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集,以及有Pubmed获得Medline的生物医学文献数据。第9页,讲稿共77页,2023年5月2日,星期三第10页,讲稿共77页,2023年5月2日,星期三Entrez提供方便实用的检索服务,所有操作都可以在网络浏览器上完成。利用Entrez界面提供的限制条件(Limit键)、索引(Index键)、检索历史(History键)和剪贴板(Clipboard键)等功能实现复杂的检索查询工作。

第11页,讲稿共77页,2023年5月2日,星期三

进入NCBI的Entrez主页,用户可以选择组成Entrez系统的五个数据库之一作为查询起点。如以Nucleotide开始。选择Nucleotide即进入EntrezNucleotidesearch界面,点击Limits进入限定检索界面。如上图。完成各限制条件后,点击Go即进行检索。第12页,讲稿共77页,2023年5月2日,星期三第13页,讲稿共77页,2023年5月2日,星期三2、NCBI中的GenBank数据的格式LOCUSDEFINITION序列名称基因定义ACCESSION序列编号序列接受号或登记号VERSION序列版本号DATE序列提交、创建和更新日期DISCRIPTION序列简要描述KEYWORDS与序列相关的关键词SOURCE序列的来源种属ORGANISM序列的来源分类REFERENCE参考文献编号或递交序列信息REMARK参考文献评述MEDLINE参考文献交叉索引或递交序列在Medline

中的存取号TITLEAUTHER参考文献作者或递交序列作者TITLE参考文献题目JOURNAL参考文献出处FEATURES序列特征表起始COMMENT序列注释信息BASECOUNT序列起始标志ORIGEN序列数据第14页,讲稿共77页,2023年5月2日,星期三第15页,讲稿共77页,2023年5月2日,星期三·

LOCUSTG29EDGP839bpDNAlinearINV18-APR-1998DEFINITIONToxoplasmagondiiDNAencodinga29kDGRA.ACCESSION

Y13863VERSION

Y13863.1GI:2231107KEYWORDS29kDaprotein;densegranuleprotein;p29gene.SOURCE

ToxoplasmagondiiORGANISM

ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,etal.TITLEGRA7,JOURNAL

Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED9566518

1:Y13863.ReportsToxoplasmagondii...[gi:2231107]

第16页,讲稿共77页,2023年5月2日,星期三REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiologyandVirology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES

Location/QualifiersCDS

79..789第17页,讲稿共77页,2023年5月2日,星期三Entrez

用途检索大分子生物学数据获取GenBank,EMBL等数据库的核酸序列;获取Swiss-prot,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列;获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索。PubMed书目文献数据。第18页,讲稿共77页,2023年5月2日,星期三Entrez生命科学搜索引擎第19页,讲稿共77页,2023年5月2日,星期三Entrez跨库检索第20页,讲稿共77页,2023年5月2日,星期三检索字段限制分子类型选择基因位置限定序列片段限定数据更新日期限定功能栏核酸序列检索第21页,讲稿共77页,2023年5月2日,星期三序列存取号基因定义数据库标识符第22页,讲稿共77页,2023年5月2日,星期三代码物种来源参考文献特性专业评论第23页,讲稿共77页,2023年5月2日,星期三碱基数原序列复制后,可到BLAST中进行相似性对比第24页,讲稿共77页,2023年5月2日,星期三二、EMBL-欧洲核酸数据库EMBL数据库共有Genomes、Simplesequenceretrieval和SRS(序列提取系统)三种检索方式。1、Genomes提供已完成测序的基因组数据,用户可以通过生物分类名称以分层点击浏览的方式获取相关信息,通过相关链接,用户可获得大量已完成测序的基因组数据。第25页,讲稿共77页,2023年5月2日,星期三网址为:http://www.ebi.ac.uk/genomes第26页,讲稿共77页,2023年5月2日,星期三2、Simplesequenceretrieval

:直接输入序列接受号检索核酸序列。网址:http://www.ebi.ac.uk/cgi-bin/emblfetch第27页,讲稿共77页,2023年5月2日,星期三3、SRS(序列提取系统):是目前生物信息界应用最为广泛的数据库系统。网址:http://srs.ebi.ac.uk/检索序列时只需用鼠标点击“Search”,在输入框中输入拟检索的信息即可。SRS的详细信息参见:http://www.sanger.ac.uk/srs/srsman.html第28页,讲稿共77页,2023年5月2日,星期三第29页,讲稿共77页,2023年5月2日,星期三三、DDBJ-日本DNA数据库包括Getentry、SRS、Afgate&TAIS、Homology等几种方法。前四种用于检索DDBJ数据库中原始数据,Homology采用FASTA/BLAST检索对用户提供的序列或片段做同源性分析。1、Getentry:通过登录号检索DDBJ核酸数据库,最多可同时输入10个号码进行检索,各号码之间用空格或“,”分隔,连续号码可用“-”表示。还可用Locusname、Genename、Productname、P-ID、Clonenumber和Patent号等检索。第30页,讲稿共77页,2023年5月2日,星期三2、SRS:有快速检索和高级检索两种途径。快速检索可同时选择多个数据库进行检索,并且它只对来自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Title”及“Comment”等10个默认字段的信息进行检索。3、Afgate&TAIS:比较简单的关键词检索途径,在检索框内输入检索策略,点击startsearch按钮即可完成。第31页,讲稿共77页,2023年5月2日,星期三第32页,讲稿共77页,2023年5月2日,星期三第二节常用的RNA数据库及软件一、Transterm---mRNA序列和翻译调控元件数据库1、Transterm数据库简介Transterm数据库由新西兰Otago大学生物化学系构建并维护,是一个mRNA序列和翻译调控元件数据库。

Transterm设计的目的是研究mRNA的构成以及翻译过程中的调控信号。Transterm中收录的mRNA序列包括多种功能成分,既可以对一种物种进行分析,也可以借此进行信息查询。第33页,讲稿共77页,2023年5月2日,星期三每一个从GenBank内提取的mRNA被分成以下部分:功能成分,起始编码区,终止编码区,即5’-UTR、3’-UTR和翻译信号的侧翼序列。网址:http://www.uther.otago.ac.nz/Transterm.html第34页,讲稿共77页,2023年5月2日,星期三2、Transterm数据检索Transterm提供每一物种密码子使用表格,还提供描述mRNA中已知的基序或特征的模式的总结。通过Transterm来源于GenBank的编码区可被分割为5’侧翼、起始区、全编码区、终止区、3’侧翼。在Transterm的WWW界面使用与数据库文件和有关数据库相关联的图表,可以搜索所有或部分数据库内容,找寻任一条符合条件的模式或用户自定义的模式。第35页,讲稿共77页,2023年5月2日,星期三二、RDP-11-------核糖体数据库由Maidak等人创建,提供一切与核糖体有关的数据、程序及相关服务计算机程序,包括rRNA在线数据分析、进化分类系统树、rRNA相似序列的排列、序列注释、rRNA二级结构图以及各种相似序列比较分析和显示软件。网址:http://www.1、简介第36页,讲稿共77页,2023年5月2日,星期三2、RDP-Ⅱ数据库提供的分析工具(1)ProbeMatch:分析特异探针在数据库中出现的频率(2)SequenceMatch:通过nearestneighbors算法确定与用户序列最相近的RDP-Ⅱ序列。(3)SequenceAlign:对使用者的数据进行排列,找到与使用者序列最相近的RDP-Ⅱ序列。(4)SimilarityMatrix:计算RDP-Ⅱ和/或使用者序列的相似性/不相似性矩阵。(5)ChimeraCheck:检查用户序列是否为嵌合型。第37页,讲稿共77页,2023年5月2日,星期三(6)AlignmentSlices:从RDP-Ⅱ全排列数据库中抽取兴趣部分,与相邻序列精简压缩为一个序列,突出邻近序列的差异性.(7)SequenceSelection:从动态展示的等级分类中选取序列,选出的序列可被下载并进行RDP-Ⅱ其他软件分析。(8)T-RFLP:以ABI测序系统格式使用数据,建立一个相似性矩阵。第38页,讲稿共77页,2023年5月2日,星期三(9)TAPT-RFLP:在RDP数据库中进行“T-RFLP实验”,利于设计与分析。(10)(Sub)Trees:一种Javaapplet,可以用来展示、操纵种属进化系统树,产生新分支,或选取序列进行其他的RDP-Ⅱ分析。(11)PCA(principalComponentanalysis):对那些较大的序列系统进行图象化处理,PCA可通过网页上的“SopplementaryMateriallinks”找到。第39页,讲稿共77页,2023年5月2日,星期三三、RNA二级结构预测借助计算机生物学可以很好地利用已知的RNA序列进行二级结构预测乃至三级结构建模。目前较成熟并实现自动化的软件主要在二级结构预测的水平上。1、ViennaRNA软件包综合了两种算法来预测RNA二级结构:一种是最小自由能的动态规划算法,另一种是McCaskill的分割函数算法。除RNA折叠外,还可计算给定二级结构的RNA能量、RNA比热及采用字符串联配或编辑计算二级结构间距离,还为反折叠提供一种算法,搜索给定二级结构的RNA序列。第40页,讲稿共77页,2023年5月2日,星期三2、MFOLDZuker的主页含众多RNA结构站点的超链接,作为RNA相关网站的导航站点。该站点可以下载最新mfold软件,也可以将序列提交给Zuker的mfold服务器完成。其中RNAstructure是Zuker预测RNA二级结构的Windows9X/WindowsNT版本,可以免费下载。3、RNAdraw

其主页详细介绍了程序的安装、原理、使用和前景。大多数RNA二级结构预测均可在大型计算机上完成,一般实验室不具备这些条件。第41页,讲稿共77页,2023年5月2日,星期三4、RNA世界可能是最全面的RNA站点,其超链接包括各种数据库站点、网络工具、序列、二级结构以及相关软件。可以很方便地根据PDB(proteindatabank)代码或者NDB(nucleicaciddatabase)代码来查找所需要RNA的结构信息,同时提供包括研究方法、参考文献、可视化图象软件及相关数据库等信息。5、其他核酸数据库

HIVDatabaseHIV序列数据库、IMGTImMunoGeneTics数据库;dbEST表达序列标签数据库、BERLIN5SrRNA数据库;EPD真核启动子数据库。第42页,讲稿共77页,2023年5月2日,星期三第三节核酸同源性序列比对的策略和方法序列比较的根本任务是:发现序列之间的相似性辨别序列之间的差异目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系数据库搜索就是一种基于两两比较的序列比对,因为它为两个序列的功能片段之间的相互关系提供一个非常明确的图谱。较多序列的比对是序列比对的一个重点方向,本节只介绍两亮序列比对。第43页,讲稿共77页,2023年5月2日,星期三一、数据库的相似性搜索

对于一个新序列的分析首要任务就是将其与各种数据库进行比较搜索,发现是否存在同源序列。

数据库相似性搜索能够从数据库海量中挑选出相关联的序列。

最佳方式是搜索几个不同的数据库以发现最大可能多的同源序列。

第44页,讲稿共77页,2023年5月2日,星期三二、BLAST简介

BLAST和FASTA是当前应用最广泛的程序,最新版的BLAST和FASTA中已消除原有各自局限性。综合程序速度和敏感性,本节介绍NCBI中的BLAST程序。

BLAST(basiclocalalignmentsearchtool,局部序列相似性对比工具)集速度、敏感性、弹性与统计处理的最佳组合于一身,能迅速找到非空位的相似片段。在报告相似性的同时,也报告这个相似性片段出现的可能性。

BLAST集成了一系列程序进行核酸和氨基酸序列不同类型的搜索,采用卡林氏统计描述结果的显著性。第45页,讲稿共77页,2023年5月2日,星期三第46页,讲稿共77页,2023年5月2日,星期三BLAST是NCBI提供的用于核酸或蛋白质序列相似性对比分析的一个软件,已发展到包括BLASTP,BLASTN,BLASTX,TBLASTN,TBLASTX,MEGABLAST,PSI-BLAST,PHI-BLAST,RPS-BLAST等多个软件和应用工具的多功能序列分析程序。1、BLASTN:最早的BLAST程序,用于鉴定测序所得序列和查找与之相似的序列。系最常用BLAST软件。第47页,讲稿共77页,2023年5月2日,星期三程序

数据库

blastpblastnblastxtblastntblastx蛋白质核酸蛋白质核苷酸(翻译)核酸(翻译)蛋白质核苷酸核酸(翻译)蛋白质核酸(翻译)可能找到具有远源进化关系的匹配序列适合寻找分值较高的匹配,不适合远源关系适合新DNA序列和EST序列的分析适合寻找数据库中尚未标注的编码区适合分析EST序列

第48页,讲稿共77页,2023年5月2日,星期三2、MEGABLAST:用于鉴定一个未知的核酸序列。若要了解测得一个未知核酸序列是否已发表在公开的核酸数据库中,以及其相关的生物研究文献时,这是一个最好的工具。它可有效地找到与序列相近的其他序列。3、Discontiguous

MEGABLAST:与MEGABLAST相似,主要用于相近的序列段比较短、并且相邻的序列段不连续的搜索。相近序列不易查找时,该工具可以提高查询灵敏度和查询效果。第49页,讲稿共77页,2023年5月2日,星期三4、BLASTP:为查询蛋白质序列设计的软件,主要用于鉴定蛋白质的氨基酸序列和在数据库中查找相似的序列。既可通过找到相似的已知蛋白质的功能来鉴定一个未知的蛋白质序列的功能,也可用于两个或多个蛋白质序列的比较。5、PSI-BLAST(点位重心BLAST):最灵敏的BLAST程序,通过它可以找到一个蛋白质的远亲序列。第50页,讲稿共77页,2023年5月2日,星期三6、PHI-BLAST(特异片段重心BLAST):可以指定某一个蛋白质序列片段,并以这个片段为重心查询相关蛋白质序列。7、BLASTX:把所需查询的核酸序列翻译成氨基酸序列,再在蛋白质数据库中查找。LBASTX可以将核酸序列翻译成有6种可能的氨基酸序列后在进行查寻,对编码区所有三联密码的组合所翻译的氨基酸序列都查寻,提高了查寻灵敏度。第51页,讲稿共77页,2023年5月2日,星期三8、TBLASTN:与BLASTX相反,TBLASTN蛋白质序列翻译成可能的6种三联密码核酸序列,对寻找相似功能的核酸序列特别有用。多用于EST和大规模测序所做的序列分析,对三联密码的错位有很高的容错度。9、TBLASTX:把要查寻的核酸序列和进行比较的核酸序列都翻译成6种可能的氨基酸序列后进行比较。10、RPS-BLAST:用于鉴定某些进化上比较稳定的蛋白质功能片段。数据来源于NCBI的CDD数据库。11、CDART(conserveddomainarchitetureretrievaltool):用于筛选特定蛋白质数据库中所有的蛋白质功能片段和功能片段结构,并得到含有某一个或多个功能片段结构的所有蛋白质序列。第52页,讲稿共77页,2023年5月2日,星期三三、BLAST应用举例顺序:①建立BLAST搜索,确定查询序列;

②选择适当的搜索程序和相应的数据库,以及参数;

③发送查询序列;

④读取BLAST结果。1、具体步骤(1)确定查询序列;(2)选择数据库和搜索程序:数据库为核酸数据库,程序为BLASTN;第53页,讲稿共77页,2023年5月2日,星期三(3)选择默认的允许非空位的搜索;(4)E值限制,默认为10;(5)用默认矩阵BLOSUM62;(6)最后确认结果输出格式。确认以上参数无误后,点击“BLAST”按钮,同时也可以选择E-mail回复结果。2、结果分析BLAST结果分两部分,即图形化结果和文字结果,后者又分为有意义的序列排列、两两对比结果、统计结果三部分。第54页,讲稿共77页,2023年5月2日,星期三选择对比程序基因组对比特殊对比第55页,讲稿共77页,2023年5月2日,星期三第56页,讲稿共77页,2023年5月2日,星期三将序列数据库中的复制序列在此粘贴第57页,讲稿共77页,2023年5月2日,星期三点击第58页,讲稿共77页,2023年5月2日,星期三(1)图形结果得分高低以不同颜色表示:≥200红色,80-200分红色,50-80绿色,40-50蓝色,<40黑色,也表示同源性由高到低。第59页,讲稿共77页,2023年5月2日,星期三2、文字结果第60页,讲稿共77页,2023年5月2日,星期三第61页,讲稿共77页,2023年5月2日,星期三搜索的分值高低排列,即同源性从高到低。排列第一的是查询序列本身。右侧分别为随机分值(score,S值)和期望值(expect,E值)。E值是特定匹配中基本的随机噪声。S值增加,E值呈指数性减少,即随机噪声降低,表明序列同源性较高。经验提示,DNA序列具有75%以上的同源性才具有潜在的生物学意义,但这种结果很难把握,必须实验验证,或要求研究者具有丰富的序列分析经验。第62页,讲稿共77页,2023年5月2日,星期三序列对比报告对比资源类似性图谱第63页,讲稿共77页,2023年5月2日,星期三对比图谱报告数据库标识符基因定义类似性积分E值为匹配期望值。说明可以找到与搜索序列相匹配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论