




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-,1,数据库查询和数据库搜索是分子生物信息学中两个常用序语。数据库查询是指对序列、结构以及各种二级数据库中的注释信息进行关键词匹配查找。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。,-,2,第一节常用的核酸数据库,一、GenBankNCBI核酸序列数据库1、GenBank核酸序列数据库的检索,GenBank数据库的简单查询是在NCBI首页上的Search中直接查询,-,3,利用著者进行查询时,输入格式应为作者的姓加上名的缩写。如:Thomas,-,4,-,5,-,6,也可以用序列登记号(accessionnumber)进行一般查询,如:AF477385,-,7,-,8,高级检索是通过NCBI的Entrez检索系统实现。Entrez是NCBI的数据库检索查询系统的核心。利用Entrez系统,可以检索GenBank和其他数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集,以及有Pubmed获得Medline的生物医学文献数据。,-,9,-,10,Entrez提供方便实用的检索服务,所有操作都可以在网络浏览器上完成。利用Entrez界面提供的限制条件(Limit键)、索引(Index键)、检索历史(History键)和剪贴板(Clipboard键)等功能实现复杂的检索查询工作。,-,11,进入NCBI的Entrez主页,用户可以选择组成Entrez系统的五个数据库之一作为查询起点。如以Nucleotide开始。选择Nucleotide即进入EntrezNucleotidesearch界面,点击Limits进入限定检索界面。如上图。完成各限制条件后,点击Go即进行检索。,-,12,-,13,2、NCBI中的GenBank数据的格式,LOCUSDEFINITION序列名称基因定义ACCESSION序列编号序列接受号或登记号VERSION序列版本号DATE序列提交、创建和更新日期DISCRIPTION序列简要描述KEYWORDS与序列相关的关键词SOURCE序列的来源种属ORGANISM序列的来源分类REFERENCE参考文献编号或递交序列信息REMARK参考文献评述MEDLINE参考文献交叉索引或递交序列在Medline中的存取号TITLEAUTHER参考文献作者或递交序列作者TITLE参考文献题目JOURNAL参考文献出处FEATURES序列特征表起始COMMENT序列注释信息BASECOUNT序列起始标志ORIGEN序列数据,-,14,-,15,LOCUSTG29EDGP839bpDNAlinearINV18-APR-1998DEFINITIONToxoplasmagondiiDNAencodinga29kDGRA.ACCESSIONY13863VERSIONY13863.1GI:2231107KEYWORDS29kDaprotein;densegranuleprotein;p29gene.SOURCEToxoplasmagondiiORGANISMToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,etal.TITLEGRA7,JOURNALMol.Biochem.Parasitol.91(2),251-262(1998)PUBMED9566518,1:Y13863.ReportsToxoplasmagondii.gi:2231107,-,16,REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiologyandVirology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURESLocation/QualifiersCDS79.789,-,17,Entrez用途,检索大分子生物学数据获取GenBank,EMBL等数据库的核酸序列;获取Swiss-prot,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列;获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索。PubMed书目文献数据。,-,18,Entrez生命科学搜索引擎,-,19,Entrez跨库检索,-,20,检索字段限制,分子类型选择,基因位置限定,序列片段限定,数据更新日期限定,功能栏,核酸序列检索,-,21,序列存取号,基因定义,数据库标识符,-,22,代码,物种来源,参考文献,特性,专业评论,-,23,碱基数,原序列复制后,可到BLAST中进行相似性对比,-,24,二、EMBL欧洲核酸数据库,EMBL数据库共有Genomes、Simplesequenceretrieval和SRS(序列提取系统)三种检索方式。,1、Genomes提供已完成测序的基因组数据,用户可以通过生物分类名称以分层点击浏览的方式获取相关信息,通过相关链接,用户可获得大量已完成测序的基因组数据。,-,25,网址为:http:/www.ebi.ac.uk/genomes,-,26,2、Simplesequenceretrieval:直接输入序列接受号检索核酸序列。网址:http:/www.ebi.ac.uk/cgi-bin/emblfetch,-,27,3、SRS(序列提取系统):是目前生物信息界应用最为广泛的数据库系统。网址:http:/srs.ebi.ac.uk/检索序列时只需用鼠标点击“Search”,在输入框中输入拟检索的信息即可。SRS的详细信息参见:http:/www.sanger.ac.uk/srs/srsman.html,-,28,-,29,三、DDBJ日本DNA数据库,包括Getentry、SRS、AfgateTAIS、Homology等几种方法。前四种用于检索DDBJ数据库中原始数据,Homology采用FASTA/BLAST检索对用户提供的序列或片段做同源性分析。,1、Getentry:通过登录号检索DDBJ核酸数据库,最多可同时输入10个号码进行检索,各号码之间用空格或“,”分隔,连续号码可用“-”表示。还可用Locusname、Genename、Productname、P-ID、Clonenumber和Patent号等检索。,-,30,2、SRS:有快速检索和高级检索两种途径。快速检索可同时选择多个数据库进行检索,并且它只对来自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Title”及“Comment”等10个默认字段的信息进行检索。3、AfgateTAIS:比较简单的关键词检索途径,在检索框内输入检索策略,点击startsearch按钮即可完成。,-,31,-,32,第二节常用的RNA数据库及软件,一、Transterm-mRNA序列和翻译调控元件数据库,1、Transterm数据库简介,Transterm数据库由新西兰Otago大学生物化学系构建并维护,是一个mRNA序列和翻译调控元件数据库。Transterm设计的目的是研究mRNA的构成以及翻译过程中的调控信号。Transterm中收录的mRNA序列包括多种功能成分,既可以对一种物种进行分析,也可以借此进行信息查询。,-,33,每一个从GenBank内提取的mRNA被分成以下部分:功能成分,起始编码区,终止编码区,即5-UTR、3-UTR和翻译信号的侧翼序列。,网址:http:/www.uther.otago.ac.nz/Transterm.html,-,34,2、Transterm数据检索Transterm提供每一物种密码子使用表格,还提供描述mRNA中已知的基序或特征的模式的总结。通过Transterm来源于GenBank的编码区可被分割为5侧翼、起始区、全编码区、终止区、3侧翼。在Transterm的WWW界面使用与数据库文件和有关数据库相关联的图表,可以搜索所有或部分数据库内容,找寻任一条符合条件的模式或用户自定义的模式。,-,35,二、RDP-11-核糖体数据库,由Maidak等人创建,提供一切与核糖体有关的数据、程序及相关服务计算机程序,包括rRNA在线数据分析、进化分类系统树、rRNA相似序列的排列、序列注释、rRNA二级结构图以及各种相似序列比较分析和显示软件。,网址:,1、简介,-,36,2、RDP-数据库提供的分析工具,(1)ProbeMatch:分析特异探针在数据库中出现的频率(2)SequenceMatch:通过nearestneighbors算法确定与用户序列最相近的RDP-序列。(3)SequenceAlign:对使用者的数据进行排列,找到与使用者序列最相近的RDP-序列。(4)SimilarityMatrix:计算RDP-和/或使用者序列的相似性/不相似性矩阵。(5)ChimeraCheck:检查用户序列是否为嵌合型。,-,37,(6)AlignmentSlices:从RDP-全排列数据库中抽取兴趣部分,与相邻序列精简压缩为一个序列,突出邻近序列的差异性.(7)SequenceSelection:从动态展示的等级分类中选取序列,选出的序列可被下载并进行RDP-其他软件分析。(8)T-RFLP:以ABI测序系统格式使用数据,建立一个相似性矩阵。,-,38,(9)TAPT-RFLP:在RDP数据库中进行“T-RFLP实验”,利于设计与分析。(10)(Sub)Trees:一种Javaapplet,可以用来展示、操纵种属进化系统树,产生新分支,或选取序列进行其他的RDP-分析。(11)PCA(principalComponentanalysis):对那些较大的序列系统进行图象化处理,PCA可通过网页上的“SopplementaryMateriallinks”找到。,-,39,三、RNA二级结构预测借助计算机生物学可以很好地利用已知的RNA序列进行二级结构预测乃至三级结构建模。目前较成熟并实现自动化的软件主要在二级结构预测的水平上。1、ViennaRNA软件包综合了两种算法来预测RNA二级结构:一种是最小自由能的动态规划算法,另一种是McCaskill的分割函数算法。除RNA折叠外,还可计算给定二级结构的RNA能量、RNA比热及采用字符串联配或编辑计算二级结构间距离,还为反折叠提供一种算法,搜索给定二级结构的RNA序列。,-,40,2、MFOLDZuker的主页含众多RNA结构站点的超链接,作为RNA相关网站的导航站点。该站点可以下载最新mfold软件,也可以将序列提交给Zuker的mfold服务器完成。其中RNAstructure是Zuker预测RNA二级结构的Windows9X/WindowsNT版本,可以免费下载。3、RNAdraw其主页详细介绍了程序的安装、原理、使用和前景。大多数RNA二级结构预测均可在大型计算机上完成,一般实验室不具备这些条件。,-,41,4、RNA世界可能是最全面的RNA站点,其超链接包括各种数据库站点、网络工具、序列、二级结构以及相关软件。可以很方便地根据PDB(proteindatabank)代码或者NDB(nucleicaciddatabase)代码来查找所需要RNA的结构信息,同时提供包括研究方法、参考文献、可视化图象软件及相关数据库等信息。5、其他核酸数据库HIVDatabaseHIV序列数据库、IMGTImMunoGeneTics数据库;dbEST表达序列标签数据库、BERLIN5SrRNA数据库;EPD真核启动子数据库。,-,42,第三节核酸同源性序列比对的策略和方法,序列比较的根本任务是:发现序列之间的相似性辨别序列之间的差异目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系,数据库搜索就是一种基于两两比较的序列比对,因为它为两个序列的功能片段之间的相互关系提供一个非常明确的图谱。较多序列的比对是序列比对的一个重点方向,本节只介绍两亮序列比对。,-,43,一、数据库的相似性搜索,对于一个新序列的分析首要任务就是将其与各种数据库进行比较搜索,发现是否存在同源序列。数据库相似性搜索能够从数据库海量中挑选出相关联的序列。最佳方式是搜索几个不同的数据库以发现最大可能多的同源序列。,-,44,二、BLAST简介BLAST和FASTA是当前应用最广泛的程序,最新版的BLAST和FASTA中已消除原有各自局限性。综合程序速度和敏感性,本节介绍NCBI中的BLAST程序。BLAST(basiclocalalignmentsearchtool,局部序列相似性对比工具)集速度、敏感性、弹性与统计处理的最佳组合于一身,能迅速找到非空位的相似片段。在报告相似性的同时,也报告这个相似性片段出现的可能性。BLAST集成了一系列程序进行核酸和氨基酸序列不同类型的搜索,采用卡林氏统计描述结果的显著性。,-,45,-,46,BLAST是NCBI提供的用于核酸或蛋白质序列相似性对比分析的一个软件,已发展到包括BLASTP,BLASTN,BLASTX,TBLASTN,TBLASTX,MEGABLAST,PSI-BLAST,PHI-BLAST,RPS-BLAST等多个软件和应用工具的多功能序列分析程序。1、BLASTN:最早的BLAST程序,用于鉴定测序所得序列和查找与之相似的序列。系最常用BLAST软件。,-,48,2、MEGABLAST:用于鉴定一个未知的核酸序列。若要了解测得一个未知核酸序列是否已发表在公开的核酸数据库中,以及其相关的生物研究文献时,这是一个最好的工具。它可有效地找到与序列相近的其他序列。3、DiscontiguousMEGABLAST:与MEGABLAST相似,主要用于相近的序列段比较短、并且相邻的序列段不连续的搜索。相近序列不易查找时,该工具可以提高查询灵敏度和查询效果。,-,49,4、BLASTP:为查询蛋白质序列设计的软件,主要用于鉴定蛋白质的氨基酸序列和在数据库中查找相似的序列。既可通过找到相似的已知蛋白质的功能来鉴定一个未知的蛋白质序列的功能,也可用于两个或多个蛋白质序列的比较。5、PSI-BLAST(点位重心BLAST):最灵敏的BLAST程序,通过它可以找到一个蛋白质的远亲序列。,-,50,6、PHI-BLAST(特异片段重心BLAST):可以指定某一个蛋白质序列片段,并以这个片段为重心查询相关蛋白质序列。7、BLASTX:把所需查询的核酸序列翻译成氨基酸序列,再在蛋白质数据库中查找。LBASTX可以将核酸序列翻译成有6种可能的氨基酸序列后在进行查寻,对编码区所有三联密码的组合所翻译的氨基酸序列都查寻,提高了查寻灵敏度。,-,51,8、TBLASTN:与BLASTX相反,TBLASTN蛋白质序列翻译成可能的6种三联密码核酸序列,对寻找相似功能的核酸序列特别有用。多用于EST和大规模测序所做的序列分析,对三联密码的错位有很高的容错度。9、TBLASTX:把要查寻的核酸序列和进行比较的核酸序列都翻译成6种可能的氨基酸序列后进行比较。10、RPS-BLAST:用于鉴定某些进化上比较稳定的蛋白质功能片段。数据来源于NCBI的CDD数据库。11、CDART(conserveddomainarchitetureretrievaltool):用于筛选特定蛋白质数据库中所有的蛋白质功能片段和功能片段结构,并得到含有某一个或多个功能片段结构的所有蛋白质序列。,-,52,三、BLAST应用举例顺序:建立BLAST搜索,确定查询序列;选择适当的搜索程序和相应的数据库,以及参数;发送查询序列;读取BLAST结果。1、具体步骤(1)确定查询序列;(2)选择数据库和搜索程序:数据库为核酸数据库,程序为BLASTN;,-,53,(3)选择默认的允许非空位的搜索;(4)E值限制,默认为10;(5)用默认矩阵BLOSUM62;(6)最后确认结果输出格式。确认以上参数无误后,点击“BLAST”按钮,同时也可以选择E-mail回复结果。,2、结果分析BLAST结果分两部分,即图形化结果和文字结果,后者又分为有意义的序列排列、两两对比结果、统计结果三部分。,-,54,选择对比程序,基因组对比,特殊对比,-,55,-,56,将序列数据库中的复制序列在此粘贴,-,57,点击,-,58,(1)图形结果,得分高低以不同颜色表示:200红色,80-200分红色,50-80绿色,40-50蓝色,40黑色,也表示同源性由高到低。,-,59,2、文字结果,-,60,-,61,搜索的分值高低排列,即同源性从高到低。排列第一的是查询序列本身。右侧分别为随机分值(score,S值)和期望值(expect,E值)。E值是特定匹配中基本的随机噪声。S值增加,E值呈指数性减少,即随机噪声降低,表明序列同源性较高。经验提示,DNA序列具有75%以上的同源性才具有潜在的生物学意义,但这种结果很难把握,必须实验验证,或要求研究者具有丰富的序列分析经验。,-,62,序列对比报告,对比资源,类似性图谱,-,63,对比图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度最美英音!英国女王2019年圣诞致辞 中英互译
- 贵州省凯里市2025年上半年公开招聘村务工作者试题含答案分析
- 贵州省凤冈县2025年上半年事业单位公开遴选试题含答案分析
- 贵州省台江县2025年上半年公开招聘村务工作者试题含答案分析
- 2026届吉林省安图县安林中学化学高二上期末预测试题含答案
- 区块链硬件身份认证-洞察及研究
- 智能储能协同控制-洞察及研究
- 知识图谱培训目标课件
- 知识体系工程师培训课件
- 知识付费培训软件课件
- 2025秋外研新版三起点小学英语四年级上册教学计划
- 2025北师大版(2024)三年级上册数学教学计划
- 2025云南省腾冲市边防办招聘边境专职联防员(10人)笔试参考题库附答案解析
- 2025-2026学年人教版(2024)初中数学八年级上册教学计划及进度表
- 中小会计师所发展困境及对策
- 2025至2030中国微波器件行业市场调研分析及竞争形势与投资发展报告
- 2025年12123学法减分考试题库及答案
- 外伤出血急救课件
- 医院感染管理手卫生
- 医院就诊全流程指南
- 监督协议书模板
评论
0/150
提交评论