版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章第五章 数据库搜索数据库搜索 简介简介 n数据库查询(数据库查询(database query) n对序列、结构以及各种二次数据库中的注释信对序列、结构以及各种二次数据库中的注释信 息进行关键词的匹配与查找息进行关键词的匹配与查找 n数据库搜索(数据库搜索(database search) n通过特定的序列相似性比对算法,找出核酸或通过特定的序列相似性比对算法,找出核酸或 蛋白质序列数据库中与检测序列具有一定程度蛋白质序列数据库中与检测序列具有一定程度 相似性的序列相似性的序列 n二者区别二者区别 :注释信息:注释信息/序列信息序列信息 :关键词匹配:关键词匹配/序列比对序列比对 :查找
2、包含注释信息的所有条:查找包含注释信息的所有条 目目/查找具有一定相似性的序列信息查找具有一定相似性的序列信息 数据库查询系统数据库查询系统Entrez n相关背景知识相关背景知识 n由由NCBI开发,是一个为用户提供访问序列、开发,是一个为用户提供访问序列、 定位、分类和结构数据的搜索和检索系统定位、分类和结构数据的搜索和检索系统 n可提供序列和染色体图谱的图形视图可提供序列和染色体图谱的图形视图 n集成了集成了NCBI各种数据库中的信息各种数据库中的信息 n提供丰富多样的搜索方式提供丰富多样的搜索方式 n除了提供数据查询外,还提供生物分子数据分除了提供数据查询外,还提供生物分子数据分 析工
3、具(析工具(ORF Finder) n涉及的数据库涉及的数据库 nPubMed 生物医学文献生物医学文献Medline检索检索 nGenBank 核酸序列数据库核酸序列数据库 nProteins 蛋白质序列数据库蛋白质序列数据库 nStructures PDB三维结构数据库三维结构数据库 nGenomes 基因组数据库基因组数据库 nOMIM 人类基因和遗传疾病的分类数据库人类基因和遗传疾病的分类数据库 nTaxonomy 系统分类数据库系统分类数据库 nLocusLink 基因信息数据库基因信息数据库 nPopSet 种群亲缘关系核酸序列对比数据库种群亲缘关系核酸序列对比数据库 nEntre
4、z特点特点 n使用方便使用方便 n将序列、结构、文献、基因组、系统分类等不同类型的数据库有将序列、结构、文献、基因组、系统分类等不同类型的数据库有 机地结合在一起机地结合在一起 n有机结合了数据库和应用程序有机结合了数据库和应用程序 n链接的数据库丰富多样(文献数据库、序列数据库、结构数据库、链接的数据库丰富多样(文献数据库、序列数据库、结构数据库、 基因组数据库、系统分类数据库),基因组数据库、系统分类数据库), “Related sequence”工具,工具, 可直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到可直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到 的蛋白质三维结构
5、,还可通过的蛋白质三维结构,还可通过Cn3D软件直接显示分子图形软件直接显示分子图形 n交叉索引查询交叉索引查询 n通过超文本链接,用户可从一个数据库直接转入另一个数据库,通过超文本链接,用户可从一个数据库直接转入另一个数据库, 方便在数据库之间进行数据挖掘方便在数据库之间进行数据挖掘 n支持模糊查询支持模糊查询 n使用方法使用方法 n进入进入NCBI主页:主页:www.ncbi.nlm.nih或或 /entrez n在在search条中选定数据库,条中选定数据库,for条中输入关键词,单击条中输入关键词,单击 “Go” n屏幕上将会出现搜索
6、结果,单击某一条目即可知该条目屏幕上将会出现搜索结果,单击某一条目即可知该条目 的详细信息的详细信息 n单击单击“About Entrez”,进入,进入Entrez帮助页面帮助页面 各种数据库间相互各种数据库间相互 关系框图关系框图 n单击单击“Entrez Tutorial”进入进入 联机学习,联机学习, Entrez将以查将以查 询人类基因询人类基因 为例,介绍为例,介绍 各种数据库各种数据库 的查询方法,的查询方法, 使用户熟悉使用户熟悉 Entrez的使用的使用 方法(方法(pdf文文 件)件) nEntrez其他功能其他功能 nLimits:限定字段查询,只在给定范围内查找。不同的数
7、据库,可:限定字段查询,只在给定范围内查找。不同的数据库,可 限定的范围不同限定的范围不同 nPreview/Index:预检索预检索/索引检索,索引检索,只列条目,不列明细只列条目,不列明细 nHistory:查看历史纪录:查看历史纪录 nClipboard:将查询结果复制至剪贴板,便于后面使用:将查询结果复制至剪贴板,便于后面使用 nDetails:查看检索结果的详细内容:查看检索结果的详细内容 数据库查询系统数据库查询系统SRS Sequence Retrieval System n相关背景知识相关背景知识 n由欧洲分子生物学实验室(由欧洲分子生物学实验室(European Molecu
8、lar Biology Lab, EMBL)开发)开发 n开放的数据库查询系统,即不同的开放的数据库查询系统,即不同的SRS查询系统可根据用户查询系统可根据用户 需要安装不同的数据库需要安装不同的数据库 n网站地址:网站地址: nhttp:/srs.embl.de/srs/ (EMBL服务器服务器) nhttp:/srs.ebi.ac.uk/ (EBI 欧洲生物信息研究所欧洲生物信息研究所 服务器服务器) nhttp:/www.lionbio.co.uk/publicsrs.html (列出了全世界各地列出了全世界各地SRS服务服务 器的器的url地址地址) n可通过多种途径进行检索(名称、分
9、类等级、序列等)可通过多种途径进行检索(名称、分类等级、序列等) nEBML SRS服务器界面服务器界面 n华南理工大学华南理工大学SRS服务器界面服务器界面 nSRS主要特点主要特点 n统一的用户界面统一的用户界面 n安装通用网络浏览器即可查询世界上各地安装通用网络浏览器即可查询世界上各地SRS服务器上的服务器上的300多个多个 数据库数据库 n高效的查询功能高效的查询功能 n建立数据库索引文件,可快速高效实现查询,并可以某次查询结果建立数据库索引文件,可快速高效实现查询,并可以某次查询结果 为子数据库进行进一步查询为子数据库进行进一步查询 n灵活的指针链接灵活的指针链接 n超文本指针链接超
10、文本指针链接 n方便的程序接口方便的程序接口 n可将序列分析等应用程序嵌入至基本查询中,做进一步分析及处理可将序列分析等应用程序嵌入至基本查询中,做进一步分析及处理 n开放的管理模式和统一的开发平台开放的管理模式和统一的开发平台 n数据库以文件系统的方式进行存放,便于更新和二次开发数据库以文件系统的方式进行存放,便于更新和二次开发 n使用方法使用方法 n进入进入SRS主页:主页:http:/srs.ebi.ac.uk/ (EBI服务器)服务器) n在在Find条中选定数据库类型条中选定数据库类型nucleotides(核苷酸核苷酸), matching条中输入关键词条中输入关键词BRCA1(乳
11、腺癌易感基因乳腺癌易感基因),单单 击击“Search” n出现搜索结果,包括该基因的登记序列号、长度、出现搜索结果,包括该基因的登记序列号、长度、 摘要性摘要性 描述、首次登记时间、最后更新时间、相关描述、首次登记时间、最后更新时间、相关 文献文献/摘要、碱基对序列等摘要、碱基对序列等 n数据库搜索的基础是序列的相似性比对,即双序列数据库搜索的基础是序列的相似性比对,即双序列 比对比对(pairwise alignment),主要目的在于寻找同源主要目的在于寻找同源 序列序列 n同源序列同源序列(homology sequence):指从某一共同祖先经趋:指从某一共同祖先经趋 异进化而形成的
12、不同序列。异进化而形成的不同序列。 n检测序列检测序列(probe sequence):新测定的、希望通过数据库新测定的、希望通过数据库 搜索确定其性质或功能的序列搜索确定其性质或功能的序列 n目标序列目标序列(subject sequence):通过数据库搜索得到的、:通过数据库搜索得到的、 和检测序列具有一定相似性的序列和检测序列具有一定相似性的序列 n生物序列相似性比较中绝大部分的问题在计算机科生物序列相似性比较中绝大部分的问题在计算机科 学领域中主要体现为学领域中主要体现为 数据库搜索相似序列数据库搜索相似序列 n相似性与同源性相似性与同源性 n相似性相似性(Similarity):指
13、序列比对过程中用来描述检测序:指序列比对过程中用来描述检测序 列和目标序列之间具有相同列和目标序列之间具有相同DNA碱基碱基/氨基酸残基顺序所氨基酸残基顺序所 占比例的高低占比例的高低 n同源性同源性(homology):如果两序列有一个共同的进化祖先,:如果两序列有一个共同的进化祖先, 那么称其为同源的。当两序列同源时,它们的氨基酸那么称其为同源的。当两序列同源时,它们的氨基酸/核核 苷酸序列通常有显著的一致性(苷酸序列通常有显著的一致性(identity)。)。 n当相似程度高于当相似程度高于50%时,比较容易推测检测序列和目标时,比较容易推测检测序列和目标 序列可能是同源序列;而当相似性
14、程度低于序列可能是同源序列;而当相似性程度低于20%时,就时,就 难以确定二者是否具有同源性。难以确定二者是否具有同源性。 n两序列或者同源,或者不同源,所谓两序列或者同源,或者不同源,所谓“具有具有50%同源同源 性性”,或,或“这些序列高度同源这些序列高度同源”等说法,都是不确切的,等说法,都是不确切的, 应该避免使用。应该避免使用。 n局部相似性和整体相似性局部相似性和整体相似性 n序列比对分类序列比对分类 n整体比对:从全长序列出发,考虑序列的整体相似性整体比对:从全长序列出发,考虑序列的整体相似性 n局部比对:考虑序列部分区域的相似性。局部比对:考虑序列部分区域的相似性。 n由于蛋白
15、质的功能位点往往由较短的序列片段组成,故由于蛋白质的功能位点往往由较短的序列片段组成,故 尽管在序列的其它部位可能有插入、删除或突变,但是尽管在序列的其它部位可能有插入、删除或突变,但是 这些部位的序列仍然具有相当大的保守性。此时,局部这些部位的序列仍然具有相当大的保守性。此时,局部 相似性比对往往比整体比对具有更高的灵敏度,其结果相似性比对往往比整体比对具有更高的灵敏度,其结果 更具生物学意义。更具生物学意义。 n在实际应用中,企图用整体比对算法找出只有局部相似在实际应用中,企图用整体比对算法找出只有局部相似 性的两个序列之间的关系,显然是徒劳的;而用局部比性的两个序列之间的关系,显然是徒劳
16、的;而用局部比 对得到的结果也不能说明这两个序列的三维结构或折叠对得到的结果也不能说明这两个序列的三维结构或折叠 方式一定相同。方式一定相同。 nBLAST和和FastA等常用的数据库搜索程序均采用局部相等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度,而基于整体相似性比对的方法,具有较快的运行速度,而基于整体相 似性比对的数据库搜索程序则需要超级计算机或专用计似性比对的数据库搜索程序则需要超级计算机或专用计 算机才能实现。算机才能实现。 数据库搜索工具数据库搜索工具BLAST nBLAST(Basic Local Alignment Searching Tool) n利
17、用利用retrieval system,可搜索世界上最大的核酸数据库,可搜索世界上最大的核酸数据库 EMBL+Genbank+DDBJ,最大的蛋白质数据库等。,最大的蛋白质数据库等。 n可以输入一段可以输入一段DNA、RNA、蛋白序列,一段插入序列、蛋白序列,一段插入序列、 t-RNA序列、与序列、与HIV相关的序列等,从而分析这段序列的相关的序列等,从而分析这段序列的 同源性,再根据同源性推论出它所具有的功能。同源性,再根据同源性推论出它所具有的功能。 n还可以通过输入一段还可以通过输入一段DNA序列,而知道它所编码的蛋白序列,而知道它所编码的蛋白 质的功能,以及它来源与是什么生物。质的功能
18、,以及它来源与是什么生物。 n可对新克隆并测定的可对新克隆并测定的DNA序列与基因库中序列进行同源序列与基因库中序列进行同源 性比较,以确定是否有与之相同或相似的序列存在。性比较,以确定是否有与之相同或相似的序列存在。 n也可对蛋白质序列进行类似性检索,以确认新近表达和也可对蛋白质序列进行类似性检索,以确认新近表达和 纯化的蛋白是否是新蛋白质。纯化的蛋白是否是新蛋白质。 n在浏览器地址栏中输入网址:在浏览器地址栏中输入网址: /BLAST/,再点击该页面上再点击该页面上 Nucleotide下的下的 Nucleotide-nucleotide
19、 BLAST blastn链链 接,即可进入接,即可进入BLAST核酸序列同源性比较检索界面。核酸序列同源性比较检索界面。 n常用常用BLAST系统程序及检索数据库类型系统程序及检索数据库类型 查询序列查询序列 氨基酸序列氨基酸序列 DNA序列序列 BLAST p tBLAST n 检索蛋白质检索蛋白质 序列数据库序列数据库 检索翻译后的检索翻译后的 核酸序列数据库核酸序列数据库 BLAST x BLAST n tBLAST x 检索核酸检索核酸 数据库数据库 检索蛋白质检索蛋白质 序列数据库序列数据库 检索翻译后的检索翻译后的 核酸序列数据库核酸序列数据库 nBLAST p:通过比较查询蛋白
20、质序列与蛋白质数据库中:通过比较查询蛋白质序列与蛋白质数据库中 的已知序列,寻找同源蛋白质序列并推导其功能的已知序列,寻找同源蛋白质序列并推导其功能 蛋白质序列蛋白质序列 BLAST p 比较查询序列与蛋白质数据库比较查询序列与蛋白质数据库 (如(如Swiss-prot)中的已知序列)中的已知序列 输出文件分析输出文件分析 (序列对位排列)(序列对位排列) 推导可能的蛋白质功能推导可能的蛋白质功能 nBLASTn :比较查询序列与:比较查询序列与DNA数据库中的已知序列,寻找同数据库中的已知序列,寻找同 源核苷酸序列源核苷酸序列 nBLASTx :比较查询序列核苷酸序列(翻译成蛋白质序列)与:
21、比较查询序列核苷酸序列(翻译成蛋白质序列)与 蛋白质数据库中的已知序列,寻找同源蛋白质序列蛋白质数据库中的已知序列,寻找同源蛋白质序列 nt BLASTn :比较查询蛋白质序列与:比较查询蛋白质序列与DNA数据库中序列(翻译数据库中序列(翻译 成蛋白质序列),寻找同源核苷酸序列成蛋白质序列),寻找同源核苷酸序列 nt BLAST x :比较查询序列核苷酸序列(翻译成蛋白质序列):比较查询序列核苷酸序列(翻译成蛋白质序列) 与与DNA数据库中序列(翻译成蛋白质序列),寻找同源核苷酸数据库中序列(翻译成蛋白质序列),寻找同源核苷酸 序列序列 BLAST p蛋白质蛋白质蛋白质蛋白质 用检测序列蛋白质
22、搜索蛋白质序列库用检测序列蛋白质搜索蛋白质序列库P BLAST n核酸核酸核酸核酸 用检测序列核酸搜索核酸序列数据库用检测序列核酸搜索核酸序列数据库M BLAST x核酸核酸蛋白质蛋白质 将核酸序列按将核酸序列按6条链翻译成蛋白质序条链翻译成蛋白质序 列后搜索蛋白质序列数据库列后搜索蛋白质序列数据库 6P T BLAST n蛋白质蛋白质核酸核酸 用检测序列蛋白质搜索由核酸序列数用检测序列蛋白质搜索由核酸序列数 据库按据库按6条链翻译成的蛋白质序列数条链翻译成的蛋白质序列数 据库据库 6M T BLAST x核酸核酸核酸核酸 将核酸序列按将核酸序列按6条链翻译成蛋白质序条链翻译成蛋白质序 列后搜
23、索由核酸序列数据库按列后搜索由核酸序列数据库按6条链条链 翻译成的蛋白质序列数据库翻译成的蛋白质序列数据库 36M nBLAST算法基本要点:算法基本要点: n序列片段对(序列片段对(segment pair):指两个给定序列中的一对子):指两个给定序列中的一对子 序列,它们的长度相等,且可以形成无空位的完全匹配。序列,它们的长度相等,且可以形成无空位的完全匹配。 n将查询序列分为多个短片段及相似片段;将查询序列分为多个短片段及相似片段; n筛选数据库,找出代查序列和目标序列间所有匹配程度超筛选数据库,找出代查序列和目标序列间所有匹配程度超 过一定阈值的序列片段对过一定阈值的序列片段对 n对具
24、有一定长度的片段对根据给定的相似性阈值进行对具有一定长度的片段对根据给定的相似性阈值进行 gap 的插入和延伸,根据突变矩阵(的插入和延伸,根据突变矩阵(BLOSUM62)计分排序;)计分排序; n返回分值最高的匹配序列,称高分值片段对返回分值最高的匹配序列,称高分值片段对(high scoring pairs , HSPs) n序列的比较和检索步骤序列的比较和检索步骤 n输入待检序列输入待检序列 n在在“Search”输入框中输入待检基因的输入框中输入待检基因的FASTA格式的完整序列,其格式的完整序列,其 间不能有空格或断行。间不能有空格或断行。 n设定需要比较检索的子序列的范围(可选)设
25、定需要比较检索的子序列的范围(可选) n当用户需要对基因中的某一段序列进行同源性比较时,可输入这段当用户需要对基因中的某一段序列进行同源性比较时,可输入这段 序列在整个基因序列中的起止位置。如序列在整个基因序列中的起止位置。如From=24 To=200。 n选择比较检索的数据库选择比较检索的数据库 nBLAST可选择的数据库包括:可选择的数据库包括: nnr(所有(所有GenBank+EMBL+DDBJ+PDB序列无重复)序列无重复) nmonth (近(近30天内更新或修改的天内更新或修改的GenBank+EMBL+DDBJ+ PDB序序 列)列) nDrosophila genome ndbest(EST子库)子库) ndbsts(ST
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI在宪法学与行政法学中的应用
- 学校消防安全管理制度
- 莎车县伊什库力乡2026年阔依其(17)村农村道路建设以工代赈项目水土保持报告表
- 泥江口镇竹产业园配套锅炉房集中供热项目环境影响报告表
- 中职《精神病学(人卫 第8版)》同步课件 第16章 睡眠 觉醒障碍
- 2026佛教招聘面试题及答案
- 2026干细胞技术员面试题及答案
- 2026安顺社工面试题及答案解析
- 中考作文九大主题-情景开头结尾45例
- 第十课 翻新老照片-照片处理之修复技术教学设计初中信息技术(信息科技)八年级上浙教版(广西、宁波)
- 装修现场临时用电施工方案
- 初中人教版历史教学大纲
- 2024年湖北高考化学试卷(真题+答案)
- DL-T5496-2015220kV-500kV户内变电站设计规程
- 两办意见八硬措施煤矿安全生产条例宣贯学习课件
- 机器学习实战:基于ScikitLearn
- 《儿童福利机构社会工作服务指南》
- 炼钢理论基础(炼钢工艺)
- 汽煤柴油加氢装置操作工(技师)考试复习题库宝典(含答案)
- 花篮式上拉式悬挑脚手架监理实施细则(图文范本)
- 信息技术考试试题库及答案
评论
0/150
提交评论