生物信息学资源检索ppt课件_第1页
生物信息学资源检索ppt课件_第2页
生物信息学资源检索ppt课件_第3页
生物信息学资源检索ppt课件_第4页
生物信息学资源检索ppt课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第八章生物信息学资源检索 2 2 生物信息学数据库概述 3 3 一 生物信息学数据库的类型 4 4 二 生物信息数据收集与存贮 一 生物信息数据的收集 生物信息数据收集与存贮 二 生物信息数据的存贮 5 5 一 生物信息数据的收集 数据库与数据库合作 数据库与测序中心合作 数据库与期刊合作 建库的初期 6 6 二 生物信息数据的存贮 1 记录格式主要有 EMBL格式 GenBank格式 存贮格式 2 序列格式 FASTA格式 又称Pearson格式 7 三 生物信息学数据库的查找 通过搜索引擎查找通过专门的生物信息学数据库目录查询从2000年开始 NucleicAcidsResearch 设立了一个数据库目录 http www oxfordjournals org nar database c 通过生物信息学中心资源导航查询一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库 而且一般在网上提供资源导航 8 8 核酸序列数据库 GenBank 由美国国家生物技术信息中心 NCBI 管理和维护大型 综合性的公共核酸序列数据库 包括所有已知的核酸序列和蛋白质序列 以及与它们相关的文献和生物学注释 网址 http www ncbi nlm nih gov Genbank index html 9 9 国际核酸序列数据库协作体 10 GenBank检索 Entrez是NCBI生物信息学数据库集成检索系统 可以检索以下生物信息学数据库 11 例如 查找H1N1流感病毒 H1N1FluVirus 的核酸序列 其检索步骤是 12 1 进入Entrez主页 http www ncbi nlm nih gov gquery 在提问框输入H1N1FluVirus 13 2 点击 GO 得到各个数据库的检索结果 14 3 点击 Nucleotide Coresubsetofnucleotidesequencerecords 得到GenBank核酸序列数据库中的4801条记录简要格式 Summary 15 4 点击记录的标题 即可获取该记录的详细信息 16 16 蛋白质数据库 17 17 一 蛋白质序列数据库 三 TrEMBL 四 GenPept 二 SWISS PROT 一 PIR 五 UniProt 六 OWL 18 一 PIR 创建于1984年 1988年 美国NBRF 日本国际蛋白质信息数据库 JapanInternationalProteinInformationDatabase JIPID 与德国的慕尼黑蛋白质序列信息中心 MunichInformationCenterforProteinSequences MIPS 合作成立国际蛋白质序列信息中心 PIR International 第75 03版的PIR数据库按照数据的性质和注释详略分成四个子库 PIR1 PIR2 PIR3和PIR4 PIR1中的序列已经验证 注释最为详尽 PIR2中包含尚未确定的冗余序列 PIR3中的序列尚未加检验 也未加注释 PIR4包括其他渠道获得的序列 既未验证 也无注释 网址 http pir georgetown edu 19 PIR主页 20 二 SWISS PROT 创建于1986年由瑞士生物信息学研究所 SwissInstituteofBioinformatics SIB 和欧洲生物信息研究所 EBI 共同维护和管理 1994年 SIB创建蛋白质专家分析系统 ExpertProteinAnalysisSystem ExPASy http www expasy Ch 除了开发 维护和管理SWISS PROT数据库外 还提供蛋白质序列 结构 功能和蛋白质2D PAGE图谱等蛋白质信息资源到2009年10月 SWISS PROT 57 11版 收录了512994条序列 包含180531504个氨基酸 网址 http expasy org sprot 21 三 TrEMBL 创建于1996年 意即 TranslationofEMBL 是计算机翻译并注释的蛋白质序列数据库 收录的序列是从EMBL中的cDNA序列翻译得到的 记录采用SWISS PROT数据库格式 TrEMBL分为两个部分 SP TrEMBL和REM TrEMBL SP TrEMBL的条目已经专家分类并且给予SWISS PROT存取号 但尚未通过人工审查 最终将收入SWISS PROT REM TrEMBL包含其他剩余序列 主要是免疫球蛋白 T细胞受体 少于8个氨基酸碱基的多肽 人工合成序列 专利序列等 http www ebi ac uk trembl 22 四 GenPept 由GenBank中的cDNA序列翻译得到的蛋白质序列数据库 网址 ftp ncbi nlm nih gov genbank genpept 23 五 UniProt 将PIR SWISS PROT和TrEMBL3个蛋白质数据库统一起来组建而成 包含3个部分 1 UniProtKnowledgebase UniProtKB 这是蛋白质序列 功能 分类 交叉引用等蛋白质知识库 记录经过人工筛选和注释 2 UniRef UniProtNon redundantReference 数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度 目前 根据序列相似程度形成3个子库 即UniRef100 UniRef90和UniRef50 3 UniParc UniProtArchive 是UniProt存档库 收录所有蛋白质序列 用户可以通过文本查询数据库 可以利用BLAST程序搜索数据库 也可以直接通过FTP下载数据 网址 http www uniprot org 24 六 OWL 1994年由英国里兹 Leeds 大学和Warrington的Daresbury国家实验室合作创建并维护的一个复合型数据库 数据来源于SWISS PROT PIR GenPept SWISS PROT PDB NRL3D等数据库 去重后整合而成的非冗余蛋白质序列数据库 网址 http www bioinf manchester ac uk dbbrowser OWL index php 25 小结 SWISSPROT的序列经过严格审核 注释完善 但数量仍较少 PIR数据量较大 但包含未经验证的序列 注释也不完善 TrEMBL和GenPept的数据量最大 且随核酸序列数据库的更新而更新 但是由于TrEMBL和GenPept均是由核酸序列经过计算机程序翻译生成的 这两个数据库中的序列错误率较大 并存在较多的冗余序列 OWL中的序列虽具有较好的代表性 但采用某些标准取舍序列 导致某些数据不完整 UniProt中的序列具有较好的代表性 数据较完整 26 26 二 蛋白质结构数据库 三 DSSP 四 HSSP 二 MMDB 一 PDB 五 SCOP 六 CATH 27 一 PDB 创建于1971年 是国际上最著名 最完整的蛋白质三维结构数据库 最先由美国Brookhaven国家实验室负责维护和管理 从1998年开始 由结构生物信息学合作研究协会 RCSB 负责管理 到2009年12月统计 PDB数据库已经收录了利用X线衍射 NMR 电子显微镜实验数据或理论计算得出的蛋白质 核酸 蛋白质 核酸复合物等结构数据61808条 而且数据增长速度相当快 28 PDB数据库以文本文件格式存放数据 每条记录即是一个独立的文件 包括物种来源 化合物名称 原子坐标 结构提交者以及有关文献等基本注释信息 此外 还包括分辨率 结构因子 温度系数 主链数目 配体分子式 金属离子 二级结构信息 二硫键位置等和结构有关的数据 网址 http www rcsb org pdb home home do 29 PDB主页 30 31 31 三 蛋白质功能数据库 三 STRING 二 DIP 一 BOND 四 KEGG 32 一 BOND BOND是生物分子网络数据库 创建于2005年 由UnleashedInformatics公司管理和维护 主要收录生物分子及其蛋白质序列 结构和相互作用等数据 其中生物分子包括蛋白质 DNA RNA 配基 复合体 基因 光子 photon 等 BOND集成了多个重要数据库 如BIND 生物分子相互作用网络数据库 SMID 小分子相互作用数据库 Genbank GO 基因本体 OMIM conserveddomains 保守功能域 交叉参考数据库 完整基因组等 网址 33 BOND主页 34 二 DIP DIP专门存放实验确定的蛋白质之间相互作用的数据 既包括经典实验手段确定的蛋白质相互作用 也包括高通量实验手段确定的蛋白质相互作用数据 数据要经过人工审核和采用计算方法自动验证后加入数据库 数据的自动验证有3种指标 即EPRIndex PVMScore和DPVScore 在目前缺乏蛋白质相互作用数据金标准的现实情况下 DIP为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作 DIP还利用XML技术专门开发了一种用来存放和交换蛋白质相互作用数据的xin格式 网址 http dip doe mbi ucla edu 35 三 STRING STRING不仅存贮实验确定的蛋白质相互作用数据 而且还存贮预测的蛋白质相互作用数据 并对各种预测方法的准确性给出了相应的权重 对于采用经典实验方法研究蛋白质的功能 生物学意义具有非常重要的意义 数据来源有4种 一是高通量实验技术产生的蛋白质相互作用数据 二是由保守的共表达数据推导出的蛋白质功能联系 三是文献搜索得到的蛋白质相互作用数据 四是采用预测蛋白质相互作用的方法 根据基因组中基因的上下文关系 genomiccontext 预测得到的蛋白质相互作用数据 目前STRING数据库已经包括179个物种中的736429个蛋白 覆盖率相当高 网址 http string embl de 36 四 KEGG 京都基因和基因组百科全书 KEGG 是系统分析基因功能 联系基因组信息和功能信息的知识库 基因组信息存贮在GENES数据库里 包括完整和部分测序的基因组序列 功能信息存贮在PATHWAY数据库里 包括图解的细胞生化过程如代谢 膜转运 信号传递 细胞周期 还包括同系保守的子通路等信息 KEGG的另一个数据库是LIGAND 包含关于化学物质 酶分子 酶反应等信息 KEGG提供了Java的图形工具来访问基因组图谱 比较基因组图谱和操作表达图谱 以及其它序列比较 图形比较和通路计算的工具 可以免费获取 网址 http www genome jp kegg 37 KEGG主页 38 39 39 基因组数据库 40 一 EntrezGonomes NCBI提供的 是世界上最大 最完整的多物种的基因组资源 目前已收录5937个物种的8500多条记录 按生物体分成古细菌 Archaea 细菌 Bacteria 真核生物 Eukaryotae 病毒 Viruses 类病毒 Viroids 和质粒 Plasmids 六大类 提供了各种基因组图谱 包括完整的染色体 序列图谱 遗传图谱 物理图谱和连续子 contigs 图谱 可以通过Entrez进行关键词搜索 也可以通过MapViewer进行浏览 检索及编辑 网址 http www ncbi nlm nih gov sites genome 41 EntrezGonomes主页 42 一 MapViewer MapViewer是一种从众多资源中汇集图谱和序列信息的图谱浏览器 它既允许用户浏览和检索某有机体完整基因组信息 又允许用户在序列水平 通过浏览单个染色体图谱或某染色体上的特定区域 探查完整基因组信息 对于每一个基因组 MapViewer从4个层次揭示其信息 生物体主页 HomePage 基因组浏览 GenomeView 图谱浏览 MapView 序列浏览 SequenceView 43 二 MapViewer的使用 MapViewer主页 44 检索结果 45 45 鼠基因组数据库 人类基因组数据库 线虫基因组数据库 四 其他基因组数据库 一 GDB 二 MDB 三 ACEDB 46 46 疾病基因数据库 47 OMIM概述 在线人类孟德尔遗传 OnlineMendelianInheritanceinMan OMIM 是在美国JohnHopkins大学医学院VictorA McKusick教授编撰的 人类孟德尔遗传 一书的基础上发展起来的 内容包括所有已知的遗传病 遗传决定的性状及其基因 除了简略描述各种疾病的临床特征 诊断 鉴别诊断 治疗与预防外等文本资料 还提供已知有关疾病相关基因的连锁关系 染色体定位 组成结构和功能 动物模型 并附有其相关的图片 研究历史和参考文献 Entrez中检索 48 48 OMIM在医学遗传学中的应用价值 1 2 3 4 利用OMIMstatistics了解最新的有关遗传病 性状及基因的信息 利用OMIM数据库获得遗传病诊断 咨询及治疗的资料 利用OMIM数据库获取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论