版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章生物信息学资源检索
11/532生物信息学数据库概述一生物信息学数据库类型二生物信息数据搜集与存贮三生物信息学数据库查找22/533一、生物信息学数据库类型文件数据库
突变数据库
图谱数据库
结构数据库
序列数据库
类型按收录信息内容分
33/534二、生物信息数据搜集与存贮(一)生物信息数据搜集生物信息数据搜集与存贮
(二)生物信息数据存贮44/535(一)生物信息数据搜集数据库与数据库合作数据库与测序中心合作数据库与期刊合作
建库早期4.数据交换
3.成批发送
2.直接发送
1.人工搜集
55/536(二)生物信息数据存贮1.统计格式主要有:EMBL格式、GenBank格式存贮格式2.序列格式:FASTA格式,又称Pearson格式
66/53三、生物信息学数据库查找经过搜索引擎查找经过专门生物信息学数据库目录查询从年开始,《NucleicAcidsResearch》设置了一个数据库目录(/nar/database/c/)。经过生物信息学中心资源导航查询一些著名生物信息学中心不但自己建立和维护大量生物信息数据库,而且普通在网上提供资源导航。
77/538核酸序列数据库GenBank
:由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性公共核酸序列数据库,包含全部已知核酸序列和蛋白质序列,以及与它们相关文件和生物学注释。网址:/Genbank/index.html88/539国际核酸序列数据库协作体INSDC
DDBJ
EMBL
GenBank
99/53GenBank检索Entrez是NCBI生物信息学数据库集成检索系统,能够检索以下生物信息学数据库。1010/53比如,查找H1N1流感病毒(H1N1FluVirus)核酸序列。其检索步骤是:1111/53(1)进入Entrez主页(/gquery/),在提问框输入H1N1FluVirus。1212/53
(2)点击“GO”,得到各个数据库检索结果。1313/53(3)点击“Nucleotide:Coresubsetofnucleotidesequencerecords”,得到GenBank核酸序列数据库中4801条统计简明格式(Summary)。1414/53(4)点击统计标题,即可获取该统计详细信息。1515/5316蛋白质数据库
一蛋白质序列数据库二蛋白质结构数据库
三蛋白质功效数据库1616/5317一、蛋白质序列数据库
(三)TrEMBL
(四)GenPept
(二)SWISS-PROT
(一)PIR
(五)UniProt
(六)OWL
1717/53(一)PIR创建于1984年。1988年,美国NBRF、日本国际蛋白质信息数据库(JapanInternationalProteinInformationDatabase,JIPID)与德国慕尼黑蛋白质序列信息中心(MunichInformationCenterforProteinSequences,MIPS)合作成立国际蛋白质序列信息中心(PIR-International)。第75.03版PIR数据库按照数据性质和注释详略分成四个子库:PIR1、PIR2、PIR3和PIR4。PIR1中序列已经验证,注释最为详尽;PIR2中包含还未确定冗余序列;PIR3中序列还未加检验,也未加注释;PIR4包含其它渠道取得序列,既未验证,也无注释。网址:/1818/53PIR主页1919/53(二)SWISS-PROT创建于1986年由瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)和欧洲生物信息研究所(EBI)共同维护和管理。1994年,SIB创建蛋白质教授分析系统(ExpertProteinAnalysisSystem,ExPASy)(http://www.expasy.Ch),除了开发、维护和管理SWISS-PROT数据库外,还提供蛋白质序列、结构、功效和蛋白质2D图谱等蛋白质信息资源到年10月,SWISS-PROT(57.11版)收录了512994条序列,包含180531504个氨基酸。网址:/sprot/
2020/53(三)TrEMBL创建于1996年,意即“TranslationofEMBL”,是计算机翻译并注释蛋白质序列数据库,收录序列是从EMBL中cDNA序列翻译得到。统计采取SWISS-PROT数据库格式。TrEMBL分为两个部分:SP-TrEMBL和REM-TrEMBL。SP-TrEMBL条目已经教授分类而且给予SWISS-PROT存取号,但还未经过人工审查,最终将收入SWISS-PROT。REM-TrEMBL包含其它剩下序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基多肽、人工合成序列、专利序列等。http://www.ebi.ac.uk/trembl/2121/53(四)GenPept由GenBank中cDNA序列翻译得到蛋白质序列数据库。网址:/genbank/genpept/)2222/53(五)UniProt将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一起来组建而成,包含3个部分:(1)UniProtKnowledgebase(UniProtKB),这是蛋白质序列、功效、分类、交叉引用等蛋白质知识库,统计经过人工筛选和注释;(2)UniRef(UniProtNon-redundantReference)数据库,将亲密相关蛋白质序列组合到一条统计中,方便提升搜索速度;当前,依据序列相同程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProtArchive),是UniProt存档库,收录全部蛋白质序列。用户能够经过文本查询数据库,能够利用BLAST程序搜索数据库,也能够直接经过FTP下载数据。网址:/2323/53(六)OWL1994年由英国里兹(Leeds)大学和WarringtonDaresbury国家试验室合作创建并维护一个复合型数据库。数据起源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库,去重后整合而成非冗余蛋白质序列数据库。网址:http://www.bioinf.manchester.ac.uk/dbbrowser/OWL/index.php
2424/53小结:①SWISSPROT序列经过严格审核,注释完善,但数量仍较少。②PIR数据量较大,但包含未经验证序列,注释也不完善。③TrEMBL和GenPept数据量最大,且随核酸序列数据库更新而更新,不过因为TrEMBL和GenPept均是由核酸序列经过计算机程序翻译生成,这两个数据库中序列错误率较大,并存在较多冗余序列。④OWL中序列虽含有很好代表性,但采取一些标准取舍序列,造成一些数据不完整。⑤UniProt中序列含有很好代表性,数据较完整。
2525/5326二、蛋白质结构数据库
(三)DSSP
(四)HSSP
(二)MMDB(一)PDB
(五)SCOP
(六)CATH
2626/53(一)PDB创建于1971年,是国际上最著名、最完整蛋白质三维结构数据库。最先由美国Brookhaven国家试验室负责维护和管理,从1998年开始,由结构生物信息学合作研究协会(RCSB)负责管理。到年12月统计,PDB数据库已经收录了利用X线衍射、NMR、电子显微镜试验数据或理论计算得出蛋白质、核酸、蛋白质/核酸复合物等结构数据61808条,而且数据增加速度相当快。
2727/53PDB数据库以文本文件格式存放数据,每条统计即是一个独立文件,包含物种起源、化合物名称、原子坐标、结构提交者以及相关文件等基本注释信息。另外,还包含分辨率、结构因子,温度系数、主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构相关数据。网址:/pdb/home/home.do
2828/53PDB主页2929/533030/5331三、蛋白质功效数据库
(三)STRING(二)DIP
(一)BOND
(四)KEGG
3131/53(一)BONDBOND是生物分子网络数据库,创建于年,由UnleashedInformatics企业管理和维护。主要收录生物分子及其蛋白质序列、结构和相互作用等数据,其中生物分子包含蛋白质、DNA、RNA、配基、复合体、基因、光子(photon)等。BOND集成了多个主要数据库,如BIND(生物分子相互作用网络数据库)、SMID(小分子相互作用数据库)、Genbank、GO(基因本体)、OMIM、conserveddomains(保守功效域)、交叉参考数据库、完整基因组等。网址:/
3232/53BOND主页3333/53(二)DIPDIP专门存放试验确定蛋白质之间相互作用数据,既包含经典试验伎俩确定蛋白质相互作用,也包含高通量试验伎俩确定蛋白质相互作用数据。数据要经过人工审核和采取计算方法自动验证后加入数据库。数据自动验证有3种指标,即EPRIndex、PVMScore和DPVScore。在当前缺乏蛋白质相互作用数据金标准现实情况下,DIP为采取计算方法自动验证高通量技术产生蛋白质相互作用数据做了开拓性工作。DIP还利用XML技术专门开发了一个用来存放和交换蛋白质相互作用数据xin格式。网址:/3434/53(三)STRINGSTRING不但存贮试验确定蛋白质相互作用数据,而且还存贮预测蛋白质相互作用数据,并对各种预测方法准确性给出了对应权重,对于采取经典试验方法研究蛋白质功效、生物学意义含有非常主要意义。数据起源有4种,一是高通量试验技术产生蛋白质相互作用数据,二是由保守共表示数据推导出蛋白质功效联络,三是文件搜索得到蛋白质相互作用数据,四是采取预测蛋白质相互作用方法,依据基因组中基因上下文关系(genomiccontext)预测得到蛋白质相互作用数据。当前STRING数据库已经包含179个物种中736429个蛋白,覆盖率相当高。网址:http://string.embl.de/3535/53(四)KEGG京都基因和基因组百科全书(KEGG)是系统分析基因功效,联络基因组信息和功效信息知识库。基因组信息存贮在GENES数据库里,包含完整和部分测序基因组序列;功效信息存贮在PATHWAY数据库里,包含图解细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包含同系保守子通路等信息;KEGG另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java图形工具来访问基因组图谱,比较基因组图谱和操作表示图谱,以及其它序列比较、图形比较和通路计算工具,能够无偿获取。网址:http://www.genome.jp/kegg/
3636/53KEGG主页3737/533838/5339基因组数据库一EntrezGonomes
二Ensembl
三UCSCGenomeBrowser
四其它基因组数据库
3939/53一、EntrezGonomesNCBI提供,是世界上最大、最完整多物种基因组资源。当前已收录5937个物种8500多条统计,按生物体分成古细菌(Archaea)、细菌(Bacteria)、真核生物(Eukaryotae)、病毒(Viruses)、类病毒(Viroids)和质粒(Plasmids)六大类。提供了各种基因组图谱,包含完整染色体、序列图谱、遗传图谱、物理图谱和连续子(contigs)图谱。能够经过Entrez进行关键词搜索,也能够经过MapViewer进行浏览、检索及编辑。网址:/sites/genome4040/53EntrezGonomes主页4141/53(一)MapViewerMapViewer是一个从众多资源中聚集图谱和序列信息图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息,又允许用户在序列水平,经过浏览单个染色体图谱或某染色体上特定区域,探查完整基因组信息。对于每一个基因组,MapViewer从4个层次揭示其信息:生物体主页(HomePage)
基因组浏览(GenomeView)
图谱浏览(MapView)
序列浏览(SequenceView)
4242/53(二)MapViewer使用
MapViewer主页4343/53检索结果4444/5345鼠基因组数据库人类基因组数据库线虫基因组数据库四、其它基因组数据库(一)GDB(二)MDB(三)ACEDB4545/5346疾病基因数据库
一OMIM
三GeneExpres
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英语四级试题打分
- 基因编辑重塑肿瘤个体化治疗敏感性
- 文学长河中的朱丽形象:跨时空的女性命运书写
- 基因测序在肿瘤个体化治疗中的临床应用指南
- 基于核酸适配体的肾癌靶向纳米递送
- 基于成本控制的绩效考核指标设计
- 2025-2030中国原油产业发展态势及经营效益预测报告
- 2025-2030中国卡拉胶粉末行业竞争动态与销售趋势预测报告
- 基于大数据的医疗设备采购价值分析平台
- 基于区块链的医疗设备不良事件追溯机制
- DB3205∕T 1096-2023 智能网联汽车测试驾驶员能力要求
- 消防设施操作员初级课件
- DB31∕T 1091-2025 生活饮用水水质标准
- 财务软件使用管理制度
- 厦门市湖里区离婚协议书
- T/CSBME 065-2023医用敷料材料聚氨酯泡沫卷材
- 土石方工程场地平整施工方案
- 2024年江苏省苏州高新区初三一模化学试题及答案
- 兵团第十三师新星市招聘事业单位工作人员考试真题2024
- 2024-2025学年人教版七年级下册期中数学测试练习卷(含答案)
- TCAGHP031-2018地质灾害危险性评估及咨询评估预算标准(试行)
评论
0/150
提交评论