NCBI序列数据库概述(2017.3.16)_第1页
NCBI序列数据库概述(2017.3.16)_第2页
NCBI序列数据库概述(2017.3.16)_第3页
NCBI序列数据库概述(2017.3.16)_第4页
NCBI序列数据库概述(2017.3.16)_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、NCBINCBI序列数据库序列数据库时间:2017.3.16一、一、NCBINCBI概述概述 1988年11月美国国家健康研究所(NIH)、国家医学图书馆(NLM)发起成立; 1992年,NCBI建立GenBank核酸序列数据库,将美国专利商标局存储的专利序列并入GenBank管理并与EMBL、DDBJ实现数据资源的交换与共享; GenBank、EMBL、DDBJ并称世界三大生物序列信息数据库。二、二、NCBINCBI中的重要子库中的重要子库 NCBI收收录的生物数据依据不同的类别、层次、录的生物数据依据不同的类别、层次、存储质量和应用特征等划分为众多相对独立,存储质量和应用特征等划分为众多相

2、对独立,而又交叉引用的子库而又交叉引用的子库 1.GenBank与RefSeq 2.Gene 3.Genome 4.蛋白质数据库 5.遗传多态数据库 6.BioProject 7.其他1.GenBank与与RefSeq GenBank是是NIH遗传序列数据库,集成了所有遗传序列数据库,集成了所有公开可获得的已注释公开可获得的已注释DNA序列。根据其不同的序列。根据其不同的研究属性,分属于研究属性,分属于Nucleotide、GSS、EST三个三个子库子库 Nucleotide:收录绝大多数常规的核酸序列; GSS(Genome Survey Sequence):收录测序起始段用来进行序列或基因

3、示踪、重复序列或基因数量预判等的各种短读长序列; EST(Expressed Sequence Tag):收录cDNA及cDNA特征序列信息。 RefSeq (reference sequence):GenBank中的数据是由用户提交数据构成,具有较高的冗余度和差错率,为更好的实现特征序列的查询,NCBI在GenBank数据基础上针对每个基因不同的数据类型提取一个可靠地注释条目作为参考条目,组成RefSeq。2.Gene Gene:基因数据库收录全部已测序物种的基因注释信息,包括基因的名称、染色体定位、基因序列和编码产物(mRNA、蛋白质)情况基因功能和相关文献信息等; 与GenBank、OM

4、IM、遗传多态数据库等NCBI子库及KEGG、Gene Ontology等外源性数据库进行交叉引用; 基因数据库是目前最权威的基因注解数据库。3.Genome NCBI收录了超过1000种已经完成测序的生物体全部基因组序列和定位数据,及正在进行测序的物种阶段性发布的基因组信息。 Genome涉及的物种涉及所有的生物领域:细菌、古细菌、真核生物,以及许多病毒、噬菌体、类病毒、质粒和含遗传物质的细胞器。4.蛋白质数据库蛋白质数据库 NCBI Protein数据库收录来源于GenPept、RefSeq、Swiss-Prot、PIR、PRF及PDB等蛋白质数据资源的蛋白质序列和注释数据; Protei

5、n Cluster数据库提供存在一定联系的蛋白质集合信息,并与蛋白质注释、结构、结构域、家族相关数据库之间交互访问; Structure数据路是由蛋白质三维结构数据库PDB衍生而来的大分子模建数据库,提供蛋白质三维结构信息及相关的可视化和结构化比对工具5.遗传多态数据库遗传多态数据库 NCBI中的dbSNP、dbVar、dbGaP和ClinVar四个子库涉及DNA多态或变异信息。 dbSNP:收录了所有物种中发现的短序列多态的突变信息; dbVar:主要收录较大规模的基因组变异,包括大片段的插入、缺失、异位、倒置和拷贝数多态等信息资源; dbGaP:收录大量以遗传多态为分子标记物的基因型和表型

6、关联性研究数据; ClinVar:收录临床中发现或报道的有证据支持的与人类疾病或健康状态有关的变异位点,并与多个疾病和卫生系统数据库进行交互引用。6.BioProject 随着NCBI中归档的数据集的量和复杂性的快速增加,对收集和组织相关元数据的需求也在快速增加。尽管以前已经为一些归档数据库收集了元数据,但是在NCBI没有集中的方式收集这些信息,并跨数据库使用它们。最近建立了BioProject数据库以促进提交到NCBI、EBI和DDBJ数据库的项目数据的组织和分类。它捕获有关研究项目的描述性信息,导致到归档数据库的大量提交,将跨多个归档的相关数据整合在一起,并充当了一个中心入口,通过该入口告

7、知用户数据的可用性。7.其他其他 GEO(Gene Expression Omnibus)接受和管理各研究机构提交的基因芯片或测序技术获得的不同生理、病理状态个体或细胞系基因(包括非编码基因)表达数据。 Epigenomics:是一个表观基因组数据查询和浏览相结合的数据库。提供DNA甲基化、组蛋白修饰等表观遗传学数据集下载、基因序列、表观遗传状态的定位比较和可视化等。 Unigene:针对每一个基因建立一个独立的数据系统,分别将不同来源的基因序列、蛋白质相似性、基因表达、染色体定位、cDNA序列、mRNA序列、EST序列等进行罗列和比较,旨在为研究者提供全面、丰富的信息资源,更好地对基因的功能和注释信息的可靠性进行梳理。三、三、NCBI提供的重要支持工具提供的重要支持工具 BLAST:BLAST是由NCBI开发的序列相似性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论