NCBI资源介绍及使用手册分解_第1页
NCBI资源介绍及使用手册分解_第2页
NCBI资源介绍及使用手册分解_第3页
NCBI资源介绍及使用手册分解_第4页
NCBI资源介绍及使用手册分解_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、NCBI资源介绍及使用手册NCBI资源介绍本文目录:NCBI(美国国立生物技术信息中心 )简介NCBI站点地图NCBI癌症基因组研究NCBI Coffee BreakNCBI基因和疾病NCBI Un iGe ne(COG介绍Cluster of Orthologous Groups of prote insGene Expression Omnibus(GEO 介绍LocusLink 介绍关于RefSeq: NCBI参考序列NCBI(美国国立生物技术信息中心 )简介介绍理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表 DNA化学亚基的字母表,出现了生命过程的

2、语法,其最复杂形式就是人类。阐明和使用这些字母来 组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而 精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些 数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们 遗传之物和其在健康和疾病中角色的理解。国立中心的建立后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心( NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM的一个分支。NLM是因为它

3、在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务: 建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的 研究加速生物技术研究者和医药治疗人员对数据库和软件的使用。全世界范围内的生物技术信息收集的合作努力。NCBI通过下面的计划来实现它的四项目的:基本研究NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实

4、验物理 学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础 科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方 法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预 测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估 的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持

5、推动与 NIH内部其他研究所及许多科学院和政府的研究实验室的合作。数据库和软件在1992年10月,NCBI承担起对 Gen Ba nk DNA序列数据库的责任。 NCBI受过分子生物学高级训练 的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。GenBank growth3 2 i 召畳Q-S巴诵a % eq禅1982 - 2000GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。Ge nBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸

6、序列数据库合作。这三个组织每天交换数据。GenBank以指数形式增长,核酸碱基数目大概每 14个月就翻一个倍。最近,Gen Ba nk拥有来自47,000 个物种的30亿个碱基。孟德尔人类遗传(OMIM,三维蛋白质结构的分子模型数据库(MMDB,唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划( CGAP)。Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序

7、列, 蛋白序列,大分子结构,全基因组,和通过PubMed佥索的MEDLINE Entrez 的一个强大和独特的特点是检索相关的序列, 结构,和参考文献的能力。 杂志文献通过 PubMed 获得,PubMec是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个 DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder ),电子PCR和序列提交工具,Sequin和Banklt

8、。所有的NCBI数据库和软件工具可以从 WWW FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问 数据库一种可选方法。教育和训练NCBI通过赞助会议,研讨会,和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学 交流。一个科学访问学者项目已经成立,来培养同外部科学家的合作。作为NIH 内部的部分研究项目,也提供博士后工作位置。NCBI站点地图-关于Database的一般介绍GenBank Overview 基本信息什么是GenBank? GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有 编码区(CDS特征的注释,还包括氨基

9、酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括 EMBL和 DDBJ纪录样本-关于GenBank的各个字段的详细描述,以及同 Entrez搜索字段的交叉索引。访问 GenBank - 通过 Entrez Nucleotides 来查询。用 accession number ,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用 BLAST来在Gen Ba nk和其他数据库中进行序列相似搜索。用 E-mail来访问Entrez和BLAST可以通过 Query和 BLAST服务器。另外一种选择是可以用 FTP下载整个的GenBank和

10、更新数据。增长统计 - 参见公布通知的 2.2.6 (每个分类的统计) , 2.2.7 (每个物种的统计) , 2.2.8 (GenBank 增长)小节。公布通知,最新-最近和即将有的变化,Gen Ba nk的分类,数据增长统计,Ge nBank的引用。公布通知,旧 - 同上相同,是过去公布的统计。遗传密码-15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。(向)GenBank提交(数据)关于提交序列数据,收到 accession number ,和对纪录作更新的一般信息。BankIt - 用于一条或者少数条提交的基于WW的提交工具软件。(请在提交前用VecScreen

11、去除载体)Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组, alignments ,人群 / 种系 / 突变研究的提交。可以独立使用,或者用基于TCP/IP 的“ network aware ”模式,可以链接到其他NCBI的资源和软件比如 Entrez和PowerBLAST (请在提交前用 VecScreen去除载体) ESTs -表达序列标签,短的、单次( 测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。GSSs-基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC 末端,及

12、其他。HTGs- 来自于大规模 测序 中心的高通量基因组序列,未完成的(阶段 0, 1, 2)和完成的(阶段 3) 序列。(注意:完成的人类的 HTG序列可以同时在 GenBank和Human Genome Sequencing页面上访 问。)STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。注: SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI 数据库的单核苷酸多态性库中( dbSNP)。国际核苷酸序列数据库合作组织GenBank, DDBJ, EMBL - 合作计划的概述,并链接到相应的主页。GenBank, DDBJ(DNAData Bank

13、of Japan ), and EMBL ( European Molecular Biology Laboratory )数据库共享的数据是每天都 交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number ,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。DDBJ/EMBJ/GenBank特性表一特性表格式和标准被合作数据库用在序列记录的注释上,使得数据 共享成为可能,包括详细的描述生物特性和特性限定语的附录,以

14、及IUPAC规定的核苷酸和氨基酸的代号。FTPGenBankand Daily UpdatesGenBank普通文件格式一参见 GenBank记录样本和在 GenBank 公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。ASN.1格式 一摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告 和日常积累或非积累更新数据。FASTA格式一定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余 BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB列,但是不包括EST, STS, GSS, o

15、r HTGS 序列), nr.Z (每日更新的非冗余蛋白质), est.Z, gss.Z, htg.Z, sts.Z,和其它文件。分子数据库概览核酸序列Entrez核酸一用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来 搜索核酸序列记录(在GenBank + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据, 也可使用 Batch Entrez (批量 Entrez )。RefSeq NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs ,已知基因的 mRNAs 和蛋白, 在将来, 整个的染色体。 Acc

16、ession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。dbEST 表达序列标签数据库,短的、单次( 测序 )阅读的 cDNA 序列。也包括来自于差异显示 和 RACE 实验的 cDNA 序列。dbGSS 基因组调查序列的数据库, 短的、单次(测序)阅读的 cDNA 序列, exon trap 获得的序列, cosmid/BAC/YAC 末端,及其他。dbSTS 序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。dbSNP 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复

17、单元,和微卫星变异。完整的基因组参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细 菌,病毒, viroids ,质粒。UniGene 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的人类基因, 有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载。人类 UniGene小鼠 UniGene 大鼠 UniGene 斑马鱼 UniGeneBLAST 将你的序列同核酸库中的的序列比较,检索相似

18、的序列。(更详细的信息见下面Tools/Seque nee相似搜索部分)蛋白序列Entrez蛋白一用accession number作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜 索蛋白序列记录(在 GenPept + Swiss-Prot + PIR + RPF + PDB 中)。更多的关于 Entrez 的信息见下。 如果要检索大量数据,也可使用Batch Entrez (批量Entrez)。 RefSeq NCBI数据库的参考序列。Curated,非冗余集合包括基因组DNA con tigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers

19、 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的 形 式 来 表 示 。FTPGenPept 下载genpept.fsa.Z文件”这个文件包含了从 GenBank/EMBL/DDBJ记录中翻译过来 的 FASTA 格式的氨基酸序列,这些记录都有一到两个 CDS 特性的描述。 完整基因组 参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细 菌,病毒, viroids ,质粒。Entrez基因组一提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并

20、提供链接到 FASTA 文件和 BLAST 。分类表总结了蛋白 BLAST 分析的 结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面Genomes和Maps,部分Entrez基因组的一般描述)FTP基因组蛋白 一从ftp站点的gen ba nk/geno mes目录下下载各种物种的FASTA格式的氨基酸序 列*.faa和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在 Entrez基因组中看到。PROW Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索,为每个 CD 抗原提供大约 20 中标准信息的分类(生化功能,配

21、体,等等)BLAST 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Seque nee相似搜索部分)结构结构主页 关于 NCBI 结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库 (MMDB )和用来搜索和显示结构的相关工具。MMDB :分子模型数据库 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射和NMR色谱分析。MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些 理论模型。 MMDB 重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参 考。数据的说明书包括生物多聚体的

22、空间结构,这个分子在化学上是如何组织的,以及联系两者的 一套指针。利用将化学,序列,和结构信息整合在一起,MMDB 计划成为基于结构的同源模型化和蛋白结构预测的资源服务。 MMDB 的记录以 ASN.1 格式存储,可以用 Cn3D, Rasmol, 或 Kinemage 来显示。另外,数据库中类似的结构已经被用 VAST 确认,新的结构可以用 VASTseareh 来同数据 库进行比较。Cn 3D “ See in 3D”, 一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列 结构或结构 结构同源比较。 Cn3D 用起来就象你浏览器上的一个帮助工具。VAST 矢量同源比

23、较搜索工具 一个在 NCBI 开发的计算算法,用于确定相似的蛋白三维结构。 每一个结构的 “结构邻居 ”都是预先计算好的,而且可以通过 MMDB 的结构概要页面的链接访问。 这些邻居可以用来确认那些不能被序列比较识别的远的同源性。VAST 搜索 结构 结构相似搜索服务。比较一个新解出的蛋白结构和在 MMDB/PDB 数据库中 的结构的三维坐标。 VAST 搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠 和同源相似。分类学NCBI 的分类数据库主页 关于分类计划的一般信息,包括分类资源和同 NCBI 分类学家合作的 外部管理者的列表。分类浏览器 搜索 NCBI 的分类数据库,包括

24、大于 70000 个物种的名字和种系,这些物种都至少 在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸, 蛋白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库 中。 NCBI 的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。文献数据库概要PubMed 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接 由出版商提供给 NCBI 的文献引用以及链接到在出版商网址上的全文的URLs。 PubMed 包括MEDLINE 和 PREMEDLINE 的完整内容。 它还包括一些被 MEDLINE

25、认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。因此 PubMed 是比 MEDLINE 的更大 的集合。 杂志浏览器 允许你去查找收录到 PubMed 系统的杂志的名字, MEDLINE 的缩写,或 ISSN 号码。 PubRef (开发中) 一个关于来自于广大范围的科学杂志的数目记录,和链接到出 版商网址的全文。 PubRef 包含了 PubMEd ,加上了来自其它学科的杂志出版商提供的引用和摘要。 因此它是比 PubMed 更大的集合。 这个计划的启动是因为 NAS 要求为科学领域的电子杂志提供一个 “白皮书 ”服务。 PubMed 中心(开发中) Pub

26、Med 中心是一个无障碍的 NIH 资源,用于在生命 科学领域中同业互查的基础研究报告。 从 2000 年一月开始接受杂志文章。 所有在 PubMed 中心的材 料将由目前任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有 3 个以上有主 要资金机构的研究经费的拥有人的杂志提供。 OMIM 在线人类孟德尔遗传 经常更新的人类基 因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。 书籍 同书 籍出版商合作 NCBI 为网络改编了教科书,并把他们链接到 PubMed 生物医药书目数据库。这是 为了给 PubMed 提供背景信息,这样使用者可以探究在 PubMed

27、 搜索结果中不熟悉的概念。目前收 录的书有: Molecular Biology of the Cell, 3 rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Publishing. 外部链接 一个登记服务,用于建立从在 Entrez 中的特定 的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个 URL ,资源名字,关于他们网 址的简要的描述,和关于从 NCBI 数据的哪里他们希望建立链接的详细说明。这个详细说明可以用 对 Entrez 有效的布尔查询来写,也可

28、以用特定的文章或序列的标志列表来写。这样 NCBI PubMed 的用户将可以通过“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。引用匹配一允许你找到任何一篇在 PubMed数据库中的文章的 PubMed ID或MEDLINE UID ,给出 书目信息(杂志,卷,页码等) 。 单篇文章的引用匹配。 许多文章的批量引用匹配。 E-mail 引用 匹配也是 可以的 , 也可以用 于单篇或许 多文章。 如果要获得帮助文件, 给 citation_ 写一封只有内容为 HELP 的 E-Mail 。Genomes and Maps

29、OverviewEntrez 基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids ,质粒,和真核细胞器。Entrez 基因组(各种物种)Entrez 基因组 超过 800种在 GenBank 中被完整测序的物种, 包括大于 500种病毒, 25 种细菌, 酵母,和许多 viroids ,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原 虫,果蝇,利什曼原虫,水稻,和玉米。提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化的区域。也提供那些已经被 NCBI工作人员分析过的物种的编码区的摘要和TaxTables。另外,Entrez Map Viewer

30、, Entrez 基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱) 和人类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。通过每个物种的 Entrez 基因组页面来下载 350kb 的基因组。通过 NCBI ftp 站点来下载 350kb 的基因组 参见在 genbank/genomes 目录下的 readme 文件, ftp 链接在每个物种的 Entrez 基因组页面上也有。NCBI 站点地图 -Human Genome 人类基因组数据介绍 向导人类基因组资源向导 可用的人类基因组数据资源概览。包括关于人类基因组的公告和进展报告 和提供对以前分离的数据

31、的集中访问。人类基因组序列数据的状态 描述了目前在 GenBank 中的数据的范围, 包括完成的和草图高通量 基因组序列数据的讨论。染色体人类基因组测序 每一条染色体,概述了人类基因组计划的测序进展(图示和统计) 。提供对基 因组序列数据的访问,也有链接到参与的国际基因组中心,各种 STS 图谱,疾病基因信息,和选择 出的参考文献。列出完成的 contig 的大小和位置。 Contig 可以被显示出来,以表示组成他们的 GenBank 中的记录的成分,或者那些由 e-PCR 确定的位于其上的 STS 标记。 Contig 用在 GenBank 中处于第三期的 HTG 序列记录来组装起来,组装的

32、办法是用 Jang, et al 描述的过程,并给于一个 NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见 HTG网页。 Entrez 图谱浏览器 整合的染色体图谱 图谱浏览器是 Entrez 基因组的一个软件组成部分,用来 显示一个或多个用共同标记或基因名字互相 align 过的图谱,以及用相同序列进行比较过的序列图 谱。在人类基因组数据和搜索技巧文件中有关于 20 种序列,细胞遗传,遗传连锁,放射杂交,和 其它的图谱。 Entrez 图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。FTP 每个染色体都有一个文件目录包含各种格

33、式的完成的基因组con tig( NT_*记录):hs_chr*.asn ASN.1 格式 (description above) hs_chr*.fna.gz FASTA 格式 (description above) hs_chr*.gbk.gz GenBank flat file 格式(目前注解包括 STS 标记,已知和预期的基因将被在将来几个月中加入)hs_chr*.gbs GenBank summary 格式(这个格式不含有序列数据,但是包含一个“ CONTIG字段,表明这个con tig是如何有独立的GenBank 记录组装起来的。 )BLAST 人类基因组序列数据BLAST 人类染

34、色体 将一个核酸或蛋白序列同已经完成的 HTG contig 比较。 Contig 用在 GenBank 中处于第三期的 HTG 序列记录来组装起来,组装的办法是用 Jang, et al 描述的过程,并给于一个 NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见 HTG网页。 同人类染色体作 BLAST 是人类基因组测序页面的一个组成部分。BLAST htgs 数据库 将一个核酸或蛋白序列同未完成的 HTG 序列(第 0, 1, 2 期)进行比较(关 于各期HTG序列的详细说明见 HTG网页)。尽管htgs数据库包含有来自许多物种的序列,

35、你可以 使用 Advanced BLAST 页面来限定你的搜索只在人类。BLAST gss 数据库 将一个核酸或蛋白序列同随机的 “单次(测序) 阅读”的基因组调查序列比较, 如同 cosmid/BAC/Y AC 末端序列, exon trap 获得的基因组序列,和 Alu PCR 序列。尽管 gss 数据库 包含有来自许多物种的序列,你可以使用 Advanced BLAST 页面来限定你的搜索只在人类。 基因 位点链接( LocusLink ) 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,同名,序列accesssi

36、on number,表型, EC 号码, OMIM 号码, Unigene 簇,图谱信息,和相关的网址。 LocusLink 是 NCBI ,人类基 因命名委员会, OMIM 和其它组织的合作结果。 LocusLink 目前包含人类,小鼠,大鼠,斑马鱼, 和果蝇的位点,物种可以被分开或合在一起查询。OMIM 在线人类孟德尔遗传 经常更新的人类基因和遗传失调的目录,有链接到其它相关的文 献参考,序列记录,和相关数据库。RefSeq NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs ,已知基因的 mRNAs 和蛋白, 在将来, 整个的染色体。 Accession

37、numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。UniGene 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的人类基因, 有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载。序列人类基因组测序 每一条染色体,概述了人类基因组计划的测序进展(图示和统计) 。提供对基 因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS 图谱,疾病基因信息,和选择出的

38、参考文献。列出完成的 contig 的大小和位置。 Contig 可以被显示出来,以表示组成他们的 GenBank 中的记录的成分,或者那些由 e-PCR 确定的位于其上的 STS 标记。 Contig 用在 GenBank 中处于第三期的 HTG 序列记录来组装起来,组装的办法是用 Jang, et al 描述的过程,并给于一个 NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见 HTG网页。 RefSeq NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs ,已知基因的 mRNAs 和蛋白, 在将来, 整

39、个的染色体。 Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。Entrez 对 GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB 数据库中的核酸和 蛋白序列数据提供整合的访问,同时提供对 3D 蛋白结构,基因组图谱信息和 PubMed MEDLINE 的访问。 Entrez 包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和 MEDLINE 记录的表。包括了来自 70000 个物种的序列数据,可以用

40、物种字段来限制记录只在人 类搜索。克隆克隆登记 由多方人类基因组测序中心使用的数据库,用来记录哪些克隆已经被选来测序,哪些 正在被测序, 哪些已经完成, 哪些已经被送到 GenBank 中去了。 包括 BACs, PACs, cosmids, fosmids 。 使用统一的克隆名字表示克隆在微量板上的位置(板号,行,和列),位置前面加上库的缩写,来 产生唯一的名字。包括了克隆定购的信息。基因组图谱Entrez 基因组 链接到人类基因组测序站点的人类染色体视图。 Entrez 基因组同时包括了一个人 类线粒体的视图(通过真核细胞器来访问) ,可以查看完整情况或查看逐步详细的信息。Entrez 图

41、谱浏览器 整合的染色体图谱 图谱浏览器是 Entrez 基因组的一个软件组成部分,用来 显示一个或多个用共同标记或基因名字互相 align 过的图谱,以及用相同序列进行比较过的序列图 谱。在人类基因组数据和搜索技巧文件中有关于 20 种序列,细胞遗传,遗传连锁,放射杂交,和 其它的图谱。 Entrez 图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。GeneMap 99 35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH 试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超 过 100 名科学家的国际合作努力。NCBI RH图

42、谱 一NCBI整合的RH图谱,包括来自GeneMap 9啲G3和GB4的RH单子上的23723 个标记。这些标记相对于 1084 个框架标记(一个 G3 和 GB4 共同的子集)被绘制。所有的标记被 统一在 GB4 的尺度上。 R. Agarwala et al. 的文章提供了详细的整合策略,以及评估整合图谱质量的 方法。Mitelman癌症染色体变异摘要一 由Drs. Mitelman, Mertens,和Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。 参见 Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997) 的

43、超文本版 本。OMIM 基因图 一 被报道的和被许多定位方法决定的基因的细胞遗传位点。 可以用基因代号或细胞 遗传染色体位点来搜索。可以从 OMIM 页面上访问。OMIM 致病图 一 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM 的条目。可以从OMIM 页面访问。人类 /小鼠同源图 一 University of California at Davis 的 M. F. Seldin 建立,一张比较人和老鼠在同源 区段 DNA 上基因的表,按在每个基因组上的位置排列。绘制的标记dbSTS 一序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,因而可以确定在物理图 谱上的特定位置。

44、电子 PCR(e-PCR) 一 找到一个查询序列的假设位点图。用于在 DNA 序列上发现 STS 位点计算 过程。GeneMap 99一 35000 个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH 试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超 过 100 名科学家的国际合作努力。人类基因组测序 一 绘制的标记已经用 e-PCR 自动被放到完成的 HTG 序列组成的 contig 上。标记来源于dbSTS, Gen eMap 99 (基于基因的标记),Sta nford G3 RH单子(又有基因标记也有非基因标 记),Whitehead

45、 GB4 RH单子和YAC图谱(又有基因标记也有非基因标记),Genethon遗传图谱,和一些染色体特异的图谱,如 NHGRI 的 7 号染色体图谱, Washington University 的 X 染色体图谱。OMIM 基因图 被报道的和被许多定位方法决定的基因的细胞遗传位点。 可以用基因代号或细胞 遗传染色体位点来搜索。可以从 OMIM 页面上访问。基因表达CGAP cDNA 表达谱 在 UniGene 簇和 cDNA 库中的 ESTs 分布。可以在 CGAP 页面上访问。 SAGEmap CGAP SAGE ( Serial Analysis of Gene Expression )

46、库的差异显示。也包含了对在人类 GenBank 记录中的 SAGE 标签的完整分析,在人类 GenBank 记录中一个 UniGene 的标志被分配给 了每个含有一个 SAGE 标签的人类序列 遗传变异dbSNP 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。DbSNP 包含种族特异的频率和基因型数据, 实验条件, 分子上下文, 及中性多态和临床变异的定位 信息。OMIM 在线人类孟德尔遗传 约 900个 OMIM 记录的等位变异。 为了查看这些 OMIM 记录的列 表,在等位变异字段上搜索 “0001”或者,把一个疾病的名字同 “0001放到一起。女口:

47、 Gaucher & 0001。 位点特异突变数据库 从 OMIM 主页和相关的 LocusLink 条目链接到许多外部数据库。失调基因和疾病 介绍遗传因素和人类疾病的关系。有约 60 种遗传疾病的概要信息,以及链接到相 关数据库和组织。Mitelman癌症染色体变异摘要 由Drs. Mitelman, Mertens,和Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。 参见 Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997) 的超文本版 本。OMIM 在线人类孟德尔遗传 经常更新的人类基因和遗传失调的目录,有链接到

48、其它相关的文 献参考,序列记录,和相关数据库。OMIM Morbid Map - alphabetical listing of diseases and corresponding cytogenetic map locations, with links to OMIM entries. Accessible from OMIM page (see Genes).OMIM 致病图 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM 的条目。可以从OMIM 页面访问。癌症研究CCAP 癌症染色体变异计划 计划用来加速同恶性转移相关的显著染色体变异的定义和详细的 特征描述。CGAP 癌症基

49、因组剖析计划 交叉学科项目,目的是基于 cDNA 库,鉴定在不同癌症阶段的 人类基因表达,和决定正常,癌前和恶性细胞的分子表达谱。是NCI, NCBI 和其它许多实验室的合作。Mitelman癌症染色体变异摘要 由Drs. Mitelman, Mertens,和Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。 参见 Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997) 的超文本版 本。SAGE 分析 在癌症库中的 SAGE 标签的差异表达NCBI 站点地图 - 其他基因组数据介绍 小鼠基因组小鼠基因组资源向导 把从各个

50、中心来的各种小鼠相关的资源整合在一起,包括序列,图谱,和 克隆信息以及指向小鼠种系和突变资源的指针。小鼠基因组测序 小鼠基因组计划的测序进展, HTG 序列 contigs (可以用大小和染色体号来浏 览)由测序中心的数据建立,可以 contig 或染色体的形式来下载。小鼠 UniGene 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基因, 有定位图和表达信息以及同其它资源的交叉参考。 序列数据可以以 cluster 形式在 Unigene 网页下载, 完整的数据可以从 FTP 站点 repository/UniGene 目录下下载位点链接( LocusLin

51、k ) 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID ,并提供官方的命名,序列 accesssion number , Unigene 簇,图谱信息,和相关的网址。 LocusLink 是 NCBI ,人类基因命名委员会, OMIM 和其它组织的合 作结果。 LocusLink 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在 一起查询。Entrez 包括了来自 70000 个物种的序列数据,可以用物种字段来限制记录只在小鼠搜索。 人类 /小鼠同源图 University of California at Dav

52、is 的 M. F. Seldin 建立,一张比较人和老鼠在同源 区段 DNA 上基因的表,按在每个基因组上的位置排列。大鼠基因组大鼠 UniGene 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基因, 有定位图和表达信息以及同其它资源的交叉参考。 序列数据可以以 cluster 形式在 Unigene 网页下载, 完整的数据可以从 FTP 站点 repository/UniGene 目录下下载位点链接( LocusLink ) 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID ,并提供官方的命名,序列

53、 accesssion number , Unigene 簇,图谱信息,和相关的网址。 LocusLink 是 NCBI ,人类基因命名委员会, OMIM 和其它组织的合 作结果。 LocusLink 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在 一起查询。斑马鱼基因组斑马鱼 UniGene 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基 因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页 下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载位点链接( LocusLink ) 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID ,并提供官方的命名,序列 accesssion number , Unigene 簇,图谱信息,和相关的网址。 LocusLink 是 NCBI ,人类基因命名委员会, OMIM 和其它组织的合 作结果。 LocusLink 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在 一起查询。果蝇基因组黑腹果蝇主页 提供所有可使用的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论