生物信息学 NCBI数据库.ppt_第1页
生物信息学 NCBI数据库.ppt_第2页
生物信息学 NCBI数据库.ppt_第3页
生物信息学 NCBI数据库.ppt_第4页
生物信息学 NCBI数据库.ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学课件,吴晓龙,讲述内容,一、生物信息学和我的实验室 二、NCBI数据库,一、生物信息学和我的实验室,生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。,1、生物信息学介绍,具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的

2、信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。 基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。,主要研究方向,1、序列比对 2、蛋白质结构比对和预测 3、基因识别非编码区分析研究 4、分子进化和比较基因组学 6、遗传密码的起源 7、基于结构的药物设计 8、生物系统的建模和仿真 ,简单重复序列 简单重复序列(Simple Sequence Repeats,SSRs)也称微卫星序列(Microsatellites)或短串联重复序列(Short Tandem Repeats,STRs),是由1-6个碱基对组成的串联重复DNA片段。S

3、SRs在真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。 如: (A)n、 (ACG)n、(ATCG)、(ACCCTT)n,2、我 的 实 验 室,简单重复序列与人类疾病,简单重复序列是广泛分布在人类基因组中的,尽管其中很多功能都不太清楚,但是既然存在总有它存在的意义。下面总结了一些人类基因组中由于SSR扩增或变异所引起的相关疾病,我们实验是近几年发的文章,NCBI数据库,1、国外的重要生物信息中心 2、NCBI介绍,1、国外重要生物信息中心,17,NCBI,美国国家生物技术信息中心(National Center for Biotechnology Information

4、) 前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM) 管理着许多著名数据库,如GenBank、Medline、dbSNP、COG、OMIM等 提供Entrez、BLAST等服务 ,NCBI homepage,19,EBI,欧洲生物信息学研究所(European Bioinformatics Institute) 1994年建于英国剑桥,前身是德国海德堡的欧洲分子生物学实验室的信息服务部门 EBI接收了原来EMBL数据库的管理和

5、维护 是欧洲分子生物学网(EMBnet)的一个特别节点 http:/www.ebi.ac.uk/ (主页) http:/www2.ebi.ac.uk/ (工具) http:/www3.ebi.ac.uk/ (服务),20,EMBL homepage,21,NIG,日本国立遗传学研究所(National Institute of Genetics) 创立于1949年7月1日,属文部省管辖 信息服务始于1984年 维护管理着DDBJ 1987年1月发行DDBJ第一版 http:/www.nig.ac.jp,22,DDBJ homepage,23,国际核苷酸序列数据库联盟,International

6、 Nucleotide Sequence Database Collaboration (INSDC)包括 GenBank 美 /Genbank EMBL 欧 http:/www.ebi.ac.uk/embl/ DDBJ 日 http:/www.ddbj.nig.ac.jp/ 每天这三个数据库作数据同步操作 在任何一个数据库操作(查找、投递数据等)是等效的,24,TIGR,基因组研究所(The Institute for Genomic Research) 是重要的测序中心 1992年建立 1995年参与完成首次全基因组测序(流感嗜血杆菌)

7、拥有世界最大的cDNA数据库之一 /,25,基因图谱数据库 RHdb (辐射杂交; 人、鼠),GDB (人类),GeneMap (人类; NCBI) 生物医学文献数据库 MEDLINE3800多种生物医学期刊 (通过PubMed查询) SCI ISI提供的文献引用检索 (收费) 人类基因组相关数据库 GDB(人类基因组), OMIM(遗传,变异) ,HGVbase 瑞典 (变异,双等位序列) 其他模式生物的基因组数据库 DOGS ( Database of Genome Sizes 丹麦 综合) 线虫 ACeDB, Sanger 果蝇 FlyBase, Be

8、rkeley 小鼠 MGD, Japan 酵母 Stanford, MIPS 大肠杆菌 WISC DNA结构数据库 CUTG (Codon Usage Tabulated from GenBank, 密码子使用频度表) 日 EPD (Eukaryotic Promotor Database, 真核生物启动子数据库) 欧 TRANSFAC (真核生物基因表达调控因子的数据库) 德 RepBase (重复序列), MicroSatellite (微卫星), COMPEL (复合元件), MPDB (分子探针), NDB (晶体), VectorDB (载体), EID (外显内含子),26,Bio

9、Sino, 是中国自主开发的核酸序列公共数据库 发表我国学者提供的核酸序列,并接受注册登记 有CDNAP和DDIB两个产品 / /DIDWeb/index.html,NCBI介绍,NCBI,美国国家生物技术信息中心(National Center for Biotechnology Information) 前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(National Library of Medicine/NLM) 管理着许多著

10、名数据库,如GenBank、Medline、dbSNP、OMIM等 提供Entrez、BLAST等服务 ,它的使命包括四项任务:,1.建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统 。 2.实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究 。 3.加速生物技术研究者和医药治疗人员对数据库和软件的使用。 4.全世界范围内的生物技术信息收集的合作努力。,NCBI数据库介绍 Nucleotide 美国国立卫生研究院GenBank。 Genome 即基因组数据库,提供了多种基因组、完全染色体

11、、 Contiged 序列图谱以及一体化基因物理图谱。 Pubmed 文献数据库。 Structures 即结构数据库或称分子模型数据库(MMDB),包含来自 X线晶体学和三维结构的实验数据。MMDB的数据从 PDB(Protein Data Bank)获得。 Taxonomy 即生物学门类数据库,可以按生物学门类进行检索或 浏览其核苷酸序列、蛋白质序列、结构等。 ,31,Nucleotide and genome,Nucleotide 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(E

12、MBL)三部分数据组成。 这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。 其中的核酸序列数据也通过与基因组序列数据库(GSDB)合作获取。,选择数据库,输入关键字,NCBI主页,进入Entrez检索,Entrez简介,Entrez是个全局的生物医学搜索引擎,他可以检索的数据库主要包括三类: (1) 文献数据库:PubMed,PubMed Central, Journals,Books,OMIM,OMIA。 (2) 序列数据库:Nucleotide,Protein,Genome, Strcture,SNP。 (3) 其他数据库:Taxonomy,G

13、ene, Probe,PopSet等,无对应结果,相关的结果,Entrez检索的结果,Entrez 功能强大,在于它的大多数记录可相互链接,既可 在同一数据库内链接,也可在数据库之间进行链接。,Entrez browser来查询各种数据(集成搜索工具),基因组的相关的信息,查看详细结果,详细结果,序列部分,注释部分,下载格式选择,注释部分,基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、关键词(Keywords)、 来源(Source)、组织分类(Organism)、参考文献(Reference)、 著者(Author)、题目(Title)、期刊(J

14、ournal)、序列特征(Features)、基因(Gene)、蛋白质编码序列CDS(cDNA) 、5非翻译区(5UTR)、 3非翻译区3UTR)、mRNA的polyA位置(polyA_site)、信使RNA( mRNA )、外显子( exon )、内含子( intron )、原序列(Origin)。,常用序列格式:FASTA格式,1.定义: 在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许序列前添加序列名及注释。通常核苷酸符号大小写均可,而氨基酸常用大写字母。 2.特点: 简单

15、使用最多 例子(单序列):,gi|9629267|ref|NC_001798.1| Human herpesvirus 2, complete genome AGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGC CCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG .,多序列FASTA,sequence1, E. coli ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcat

16、gtagcatgcta gctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc sequence2, B. subtilis ctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatg

17、ctagctagatgcatgctaVcgvcgtaggcagccgcc sequence3, B. natto ctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc,42,FASTA序列格式中的核苷酸表示法,43,FASTA序列格式中的氨基酸表示法,44,GenBank查询,已知收录号(a

18、ccession number)的情况,选数据库,输入收录号,查询结果摘要,点击查看详细结果,45,向GenBank投递序列,GenBank提供多种工具投递序列,如 BankIt (网上投递) 适于少量的、注释简单的序列投递 Sequin (本地投递;软件) 适于大量的、复杂的序列投递 可投递变异、种系发生、群体数据集 图形界面操作 选项多、功能强 可向GenBank, EMBL, DDBJ中的任一数据库投递,PubMed,PubMed查找文献,选择PubMed文献数据库,PubMed主页,输入关键词,PubMed查询结果,所有结果,查看摘要,免费文章,增加筛选条件,显示单篇文章摘要,链接到原

19、杂志,原文章所在杂志,PDF格式下载,下载页面,保存,53,关键词的选择,不是特殊情况,尽量使用名词原形,不使用复数、所有格等 尽量使用专业用语,不使用the, of, and, research等常用词作为关键词 为了减少遗漏,使用尽可能少而精的关键词,Blast,序列比对,序列比对(sequence alignment)也称联配、队排,是生物信息学中最常用和最经典的手段。通过序列比对,可以推测基因和蛋白质的进化演变规律,或者推测基因和蛋白质的结构和功能。 对于两个序列之间的比对,称之为双序列比对或成对比对。对于多序列之间的比对,称之为多序列比对。 主要有BLAST和Clustal X 两种

20、工具。,Blast比对,BLAST比对是Basic Local Alignment Search Tool(基本局部比对搜索工具)的英文简称,是一种序列类似性检索工具。 NCBI提供了网络版BIAST搜索线服务。还提供了BLAST搜索程序和下载链接。 有5个子程序。,主要的blast程序,Blast结果给出的信息,Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 这些信息都可以应用到后续分析中。,从主页进入blast,点此进入blast主页,Blast主页,核酸序列比对,参数设置,输入需要比对的序列,数据库选择,程序选择,比对,或 选择fasta格式的文件,在此输入序列或序列登录号(AC),结果解读,结果有三部分组成: 1. 结果总览 2. 序列比对结果的描述 3.各序列比对的详情,1.结果总览,红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其他依

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论