生物信息学 NCBI数据库_第1页
生物信息学 NCBI数据库_第2页
生物信息学 NCBI数据库_第3页
生物信息学 NCBI数据库_第4页
生物信息学 NCBI数据库_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 生物信息学课件 吴晓龙 讲述内容讲述内容 一、生物信息学和我的实验室一、生物信息学和我的实验室 二、二、NCBI数据库数据库 一、生物信息学和我的实验室一、生物信息学和我的实验室 生物信息学生物信息学(Bioinformatics)是在生命 科学的研究中,以计算机为工具对生物信 息进行储存、检索和分析的科学。它是当 今生命科学和自然科学的重大前沿领域之 一,同时也将是21世纪自然科学的核心领 域之一。其研究重点主要体现在基因组学 (Genomics)和蛋白质组学(Proteomics) 两方面,具体说就是从核酸和蛋白质序列 出发,分析序列中表达的结构功能的生物 信息。 1、生物信息学介绍 具

2、体而言,生物信息学作为一门新的学科 领域,它是把基因组DNA序列信息分析作 为源头,在获得蛋白质编码区的信息后进 行蛋白质空间结构模拟和预测,然后依据 特定蛋白质的功能进行必要的药物设计。 基因组信息学,蛋白质空间结构模拟以及 药物设计构成了生物信息学的3个重要组成 部分。 主要研究方向 1、序列比对 2、蛋白质结构比对和预测 3、基因识别非编码区分析研究 4、分子进化和比较基因组学 6、遗传密码的起源 7、基于结构的药物设计 8、生物系统的建模和仿真 简单重复序列 简单重复序列(Simple Sequence Repeats, SSRs)也称微卫星序列(Microsatellites)或短串

3、联 重复序列(Short Tandem Repeats,STRs),是由 1-6个碱基对组成的串联重复DNA片段。SSRs在 真核和原核生物的基因组中分布广泛、数量丰富, 并具有较高的突变频率。 如: (A)n、 (ACG)n、(ATCG)、(ACCCTT)n 2、我 的 实 验 室 简单重复序列与人类疾病 简单重复序列是广泛分布在人类基因 组中的,尽管其中很多功能都不太清 楚,但是既然存在总有它存在的意义。 下面总结了一些人类基因组中由于 SSR扩增或变异所引起的相关疾病 我们实验是近几年发的文章 NCBI数据库 1、国外的重要生物信息中心 2、NCBI介绍 1、国外重要生物信息中心 17

4、NCBI 美国国家生物技术信息中心(National Center for Biotechnology Information) 前身是NIH所属的一个研究所的计算生物学 研究室,1988年独立为NCBI,形式上属于国家 医学图书馆(National Library of Medicine/NLM) 管理着许多著名数据库,如GenBank、 Medline、dbSNP、COG、OMIM等 提供Entrez、BLAST等服务 NCBI homepage 19 EBI 欧洲生物信息学研究所(European Bioinformatics Ins

5、titute) 1994年建于英国剑桥,前身是德国海德堡的欧 洲分子生物学实验室的信息服务部门 EBI接收了原来EMBL数据库的管理和维护 是欧洲分子生物学网(EMBnet)的一个特别节 点 http:/www.ebi.ac.uk/ (主页) http:/www2.ebi.ac.uk/ (工具) http:/www3.ebi.ac.uk/ (服务) 20 EMBL homepage 21 NIG 日本国立遗传学研究所(National Institute of Genetics) 创立于1949年7月1日,属文部省管辖 信息服务始于1984年 维护管理着DDBJ 1987年1月发行DDBJ第一

6、版 http:/www.nig.ac.jp 22 DDBJ homepage 23 国际核苷酸序列数据库联盟 International Nucleotide Sequence Database Collaboration (INSDC)包括 GenBank 美 /Genbank EMBL 欧 http:/www.ebi.ac.uk/embl/ DDBJ 日 http:/www.ddbj.nig.ac.jp/ 每天这三个数据库作数据同步操作 在任何一个数据库操作(查找、投递数据等)是 等效的 24 TIGR 基因组研究所(The Instit

7、ute for Genomic Research) 是重要的测序中心 1992年建立 1995年参与完成首次全基因组测序(流感嗜血 杆菌) 拥有世界最大的cDNA数据库之一 / 25 基因图谱数据库 RHdb (辐射杂交; 人、鼠),GDB (人类),GeneMap (人类; NCBI) 生物医学文献数据库 MEDLINE 人类基因组相关数据库 其他模式生物的基因组数据库 DOGS ( Database of Genome Sizes 丹麦 综合) 线虫 ACeDB, Sanger 果蝇 FlyBase, Berkeley 小鼠 MGD, Japan 酵母

8、Stanford, MIPS 大肠杆菌 WISC DNA结构数据库 CUTG (Codon Usage Tabulated from GenBank, 密码子使用频度表) 日 EPD (Eukaryotic Promotor Database, 真核生物启动子数据库) 欧 TRANSFAC (真核生物基因表达调控因子的数据库) 德 RepBase (重复序列), MicroSatellite (微卫星), COMPEL (复合元件), MPDB (分子探针), NDB (晶体), VectorDB (载体), EID (外显内含子) 26 BioSino 是中国

9、自主开发的核酸序列公共数据库 发表我国学者提供的核酸序列,并接受注册登 记 有CDNAP和DDIB两个产品 / /DIDWeb/index.html NCBI介绍 NCBI 美国国家生物技术信息中心(National Center for Biotechnology Information) 前身是NIH所属的一个研究所的计算生物学 研究室,1988年独立为NCBI,形式上属于国 家医学图书馆(National Library of Medicine/NLM) 管理着许多著名数据库,如GenBank、 Medlin

10、e、dbSNP、OMIM等 提供Entrez、BLAST等服务 它的使命包括四项任务: 1.建立关于分子生物学,生物化学,和遗传 学知识的存储和分析的自动系统 。 2.实行关于用于分析生物学重要分子和复合 物的结构和功能的基于计算机的信息处理 的,先进方法的研究 。 3.加速生物技术研究者和医药治疗人员对数 据库和软件的使用。 4.全世界范围内的生物技术信息收集的合作 努力。 NCBI数据库介绍 Nucleotide 美国国立卫生研究院GenBank。 Genome 即基因组数据库,提供了多种基因组、完全染色体、 Contiged 序列图谱

11、以及一体化基因物理图谱。 Pubmed 文献数据库。 Structures 即结构数据库或称分子模型数据库(MMDB),包含来自 X线晶体学和三维结构的实验数据。MMDB的数据从 PDB(Protein Data Bank)获得。 Taxonomy 即生物学门类数据库,可以按生物学门类进行检索或 浏览其核苷酸序列、蛋白质序列、结构等。 31 Nucleotide and genome Nucleotide 该数据库由国际核苷酸序列数据库成员美 国国立卫生研究院GenBank、日本DNA数据库 (DDBJ)和英国Hinxton Hall的欧洲分子生物学实 验室数据库(EMBL)三部分数据组成。

12、这三个组织联合组成国际核苷酸序列数据库 协作体,每天交换各自数据库中的新增序列记录 实现数据共享。 其中的核酸序列数据也通过与 基因组序列数据库(GSDB)合作获取。 选择数据库 输入关键字 NCBI主页 进入Entrez检索 Entrez简介 Entrez是个全局的生物医学搜索引擎,他可 以检索的数据库主要包括三类: (1) 文献数据库:PubMed,PubMed Central, Journals,Books,OMIM,OMIA。 (2) 序列数据库:Nucleotide,Protein,Genome, Strcture,SNP。 (3) 其他数据库:Taxonomy,Gene, Prob

13、e,PopSet等 无对应结果 相关的结果 Entrez检索的结果 Entrez 功能强大,在于它的大多数记录可相互链接,既可 在同一数据库内链接,也可在数据库之间进行链接。 Entrez browser来查询各 种数据(集成搜索工具) 基因组的相关的信息 查看详细结果 详细结果 序列部分 注释部分 下载格式选择 注释部分 基因位点(Locus)、基因定义(Definition)、 基因存取号(Accession)、关键词(Keywords) 、 来源(Source)、组织分类(Organism)、 参考文献(Reference)、 著者(Author)、题 目(Title)、期刊(Journ

14、al)、序列特征( Features)、基因(Gene)、蛋白质编码序列 CDS(cDNA) 、5非翻译区(5UTR)、 3非翻 译区3UTR)、mRNA的polyA位置(polyA_site )、信使RNA( mRNA )、外显子( exon )、 内含子( intron )、原序列(Origin)。 常用序列格式:FASTA格式 1.定义: 在生物信息学中,FASTA格式(又称为Pearson格式),是 一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中 碱基对或氨基酸用单个字母来编码,且允许序列前添加序列名及注释。 通常核苷酸符号大小写均可,而氨基酸常用大写字母。 2.特点:

15、 简单 使用最多 例子(单序列): gi|9629267|ref|NC_001798.1| Human herpesvirus 2, complete genome AGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGG AAGGCAGC CCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGA CGGGGAAGG . 多序列FASTA 42 FASTA序列格式中的核苷酸表示法 43 FASTA序列格式中的氨基酸表示法 44 GenBank查询 已知收录号(a

16、ccession number)的情况 45 向GenBank投递序列 GenBank提供多种工具投递 序列,如 BankIt (网上投递) 适于少量的、注释简单的序列 投递 Sequin (本地投递;软件) 适于大量的、复杂的序列投递 可投递变异、种系发生、群体 数据集 图形界面操作 选项多、功能强 可向GenBank, EMBL, DDBJ 中的任一数据库投递 PubMed PubMed查找文献 选择PubMed文献数据库 PubMed主页 输入关键词 PubMed查询结果 所有结果 查看摘要 免费文章 增加筛选条件 显示单篇文章摘要 链接到原杂志 原文章所在杂志 PDF格式下载 下载页面

17、 保存 53 关键词的选择 不是特殊情况,尽量使用名词原形,不使 用复数、所有格等 尽量使用专业用语,不使用the, of, and, research等常用词作为关键词 为了减少遗漏,使用尽可能少而精的关键 词 Blast 序列比对 序列比对(sequence alignment)也称联配 、队排,是生物信息学中最常用和最经典 的手段。通过序列比对,可以推测基因和 蛋白质的进化演变规律,或者推测基因和 蛋白质的结构和功能。 对于两个序列之间的比对,称之为双序列 比对或成对比对。对于多序列之间的比对 ,称之为多序列比对。 主要有BLAST和Clustal X 两种工具。 Blast比对 BLA

18、ST比对是Basic Local Alignment Search Tool(基本局部比对搜索工具)的英 文简称,是一种序列类似性检索工具。 NCBI提供了网络版BIAST搜索线服务。还 提供了BLAST搜索程序和下载链接。 有5个子程序。 主要的blast程序 程序名查询序列数据库搜索方法 Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列 Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序 列 Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白 质数据库中的序列逐一搜索。 Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。 T

19、Blastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核 酸数据库中的核酸序列6框翻译成的蛋 白质序列逐一进行比对。 Blast结果给出的信息 Blast结果会列出跟查询序列相似性比较高, 符合限定要求的序列结果,根据这些结果 可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 这些信息都可以应用到后续分析中。 从主页进入blast 点此进入blast主页 Blast主页 核酸序列比对 参数设置 输入需要比对的序列 数据库选择 程序选择 比对 或 选择fasta格式的文件 在此输入序列或序列登录号(AC) 结果解读 结果有三部分组成: 1. 结果总览 2. 序列比对结果的描述 3.各序列比对的详情 1.结果总览 红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其他 依次降低,黑色最低。每一条线代表搜索匹配的一条序列; 2.比对结果描述 与目标序列同源性最高的结果在最上面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论