「生物信息学第一章 DNA、RNA和蛋白质序列信息资源[课件参考]」.ppt_第1页
「生物信息学第一章 DNA、RNA和蛋白质序列信息资源[课件参考]」.ppt_第2页
「生物信息学第一章 DNA、RNA和蛋白质序列信息资源[课件参考]」.ppt_第3页
「生物信息学第一章 DNA、RNA和蛋白质序列信息资源[课件参考]」.ppt_第4页
「生物信息学第一章 DNA、RNA和蛋白质序列信息资源[课件参考]」.ppt_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章DNA RNA和蛋白质序列信息资源 DNA RNAAndProteinSequenceInformationResources 中国医科大学赵雨杰 生物信息学 bioinformatics 在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合 以计算机为研究工具对生物信息进行获取 处理 储存 传播 分析 模拟和解释的交叉学科 生物信息学研究内容 它利用数据库技术和软件技术对大量积累的生物大分子序列数据进行比较和分析 揭示出生物大分子的分子结构 功能和进化关系以及基因组构成与基因表达等生物学事件对生命活动的影响 生物信息学研究重点 主要体现在基因组学 genomics 和蛋白质组学 proteomics 两方面 它从核酸和蛋白质序列出发 分析序列中与结构 功能相关的生物信息的表达 生物信息学数据库 生物信息学中的各类数据库几乎覆盖了生命科学的各个领域 如核酸序列数据库 蛋白质序列数据库 蛋白质 核酸 多糖的三维结构数据库 基因组数据库 文献数据库和其他种类数据库 生物信息学数据库分类 生物信息数据库种类繁多 就目前来看 大体可以分为四个大类 1 基因组数据库 2 核酸和蛋白质一级结构序列数据库 3 生物大分子 主要是蛋白质 三维空间结构数据库 4 根据以上三类数据库和文献资料为基础构建的二次数据库 也称专门数据库 专业数据库或专用数据库 一次数据库 第二节核酸序列数据库Section2NucleicAcidsequenceDatabases 自20世纪80年代第一个核酸数据库建立以来 核酸数据库迅速发展 在互联网上不仅有核酸序列数据库 还出现了基因组相关数据库 核酸三维结构数据库 基因表达数据库 人类基因突变及疾病相关数据库 进化相关数据库及其他与核酸有关的数据库 三大核酸序列数据库 GenBankEMBLDDBJ 特殊类型核酸序列数据库 非编码RNA数据库 ncRNA 表达序列标签数据库 dbEST 序列标签位点数据库 dbSTS miRBase tRNAdb等 基因组相关数据库 人类基因组数据库 HGD 基因组序列数据库 GSDB 基因组在线数据库 GOLD 等 核酸三维结构数据库 核苷酸三维结构数据库 NDB 普纳大学核酸结构数据库 BNASDB 等 基因表达数据库 基因表达库 GEO 斯坦福微阵列数据库 SMD ArrayExpress CGED GXD BodyMap等 人类基因突变及疾病相关数据库 人类基因变异数据库 HMGD 人类遗传双等位基因序列数据库 HGBASE 人类孟德尔遗传在线 OMIM 国际单体型计划 HapMap 人类单核苷酸多态性数据库 dbSNP 肿瘤基因数据库 TGDB 疾病关联数据库 GAD 癌症基因数据库 CGAP 人类表观遗传数据库 HEP 人类DNA甲基化与癌症数据库 MethylCancer 等 一 GenBank数据库 GenBank http www ncbi nlm nih gov genbank 是一个综合数据库 该数据库中包含了已经公开的30万余种不同物种生物的核酸序列 这些数据主要来源于全世界不同实验室和大规模测序计划项目 GenBank是具有目录和生物学注释的核酸序列综合数据库 由美国国家医学图书馆的国家生物技术信息中心构建 维护和管理 该中心位于美国马里兰国家健康研究所 NIH GenBank数据库的序列数据来源于序列发现者提交的序列 批量提交的表达序列标签 expressedsequencetag EST 基因组测序序列 genomesurveysequence GSS 和其他测序中心提供的高通量数据 还包括美国专利商标局提供的已发表专利的序列数据 GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库 EuropeanMolecularBiologyLaboratoryNucleotideSequenceDatabase EMBL 和日本的DNA数据库 DNADataBankofJapanDDBJ 进行数据交换 以保证数据库内容在全世界范围的同步性 在NCBI http www ncbi nlm nih gov 的主页上提供了进入GenBank的路径 相关检索和分析服务 通过NCBI的检索系统 Entrez 可以进入GenBank Entrez检索程序整合了主要的DNA和蛋白序列数据的分类学 基因组 图谱 蛋白结构和结构 功能 域信息 还包括相关的PubMed的生物医学文献信息 BLAST程序提供GenBank和其他序列数据库中序列相似性搜索服务 一 GenBank数据库结构 1 依据序列的物种来源分类2 Genbank记录和分类2 1表达序列标签 EST 2 2序列标签位点 STS 基因组勘测序列 GSS 和环境样品序列 ENV 2 3高通量基因组 HTG 和高通量cDNA HTC 序列2 4全基因组鸟枪测序序列 WGS 2 5转录组鸟枪组合序列 一 GenBank数据库结构 3 特殊记录类型3 1第三方注释 TPA 3 2GenBankCON记录较小记录组合记录 二 构建数据库 1 直接电子提交1 1使用BankIt提交1 2使用Sequin和tbl2asn提交1 3条形码序列提交2 序列标识符和记录号 三 检索GenBank数据 1 Entrez系统 http www ncbi nlm nih gov sites gquery 2 与测序计划检索相关的序列记录 http www ncbi nlm nih gov genomeprj 3 BLAST序列相似性搜索 http blast ncbi nlm nih gov Blast cgi 4 用FTP获取GenBank http ftp ncbi nih gov genbank 二 EMBL数据库 EMBL建立于1980年 EMBL核苷序列数据库 http www edi ac uk embl 是欧洲主要的核苷序列收集单位 欧洲生物信息中心EBI 即EMBL在德国海德堡的站点 维护这个数据库 核苷数据来自基因组测序中心 世界各地的科学家 欧洲专利局 以及与合作伙伴DDBJ Japan 和GenBank USA 交换的数据 三 DDBJ数据库 日本DNA数据库 DDBJ 是在亚洲唯一的核酸序列数据库 是搜集研究者公认的测定核酸序列的数据库 并且发放给数据提交者国际认证的核酸序列编号 由于DDBJ每天将搜集的数据与EMBL Bank EBI和GenBank NCBI进行交换 使得三个核酸数据库几乎在任何时候都享有相同数据 DDBJ主要收集来自日本研究者获得的序列数据 但也收集数据和发放编号给任何其他国家的研究者 四 其他重要的核酸序列数据库 dbEST dbEST是GenBank中的一个子数据库 包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息 ncRNAdb 非编码RNA non codingRNAncRNA 数据库旨在提供非编码RNA的序列和功能信息 miRBase miRBase序列数据库主要存放已发表的微小RNA microRNAmiRNA 序列和注释的数据库 第三节蛋白质序列数据库Section3ProteinSequenceDatabase 随着分子生物学的发展 人们获得了越来越多关于蛋白质序列 结构和功能的信息 世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库 蛋白质三维结构数据库 蛋白质组数据库 二维凝胶电泳数据库 信号传导及蛋白质 蛋白质相互作用相关数据库 DNA和蛋白质相互作用数据库等蛋白质相关数据库 常用的蛋白质序列数据库 PIRMIPSSwiss Prot 蛋白质功能 结构域和蛋白质家族有关的数据库 PROSITEInterProPfamProDomSMART等 蛋白质三维结构相关数据库 PDBBioMagResBankSWISS MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS 3DIMAGEBioImage等 蛋白质二维凝胶电泳数据库 WORLD 2DPAGEPhoretixlinks 信号传导及蛋白质 蛋白质相互作用相关数据库 DIPINTERACTProNetKEGGCANSITESPADCSNDB等 DNA和蛋白质相互作用数据库 DPInteract蛋白质翻译后修饰相关数据库 O GlycBase PhosphoBase RES蛋白质等蛋白质 一 PIR数据库 蛋白质信息库 PIR http pir georgetown edu pirwww 是一个支持基因组学 蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源 PIR是由美国国家生物医学基金会 NBRF 于1984年建立 帮助研究者确认和解释蛋白序列信息的数据库 PIR免费为科学界提供包括蛋白序列数据库 PSD 在内的蛋白数据库和分析工具 PIR信息库资源 PIR主要数据库 1 UniProt 通用蛋白质资源库2 iProClass 蛋白质知识整合数据库3 PIRSF 蛋白质家族分类系统4 iProLINK 蛋白质文献 信息和知识整合数据库 1 UniProt 通用蛋白质资源库UniProt http www uniprot org 是存储和链接其他蛋白质数据库的资源库 并且是蛋白质序列和具有综合功能注释目录的中心资源库 使用UniprotKB可以检索准确 可靠的蛋白综合信息 使用UniRef可以减少冗余 加速序列相似性搜索 使用UniParc可以检索存档序列和它们来源的数据库 2 iProClass 蛋白质知识整合数据库iProClass http pir georgetown edu iproclass 提供来自90多个生物学数据库的大量整合数据 包括蛋白ID图谱服务 UniProtKB编注蛋白质摘要描述和筛选UnParc数据库的蛋白质序列 使用iProClass可以检索最新的蛋白质综合信息 包括 功能 转导通路 相互作用 家族分类 基因和基因组 功能注释标准体系 ontology 文献和分类学信息 使用iProClass还可以检索ID图谱 蛋白质词典和相关序列 3 PIRSF 蛋白质家族分类系统PIRSF http pir georgetown edu pirsf 分类系统概要论述家族的特征 如家族名称 分类分布 分级和功能域结构 以及家族成员 包括功能 结构 传导通路 功能注释标准体系 ontology 和家族分类 利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成员共有的其他特征 4 iProLINK 蛋白质文献 信息和知识整合数据库iProLINK http pir georgetown edu iprolink 提供有关注释内容的文献 蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息 数据库校正 蛋白质名称标记和功能注释标准体系 ontology 使用iProLINK可以获得描述蛋白质记录的文本文献资源 在UniProtKB记录 生物词典 中加入蛋白质或基因命名的图谱 获得用于开发文本挖掘算法的注释数据集 挖掘蛋白质磷酸化 RLIMS P 文献和获得蛋白质功能注释标准体系 ontology PRO 信息 二 MIPS数据库 慕尼黑蛋白质序列信息中心 MIPS http www helmholtz muenchen de en mips 它的重点工作是基因组生物信息学 特别注重基因组信息系统分析 包括应用生物信息学方法注释基因组 表达分析和蛋白质组学方面研究 MIPS支持和维护一系列基因组数据库以及系统 可以提供细菌 真菌和植物基因组比较分析服务 在该站点提供基因组分析工具 数据库检索系统 表达分析 蛋白相互作用等网络服务 三 其他重要的蛋白质序列数据库 PRINTSPfam 一 PRINTS PRINTS http www bioinf manchester ac uk dbbrowser PRINTS index php 是蛋白基序指纹图综合数据库 每个指纹图都是使用数据扫描程序ADSP或VISTAS序列分析软件包反复优化后定义的 数据库中有两种类型指纹图 根据指纹图的复杂性分为简单和复合指纹图 简单指纹图基本上是单一的基序 而复合指纹图包含多个基序 二 Pfam 蛋白质一般是由一个或多个功能区域组成 这些功能区域通常称作域 domain 在不同的蛋白质中不同的域以不同的组合出现 导致在自然界发现多种多样组成成分的蛋白质 识别出现在蛋白质中的域可以了解蛋白质的功能 Pfam数据库 http pfam sanger ac uk 是一个大的蛋白质域家族集合 每个家族是用多序列比对和隐马模型 HMMs 分析结果的代表 第四节NCBI与EBISection4NCBIandEBI 一 NCBI的简介二 EBI简介 一 NCBI的简介 作为一个国家分子生物学信息资源 NCBI的使命是开发新的信息技术 帮助理解控制健康和疾病的基本分子和遗传过程 特别是 NCBI肩负建立存储和分析分子生物学 生物化学和遗传学知识的自动系统 提供研究和医学界使用方便的数据库和软件 努力协调搜集国内外生物技术信息 执行分析生物学重要分子结构和功能的先进研究方法 二 EBI简介 欧洲生物信息学研究所 EMBL EBI 是欧洲分子生物学实验室 EMBL 的一部分 EMBL EBI维护世界上最广泛的分子数据库 EMBL EBI是在全球范围内 努力协调搜集和传播生物学数据的欧洲节点 EMBL EBI的许多数据库是生物学家们熟知的 包括 EMBL Bank DNA和RNA序列 Ensemble 基因组 ArrayExpress 基于微阵列的基因表达数据 UniProt 蛋白质序列 InterPro 蛋白家族 域和基序 Reactome 传导通路 和ChEBI 小分子 新的资源帮助研究者不仅了解构成生物体的分子部件 还了解这些部件是如何组合构成系统的 三 通过EntrezGene从NCBI获取序列信息 Entrez主要是用于NCBI数据库综合的 基于文本的搜索和检索系统 Entrez综合了科学文献 DNA和蛋白序列数据 3D蛋白质结构和蛋白质域数据 种群研究数据集 表达数据 完整基因组组装和分类学信息 形成一个紧密链接的系统 它用于搜索NCBI链接数据库的检索系统 Entrez检索系统子数据库 一 EntrezGene检索 EntrezGene检索到的记录提供关键链接 将图谱 序列 表达 结构 功能 索引文献和同源数据链接在一起构成关键链接 用定义序列 已知的图谱定位和从表型信息推测的基因 为基因分配特有标识符 这些标识符在NCBI的数据库中通用 可以用于注释更新跟踪和相关信息跟踪 EntrezGene用NCBI参考序列 RefSeqs 覆盖了基因组 还被整合到NCBI的Entrez和E Utilities系统的索引 查询和检索中 NCBI检索首页检索窗口的数据库选项下拉菜单 检索栏 for 输入 IL 2human 二 EntrezGene记录显示格式 当进行检索时 检索结果以摘要 summary 格式显示 每页可显示多条记录 摘要显示的每条记录前有一个选择框 可以选择哪些记录需要显示 显示内容还包括首选名称标志 完整全名 双单词的物种名称 在方括号中 基因组定位和基因编号 如果基因在已命名的质粒上 那么作为基因定位将给出质粒名称 右侧的Links可以关联到显示相关的Entrez记录 核对希望显示的记录 选择灰色查询条目中的显示选项 可以显示希望显示的相关记录 EntrezGene检索结果摘要格式显示页面 EntrezGene全文报告页面 前部分 EntrezGene全文报告页面 后部分 IL2mRNA的Nucleotide数据库记录检索结果显示界面 三 Nucleotide数据库记录显示格式 Nucleotide数据库记录的显示结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论