生物信息学平台课1ppt课件_第1页
生物信息学平台课1ppt课件_第2页
生物信息学平台课1ppt课件_第3页
生物信息学平台课1ppt课件_第4页
生物信息学平台课1ppt课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学(生物信息学( BioinformaticsBioinformatics) 主讲教师:黄艳新 东北师范大学 生命科学学院 药物基因和蛋白筛选国家工程实验室 (第一部分) 生命科学导论平台课 r 什么是生物信息学 r 生物信息学的诞生与发展 r 生物信息学研究的几个专题介绍 生物信息学数据库 蛋白质结构预测 基因发现研究 微小RNA(miRNA)与复杂疾病 精准医疗(Precision Medicine) 本课程主要内容本课程主要内容 1 1、什么是生物信息学、什么是生物信息学 什么是生物信息学?什么是生物信息学? r定义一:生物信息学是一门交叉科学, 它包含了生物信息的获取、处理、存储 、分发、分析和解释等在内的所有方面 ,它综合运用数学、计算机科学和生物 学的各种工具,来阐明和理解大量数据 所包含的生物学意义。 -美国人类基因组计划实施五年后的总结报告- 什么是生物信息学?什么是生物信息学? r 定义二:为拓展生物学、医学、行为学和卫生 学数据的用途,而进行有关计算机方法手段的 研究、开发与应用,包括此类数据的采集、存 贮、整理、归档、分析和可视化等。( Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.) -美国国家卫生研究院(NIH)- 什么是生物信息学?什么是生物信息学? r 定义三:Bioinformatics . is the research domain focused on linking the behavior of biomolecules, biological pathways, cells, organisms, and populations to the information encoded in the genomes. -Temple Smith - Current Topics in Computational Molecular Biology 2002年4月出版 广义生物信息学观点广义生物信息学观点 r 生物学研究可以被看成是研究信息的传递:从DNA经 转录翻译到蛋白质,从细胞质中到细胞核内,从母细 胞到子细胞,从一个细胞或一个组织到另一个细胞或 另一个组织,从一代到下一代,从一个物种到另一个 物种的进化演变。这种信息论的观点即可称为生物信 息学 。(Biology may be viewed as the study of transmission of information: from mother cell to daughter cell, from one cell or tissue type to another, from one generation to the next, and from one species to another. This informational viewpoint is termed bioinformatics.) Eisenberg et al., 2006 生物信息学、系统生物学与计算生物学生物信息学、系统生物学与计算生物学 r 系统生物学:系统生物学是研究一个生物系统 中所有组分(gene,mRNA,protein)的构成 ,以及在特定条件下这些组分之间的相互关系 ,并通过计算生物学方法建立一个数学模型来 定量描述和预测生物功能、表型和行为的学科 。 生物信息学、系统生物学与计算生物学生物信息学、系统生物学与计算生物学 r 计算生物学:计算生物学是一门概念性学科, 以生物信息为基础,以计算为工具,解决生物 学问题。(侧重于计算与问题,通过计算解决 问题) 2 2、生物信息学的诞生生物信息学的诞生 与发展与发展 生物信息学的诞生和发展生物信息学的诞生和发展 r 迅速膨胀的生物信息数据 分子生物学发展的一个显著特点是生物信息的 剧烈膨胀。形成了巨量的生物信息库 r 迅速膨胀的生物信息给 科学家们提出了一个新 问题:如何有效管理、 准确解读、充分使用这 些信息? r 萌芽期(6070年代) 生物数据库的建立; 检索工具的开发; DNA和蛋白质序列分析 序列比对: 以Dayhoff的替换矩阵和 Needleman-Wunsch和Smith-Waterman比对算 法为代表 三个发展阶段三个发展阶段 半胱氨酸 Cys C;丝氨酸 Ser S ;苏氨酸 Thr T 脯氨酸 Pro P;丙氨酸 Ala A;甘氨酸 Gly G 天冬酰胺 Asn N;天冬氨酸 Asp D;谷氨酸Glu E 谷氨酰胺 Gln Q;组氨酸 r通过比较两条或多条序列之间的相似 区域和保守性位点,寻找二者之间可 能的进化关系 r构建进化树 r比较基因组学研究 n n 两条序列比对两条序列比对(pairwise alignment)(pairwise alignment) r 蛋白序列(Blast) r 核酸序列(Blast) n n 两条序列比对两条序列比对(pairwise alignment)(pairwise alignment) r 蛋白序列(Clustal) n n 多条序列比对多条序列比对(multiple alignment)(multiple alignment) r 形成期(80年代) 网络数据库系统的建立、交互界面的开发; 分子数据库和BLAST等相似性搜索程序; 基因寻找和识别; 结构基因组。 三个发展阶段三个发展阶段 r Blast可以进行一条序列和数据库的比对 r Blast可以两条或多条序列的比对 n n 序列比对工具序列比对工具BlastBlast 三个发展阶段三个发展阶段 r 高速发展期(90年代) 大规模基因组分析HGP(Human Genome Project,1990-2003) 功能基因组 比较基因组学 转录组学 蛋白质组学 分子相互作用组学 代谢组学 r 于20世纪80年代提出,由美、英、日、中、德、法 等国参加针对人体23对染色体全部DNA的碱基对( 3109)序列进行测序,对大约25,000基因进行染色 体定位,构建人类基因组遗传图谱和物理图谱的国 际合作研究计划。 n n 人类基因组计划人类基因组计划- -定义定义 1. HGP对人类疾病基因研究的贡献 l 人类疾病相关的基因是人类基因组中结构和功能完整性至 关重要的信息。对于单基因病,采用“定位克隆”和“定 位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性 结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现, 为这些疾病的基因诊断和基因治疗奠定了基础。对于心血 管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、 精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病 基因研究的重点。 n n 人类基因组计划人类基因组计划- -意义意义 3. HGP对生物技术的贡献 l基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因 子,凝血和抗凝血因子等)及其受体。 l诊断和研究试剂产业:基因和抗体试剂盒、诊断和研究用 生物芯片、疾病和筛药模型。 l对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、 克隆技术、器官再造。 n n 人类基因组计划人类基因组计划- -意义意义 n 人类基因组计划的实施和完成,带来了 生物信息学这门学科的飞跃式的发展。 n n 人类基因组计划人类基因组计划- -意义意义 现阶段现阶段 r 组学时代 r 计算和生物学实验相结合展开科学研究 r 计算算法和软件在生物医学领域的应用研究 生物信息学研究的一些课题问题生物信息学研究的一些课题问题 1. DNA sequence base calling and assembly (DNA测序和装 配) 2. Transmembrane segment prediction(蛋白质跨膜区预测 ) 3. Signal peptide prediction(信号肽预测) 4. Protein geometry(蛋白的几何形状?主要指主链的结构?) 5. Homology modeling (同源建模) 6. Gene finding (基因发现) 7. Repetitive sequence analysis (重复序列分析) 8. Protein structure comparison (蛋白质结构比较) 9. Phylogenetic tree construction and evolution (分子进化树 构建和分析) 10.Protein docking (分子对接) 11.Drug design (药物设计) 12.Protein design (蛋白质设计) 13.Linkage analysis and quantitative traits (连锁遗传和数 量性状分析) 14.Multiple sequence comparison and remote homolog search (多序列比较和远源搜索) 15.Protein tertiary structure prediction (蛋白质三级结构预 测) 16.RNA secondary structure prediction (RNA二级结构预 测) 17.Regulatory sequence analysis (调控序列分析) 18.Computational proteomics (计算蛋白质组学) 19.Gene ontology and function prediction (基因功能预测) 生物信息学研究的一些课题问题生物信息学研究的一些课题问题 20.Computational comparative genomics (计算比较基因组 学) 21.Text (literature) mining (文献挖掘) 22.Small RNA and anti-sense regulation (小RNA反义调控) 23.Alternative splicing prediction (选择性剪切) 24.Computational metabolomics (计算代谢组学) 25.Genome semantics (基因组语义学) 26.Membrane protein structure prediction (膜蛋白结构预 测) 27.RNA tertiary structure prediction (RNA三级结构预测) 28.Post-translational modification (翻译后编辑) 29.Dynamics of regulatory networks (动态调控网络) 30.Virtual cell/organism modeling (虚拟细胞建模) 生物信息学研究的一些课题问题生物信息学研究的一些课题问题 3 3、生物信息学生物信息学研究的几研究的几 个专题介绍个专题介绍 生物信息学数据库 蛋白质结构预测 基因发现研究 微小RNA(miRNA)与 复杂疾病 3-13-1、 生物信息数据库概述生物信息数据库概述 数据库数据库的产生背景是海量数据的出现的产生背景是海量数据的出现 一级一级数据库和二级数据库数据库和二级数据库 一级数据库一级数据库 数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于实验获得的原始 数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释 二级数据库(三级,四级,)二级数据库(三级,四级,) 对原始生物分子数据进行整理、分类的结果对原始生物分子数据进行整理、分类的结果 ,是在一级数据库、实验数据和理论分析的,是在一级数据库、实验数据和理论分析的 基础上针对特定的应用目标而建立的基础上针对特定的应用目标而建立的 。 分子分子生物信息数据库分类生物信息数据库分类 I. I. 基因组数据库(基因组数据库(来自基因组作图)来自基因组作图) HGP:人;大肠杆菌、酵母、线虫、果蝇和小鼠。 II.II.核酸和蛋白质序列(一级结构)数据库(核酸和蛋白质序列(一级结构)数据库(来来 自序列测定自序列测定) III.III.生物大分子三级结构数据库(生物大分子三级结构数据库(来自来自X X射线衍射线衍 射和核磁共振等结构测定射和核磁共振等结构测定) IV.IV.由上述由上述3 3类数据库和文献资料为基础构建的类数据库和文献资料为基础构建的 二级数据库。二级数据库。 基因组基因组数据库数据库 n 三大基因组数据库 l NCBI:美国生物技术信息中心(The National Center for Biotechnology Information ) l Ensembl:欧洲分子生物学实验室(The European Molecular Biology Laboratory )EMBL维护 l UCSC:加州大学圣克鲁兹分校(University of California Santa Cruz,UCSC)创立和维护 核酸核酸序列数据库序列数据库 美国生物技术信息中心(The National Center for Biotechnology Information ) 的GenBank: /Genbank) 欧洲分子生物学实验室的(The European Molecular Biology Laboratory )EMBL: (www.ebi.ac.uk/embl) 日本遗传研究所(DNA Data Bank of Japan)的DDBJ: (www.ddbj.nig.ac.jp) 蛋白质蛋白质序列序列数据库数据库 SWISS-PROT(瑞士日内瓦大学和欧洲生物信 息学研究所(EBI)合作维护) (http:/www.expasy.ch/sprot) PIR(美国国家生物医学研究基金会NBRF维护) () UniProt () 蛋白质结构数据库蛋白质结构数据库 n 蛋白质结构数据库PDB( /pdb) n 蛋白质分类数据库SCOP(http:/scop.mrc- lmb.cam.ac.uk/scop/) n 蛋白质分类数据库 CATH(/) 3-23-2、蛋白质结构预测、蛋白质结构预测 关于关于数据库,值得关注的一组数字数据库,值得关注的一组数字 n 核酸序列数据库收录约1.7108(1亿7千万) 条数据(2016-10-10) n 蛋白质序列数据库收录约47M 4.7107 (5 千万)条数据(2016-10-10) n 蛋白质结构数据库收录约0.1M 1.0105 (10 万)条数据(2016-10-10) 仅有约0.2%(千分之二)的蛋白质序列解析出 三级结构。 序列序列 vs vs 结构结构 #structure lag far behind #sequences 蛋白质蛋白质三级结构预测的意义三级结构预测的意义 n 由于分子生物学技术的发展,蛋白质氨基酸序 列的测定速度大大加快,而蛋白质分子三维结 构测定的速度仍远远落后于其氨基酸序列测定 的速度。 n 随着蛋白质工程技术的发展和人类基因组计划 的顺利进展,对蛋白质空间结构与一级结构的 关系的研究也变得更加紧迫和重要。 n 根据蛋白质分子的氨基酸序列预测其三维空间 结构具有重要的意义,是生物信息学研究领域 的一项重要挑战。 蛋白质结构的蛋白质结构的4 4个层次个层次 r一级结构组成蛋白质的氨基酸序列; r二级结构即骨架原子间的相互作用形成的局部结构,比如螺旋, 折叠等; r三级结构即二级结构在更大范围内的堆积形成的空间结构; r四级结构主要描述由三级结构 形成的不同亚基之间的相互作用。 动物的胰岛素(Insulin),氨基酸序列线性排列 蛋白质一级结构 r 二级结级结 构是指多肽链肽链 借助于氢键氢键 沿一维维 方向排列成具有周期性的结结构的构象,是 多肽链肽链 局部 的空间结间结 构 r 主要有 螺旋、片层层、loop、colis等 几种形式,它们们是构成蛋白质质高级结级结 构的 基本要素。 r 多肽链肽链 中有60的区段为为螺旋和折 叠。 蛋白质二级结构 肽链主链骨架围绕中心轴盘旋成螺旋状的结构 螺旋 在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构 片层 混合片层 LoopsLoops r 连接-helix和b-sheet r 长度和三级结构不定 r 在蛋白质结构的表面 r 受点突变的影响小 r 柔性好,构象变化余地大 r 带电荷、极性的氨基酸比例高 r 倾向成为活性位点 结构域结构域(domian)(domian) r domian是在二级结构或超二级结构的基础 上形成三级结构的局部折叠区。 r domian通常由 50-300 个氨基酸残基组 成 ,其特点是在三维空间可以明显区分和相 对独立,并且具有一定的生物功能如结合 小分子。 r motif是结构域的亚单位,通常由 23个 二级结构单位组成,一般为 -螺旋、- 片层和loops。 三级和四级结构三级和四级结构 r 三级结构 肽链折叠成三维的空间结构 二级结构在空间上的排布 长程的、共价与非共价的相互作用 如果蛋白质只有1条肽链,三级结构就是最高 结构层次 r 四级结构 多个肽链在空间上的排布 蛋白质的三级结构 在二级结构基础上的肽链再折叠形成的构象 螺旋 折叠 Zn 疏水核心 螺旋 蛋白质的四级结构 组成蛋白质的多条肽链在天然构象空间上的排列方式 ,多以弱键互相连接,疏水力、氢键、盐键 蛋白质二级结构蛋白质二级结构预测预测 n 一级序列 (1D) MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRVKHLKT EAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYL EFISEAIIHVLHSRHPGNFGADAQGAMNKALELFRKDIAAKYKELGYQG n 二级结构(2D) n参考文献: Rost, B. pronounced as fire) are web- based services for protein structure prediction that are free for non- commercial use. Phyre is among the most popular methods for protein structure prediction having been cited over 1500 times. Like other remote homology recognition techniqu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论