




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学(Bioinformatics),主讲教师:黄艳新,东北师范大学 生命科学学院,药物基因和蛋白筛选国家工程实验室,(第一部分),生命科学导论平台课,什么是生物信息学生物信息学的诞生与发展生物信息学研究的几个专题介绍生物信息学数据库蛋白质结构预测基因发现研究微小RNA(miRNA)与复杂疾病精准医疗(Precision Medicine),本课程主要内容,1、什么是生物信息学,什么是生物信息学?,定义一:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 -美国人类基因组计划实施五年后的总结报告-,什么是生物信息学?,定义二:为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析和可视化等。(Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.) -美国国家卫生研究院(NIH)-,什么是生物信息学?,定义三:Bioinformatics . is the research domain focused on linking the behavior of biomolecules, biological pathways, cells, organisms, and populations to the information encoded in the genomes. -Temple Smith - Current Topics in Computational Molecular Biology 2002年4月出版,广义生物信息学观点,生物学研究可以被看成是研究信息的传递:从DNA经转录翻译到蛋白质,从细胞质中到细胞核内,从母细胞到子细胞,从一个细胞或一个组织到另一个细胞或另一个组织,从一代到下一代,从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学 。(Biology may be viewed as the study of transmission of information: from mother cell to daughter cell, from one cell or tissue type to another, from one generation to the next, and from one species to another. This informational viewpoint is termed bioinformatics.) Eisenberg et al., 2006,生物信息学、系统生物学与计算生物学,系统生物学:系统生物学是研究一个生物系统中所有组分(gene,mRNA,protein)的构成,以及在特定条件下这些组分之间的相互关系,并通过计算生物学方法建立一个数学模型来定量描述和预测生物功能、表型和行为的学科。,生物信息学、系统生物学与计算生物学,计算生物学:计算生物学是一门概念性学科,以生物信息为基础,以计算为工具,解决生物学问题。(侧重于计算与问题,通过计算解决问题),2、生物信息学的诞生与发展,生物信息学的诞生和发展,迅速膨胀的生物信息数据 分子生物学发展的一个显著特点是生物信息的剧烈膨胀。形成了巨量的生物信息库,迅速膨胀的生物信息给科学家们提出了一个新问题:如何有效管理、准确解读、充分使用这些信息?,萌芽期(6070年代)生物数据库的建立;检索工具的开发;DNA和蛋白质序列分析序列比对: 以Dayhoff的替换矩阵和Needleman-Wunsch和Smith-Waterman比对算法为代表,三个发展阶段,半胱氨酸 Cys C;丝氨酸 Ser S;苏氨酸 Thr T 脯氨酸 Pro P;丙氨酸 Ala A;甘氨酸 Gly G天冬酰胺 Asn N;天冬氨酸 Asp D;谷氨酸Glu E谷氨酰胺 Gln Q;组氨酸,通过比较两条或多条序列之间的相似区域和保守性位点,寻找二者之间可能的进化关系构建进化树比较基因组学研究,两条序列比对(pairwise alignment),蛋白序列(Blast),核酸序列(Blast),两条序列比对(pairwise alignment),蛋白序列(Clustal),多条序列比对(multiple alignment),形成期(80年代)网络数据库系统的建立、交互界面的开发;分子数据库和BLAST等相似性搜索程序;基因寻找和识别;结构基因组。,三个发展阶段,Blast可以进行一条序列和数据库的比对Blast可以两条或多条序列的比对,序列比对工具Blast,三个发展阶段,高速发展期(90年代)大规模基因组分析HGP(Human Genome Project,1990-2003)功能基因组比较基因组学转录组学蛋白质组学分子相互作用组学代谢组学,于20世纪80年代提出,由美、英、日、中、德、法等国参加针对人体23对染色体全部DNA的碱基对(3109)序列进行测序,对大约25,000基因进行染色体定位,构建人类基因组遗传图谱和物理图谱的国际合作研究计划。,人类基因组计划-定义,HGP对人类疾病基因研究的贡献人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。,人类基因组计划-意义,HGP对生物技术的贡献基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。诊断和研究试剂产业:基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、克隆技术、器官再造。,人类基因组计划-意义,人类基因组计划的实施和完成,带来了生物信息学这门学科的飞跃式的发展。,人类基因组计划-意义,现阶段,组学时代计算和生物学实验相结合展开科学研究计算算法和软件在生物医学领域的应用研究,生物信息学研究的一些课题问题,DNA sequence base calling and assembly (DNA测序和装配)Transmembrane segment prediction(蛋白质跨膜区预测)Signal peptide prediction(信号肽预测)Protein geometry(蛋白的几何形状?主要指主链的结构?)Homology modeling (同源建模)Gene finding (基因发现)Repetitive sequence analysis (重复序列分析)Protein structure comparison (蛋白质结构比较)Phylogenetic tree construction and evolution (分子进化树构建和分析)Protein docking (分子对接),Drug design (药物设计)Protein design (蛋白质设计)Linkage analysis and quantitative traits (连锁遗传和数量性状分析)Multiple sequence comparison and remote homolog search (多序列比较和远源搜索)Protein tertiary structure prediction (蛋白质三级结构预测)RNA secondary structure prediction (RNA二级结构预测)Regulatory sequence analysis (调控序列分析)Computational proteomics (计算蛋白质组学)Gene ontology and function prediction (基因功能预测),生物信息学研究的一些课题问题,Computational comparative genomics (计算比较基因组学)Text (literature) mining (文献挖掘)Small RNA and anti-sense regulation (小RNA反义调控)Alternative splicing prediction (选择性剪切)Computational metabolomics (计算代谢组学)Genome semantics (基因组语义学)Membrane protein structure prediction (膜蛋白结构预测)RNA tertiary structure prediction (RNA三级结构预测)Post-translational modification (翻译后编辑)Dynamics of regulatory networks (动态调控网络)Virtual cell/organism modeling (虚拟细胞建模),生物信息学研究的一些课题问题,3、生物信息学研究的几个专题介绍,生物信息学数据库蛋白质结构预测基因发现研究微小RNA(miRNA)与复杂疾病,3-1、 生物信息数据库概述,数据库的产生背景是海量数据的出现,一级数据库和二级数据库,一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库(三级,四级,)对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。,分子生物信息数据库分类,基因组数据库(来自基因组作图)HGP:人;大肠杆菌、酵母、线虫、果蝇和小鼠。核酸和蛋白质序列(一级结构)数据库(来自序列测定)生物大分子三级结构数据库(来自X射线衍射和核磁共振等结构测定)由上述3类数据库和文献资料为基础构建的二级数据库。,基因组数据库,三大基因组数据库NCBI:美国生物技术信息中心(The National Center for Biotechnology Information )Ensembl:欧洲分子生物学实验室(The European Molecular Biology Laboratory )EMBL维护UCSC:加州大学圣克鲁兹分校(University of California Santa Cruz,UCSC)创立和维护,核酸序列数据库,美国生物技术信息中心(The National Center for Biotechnology Information )的GenBank: /Genbank) 欧洲分子生物学实验室的(The European Molecular Biology Laboratory )EMBL: (www.ebi.ac.uk/embl) 日本遗传研究所(DNA Data Bank of Japan)的DDBJ: (www.ddbj.nig.ac.jp),蛋白质序列数据库,SWISS-PROT(瑞士日内瓦大学和欧洲生物信息学研究所(EBI)合作维护) (http:/www.expasy.ch/sprot),PIR(美国国家生物医学研究基金会NBRF维护)(),UniProt (),蛋白质结构数据库,蛋白质结构数据库PDB(/pdb)蛋白质分类数据库SCOP(http:/scop.mrc-lmb.cam.ac.uk/scop/)蛋白质分类数据库CATH(/),3-2、蛋白质结构预测,关于数据库,值得关注的一组数字,核酸序列数据库收录约1.7108(1亿7千万)条数据(2016-10-10)蛋白质序列数据库收录约47M 4.7107 (5千万)条数据(2016-10-10)蛋白质结构数据库收录约0.1M 1.0105 (10万)条数据(2016-10-10)仅有约0.2%(千分之二)的蛋白质序列解析出三级结构。,序列 vs 结构,#structure lag far behind #sequences,蛋白质三级结构预测的意义,由于分子生物学技术的发展,蛋白质氨基酸序列的测定速度大大加快,而蛋白质分子三维结构测定的速度仍远远落后于其氨基酸序列测定的速度。随着蛋白质工程技术的发展和人类基因组计划的顺利进展,对蛋白质空间结构与一级结构的关系的研究也变得更加紧迫和重要。根据蛋白质分子的氨基酸序列预测其三维空间结构具有重要的意义,是生物信息学研究领域的一项重要挑战。,蛋白质结构的4个层次,一级结构组成蛋白质的氨基酸序列;二级结构即骨架原子间的相互作用形成的局部结构,比如螺旋,折叠等;三级结构即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述由三级结构 形成的不同亚基之间的相互作用。,动物的胰岛素(Insulin),氨基酸序列线性排列,蛋白质一级结构,二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性的结构的构象,是多肽链局部 的空间结构主要有 螺旋、片层、loop、colis等几种形式,它们是构成蛋白质高级结构的基本要素。 多肽链中有60的区段为螺旋和折叠。,蛋白质二级结构,肽链主链骨架围绕中心轴盘旋成螺旋状的结构,螺旋,在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构,片层,混合片层,Loops,连接-helix和b-sheet长度和三级结构不定在蛋白质结构的表面受点突变的影响小柔性好,构象变化余地大带电荷、极性的氨基酸比例高倾向成为活性位点,结构域(domian),domian是在二级结构或超二级结构的基础上形成三级结构的局部折叠区。domian通常由 50-300 个氨基酸残基组 成,其特点是在三维空间可以明显区分和相对独立,并且具有一定的生物功能如结合小分子。motif是结构域的亚单位,通常由 23个二级结构单位组成,一般为 -螺旋、- 片层和loops。,三级和四级结构,三级结构肽链折叠成三维的空间结构二级结构在空间上的排布长程的、共价与非共价的相互作用如果蛋白质只有1条肽链,三级结构就是最高结构层次四级结构多个肽链在空间上的排布,蛋白质的三级结构,在二级结构基础上的肽链再折叠形成的构象,蛋白质的四级结构,组成蛋白质的多条肽链在天然构象空间上的排列方式,多以弱键互相连接,疏水力、氢键、盐键,蛋白质二级结构预测,一级序列 (1D)MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRVKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 二级结构(2D),参考文献:Rost, B. & Sander, C. (1993), Prediction of protein secondary structure at better than 70 % Accuracy, Journal of Molecular Biology, 232, 584-599.,Accuracy: 75%,PHD,参考文献:Jones, D., 1999. Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol 292, 195-202.,Accuracy: 80%,PSIPRED,http:/bioinf.cs.ucl.ac.uk/psipred/,PSIPRED,PSIPRED,蛋白质三级结构预测,同源建模法从头预测方法Threading方法组合方法,同源建模法,同源建模是使用与目标序列同源的某一蛋白质的实验结构作为模板,对目标序列进行三维结构的预测。,同源建模法,同源建模对于诠释蛋白质序列、结构和功能之间的关系至关重要。同源建模应用广泛,但仍有一些局限,其准确性依赖于模板的质量和关键步骤的准确性。同源建模目前的挑战仍然在于结构模型的优化,既需要寻找更合理的优化方法来使模型接近真实结构而不是模板结构。另外一个挑战在于过度依赖“序列相似,结构相似”的规则,有些蛋白质序列差异大结构却相似,需要分辨这样的“特例”。,从头预测方法,从头计算(Ab initio)方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲能量是影响蛋白质结构的本质因素。由于巨大的计算量,这种方法并不实用,目前只能计算短序列氨基酸形成的结构。随着超级计算机的出现,计算机的计算能力在飞速发展,这个问题会解决吗?,从头预测方法,能量函数键能 (bond energy)键的转角能 (bond angle energy)二面角能 (dihedral angle energy)范德华力 (van der Waals energy)静电力 (electrostatic energy)根据能量函数计算结构的最小自由能:Molecular Dynamics or Monte Carlo methods计算量大,Threading方法,穿线法(Threading)方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。,Threading方法,Threading,将给定序列与模板库做序列比较 (fold library) 评分准则:给定序列是否与模板的结构吻合 (1D-3D profile)根据打分结果对模板适用性给予排序,Target Sequence,Structure Templates,ALKKGFHFDTSE,同源建模法,组合方法,Ab initio法,Threading法,蛋白质结构预测的原则,蛋白质结构的预测过程是个比较复杂的多步过程,不同类别的蛋白质,例如膜蛋白与可溶蛋白,由于不同的理化性质,可能需要不同的预测方法。一个蛋白质可能有多个功能结构域(domain),要直接预测具有多个domain的蛋白质不大可能,因为数据库中可能没有相应的模板。在很大程度上,一个蛋白质的各domain的折叠方式不依赖于其他domain的折叠方式,因此,每个domain的结构可以单独预测。于是如何在一个蛋白质序列定位各个domain的边界也成了结构预测的一个问题。有些蛋白质序列可能包含信号肽,它们与蛋白质结构信息无关,所以可以切除。,蛋白质结构预测的原则,序列一致性(sequence identity)大于30 同源建模法。序列一致性(sequence identity)小于30 Threading法或组合方法。,蛋白质结构预测方法的评价,验证方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较。一是分析两者之间的均方差差距RMSD,还有一个评价标准是TM-score 。 权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的CASP就是这样一个系统( /casp9/index.cgi),CASP( Critical Assessment of Techniques for Protein Structure Prediction )被誉为蛋白质结构预测领域的奥林匹克竞赛,没两年举办1次。,蛋白质结构预测软件,SWISS-MODEL(同源建模)Phyre/Phyre2 (同源建模 + Threading)ROBETTA(从头计算)Hhpred (Threading)I-TASSER(组合法),SWISS-MODEL利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务创建于1993年,瑞士生物信息学研究院维护,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。/SWISS-MODEL.html,SWISS-MODEL,Phyre/Phyre2,Phyre and Phyre2 (Protein Homology/AnalogY Recognition Engine; pronounced as fire) are web-based services for protein structure predictio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年房地产市场区域分化对长租公寓投资策略的影响分析
- 2025年老年健康管理中老年慢性病管理长期照护服务模式社区服务满意度调查报告
- 2025年文化旅游演艺项目策划运营中的互动体验设计研究报告
- 现场产品知识培训总结报告课件
- 2025年教师资格证考试(小学)教育案例分析专项训练试卷
- 2025年小学数学毕业升学考试易错题型专项复习押题试卷
- 现代化家具知识培训内容课件
- 2025年Python二级考试模拟试卷 高频考点实战版
- 林州一中分校2026届化学高一第一学期期中考试试题含解析
- 2026届浙江省湖州市9+1高中联盟长兴中学化学高三第一学期期末质量跟踪监视试题含解析
- 孩子抵抗力提升的方法与技巧
- 教学副校长给教师培训课件
- 一级建造师之一建矿业工程实务高分复习资料
- 交通信号设施施工技术交底
- 关于股权性质与货币市场的思考
- 市场监管个人纪律作风整顿心得体会
- 育婴员理论模拟考试试题及答案
- 小学数学教师业务水平考试试题
- 安全文明施工措施费支付申请表实用文档
- 杨式85式太极拳现用图解
- YY/T 1095-2015肌电生物反馈仪
评论
0/150
提交评论