《蛋白质生物信息学》PPT课件.ppt_第1页
《蛋白质生物信息学》PPT课件.ppt_第2页
《蛋白质生物信息学》PPT课件.ppt_第3页
《蛋白质生物信息学》PPT课件.ppt_第4页
《蛋白质生物信息学》PPT课件.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质生物信息学,XXX,蛋白质生物信息学, 蛋白质序列分析 蛋白质结构基础 三级结构测定,具体来说,生物信息学是把基因组DNA序列信息作为源头,确定基因组序列中代表蛋白质和RNA的基因编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传规律。在此基础上,归纳和整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而揭示生命体的生长、发育、代谢和进化的规律。,蛋白质的生物信息学作为其中的一个部分,成为生物信息学的重点发展方向。,1. 基因功能表达谱的研究,即探讨基因在特定时空中的表达。 2. 确定核酸序列中编码蛋白质的基因,了解蛋白质的功能及其分子基础,运用蛋白质结构模拟与分子设计进行功能预测。 3. 对已知的各种代谢途径和相关的生物分子的结构、功能及它们之间的相互作用进行整理,用以研究细胞发育、分化途径和疾病的发生与发展的途径。 4. 将这些信息与生命体和生命过程的生理生化信息相结合,阐明其分子机制,最终进行蛋白质及核酸的分子设计、药物设计和个体化的医疗保健设计。 5. 其他。例如,序列对比、结构对比、计算机辅助基因识别、非编码区分析和DNA语言研究、分子进化和比较基因组学、序列重叠群装配、生物信息处理并行算法的研究、代谢网络分析、基因芯片设计、蛋白质组学数据分析等。,蛋白质生物信息学研究的主要内容,在生物信息学研究中,最常用和最经典的一个研究手段,就是通过比较分析获得有用的信息和知识。将研究对象进行相互比较来寻找研究对象可能具备的某些特性。从核酸及蛋白质的一级结构方面来分析序列的相同点和不同点,从而能够推测它们的结构、功能及进化上的联系。,序列对比的理论基础是进化学说。如果两个基因和蛋白质序列之间具有足够的相似性,就推测两者可能有共同的进化祖先,经过序列内残基的替换、缺失以及序列重组等遗传变异过程分别演化而来。,相似性和同源性,序列的相似性(similarity):在序列对比中描述两条序列之间相同碱基或氨基酸残基所占比例。 序列的同源性(homology):从大量数据中推断出的两个基因在进化上具有共同祖先的结论。,序列两两对比,描述序列两两对比通常用打分矩阵的方法。即两条序列分别作为矩阵的两维,矩阵点是两维上对应两个序列的相似性分数,分数越高则说明两个序列越相似。 序列对比问题即是在矩阵中寻找最佳的对比路径。 方法:Needleman-Wunsch动态规划算法;Smith-Waterman算法;SIM算法。 工具:LALIGN;Align、B12Seq等。,多序列对比,多序列对比是把两条以上可能有系统进化关系的序列进行对比的方法。 目前,使用最广泛的多序列对比程序是CLUSTALX。它先将多个序列进行两两对比构建距离矩阵,确立序列间的两两关系。然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权。再从相似程度最高的两条序列开始,逐步引入临近的序列并不断重新构建对比,直到所有序列都被加入为止。,数据库搜索的概念,数据库搜索:通过序列相似性对比的算法,在核酸序列数据库和蛋白质序列数据库中检索出与被检序列具有一定相似性的序列。 数据库搜索的基础是序列的相似性对比。 被检测的序列与一个已知基因家族之间的进化关系被确定之后,通过数据库搜索可以得到一些相似序列,但它们之间的相似性程度具有差别,因此,还需要判断其序列相似性程度。(其他的研究方法和/或实验手段来验证),数据库搜索的工具,虽然各种搜索程序和算法各不相同,但数据库搜索检出的结果基本相似,均采用统计学评分,并按照相似程度排序。 目前,应用较广泛的序列相似性搜索工具:FASTA、BLAST和BLITZ等。 对于DNA序列相似性检索,FASTA的敏感度较高,但BLAST检索速度较快。 BLITZ的运算速度较慢,但其特异性较高。,BLAST数据库搜索工具 BLAST是目前应用最广泛的序列相似性搜索工具,比FASTA改进更多,搜索速度更快,并建立在严格的统计学基础之上。,BLAST程序,一 、数据库介绍,Swiss-Prot 公认注释信息最佳的蛋白数据库,包含几乎所有已知蛋白。由专家参与每条蛋白序列的筛选和校正,并进行详细注释。注释信息包括蛋白质功能、结构域信息、翻译后修饰、变异情况等等。,Swiss-Prot 序列格式,每条序列注释包括九部分:,Swiss-Prot 查询,通过EXPASY中附带的网络搜索界面SRS(sequence retrieval system)进行。SRS是一个通用的查询系统,与NCBI 提供的Entrez 提供类似功能。 用户可以输入名称,编号,物种,组织等多种条件进行查询。,SRS 查询界面,数据库介绍 (2) - TrEMBL,对三大核酸数据库(GENBANK, EMBL, DDBJ) 之一的EMBL通过计算机预测得到的蛋白质数据 库,虽然不可避免地存在某些错误,数据质量比 不上Swiss-Prot。但可以作为Swiss-Prot 的补充, 而且其中存在一些功能未知的新基因编码的产物, 可以作为开展功能研究的靶点。,数据库介绍 (3) - ENZYME,收集了很多常用酶的信息,包括功能描述,酶切位点,以及一些相关链接。每条纪录都按照国际生物化学与分子生物学命名委员会(Nomenclature Committee of the International Union of Biochemistry and Molecular Biology ,IUBMB)命名规则进行命名。,Enzyme 查询界面,用户可以根据酶的描述信息,与化合物的结合情况,共作用分子等等进行查询,数据库介绍 (4) - PROSITE,蛋白质模体及结构域数据库 什么是结构域/模体? 结构域可以理解为蛋白家族共有的保守区域,是对蛋白家族序列进行多序列比对后,对保守区域进行抽提归纳得到的结果。 这种方法得到的保守区域为在一级序列上保守,与高级结构一般有相关性,但有时也有例外。,一次多序列比对结果,Clustal 是多序列比对常用的工具,用户可以提交到http:/www.ebi.ac.uk/clustalw/) 比对,许多软件包如DNAMAN, BIOEDIT中也整合了该软件,PROSITE 内容,PROSITE 主要保存两类信息:模式(pattern)和谱(profile,权重矩阵)。 模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列. Profile 为对保守区域每一位置氨基酸保守情况进行打分构建的权重矩阵。,PROSITE 使用注意事项,Pattern主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。profile预测可靠性高,可以用来对新蛋白进行分类和提供功能提示。 蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种pattern不能保证一定会具有对应的性质,要根据实际情况,谨慎对待pattern 预测结果。,补充:蛋白结构域数据库,除了PROSITE 之外,还有很多结构域数据库, 比较著名的有: Pfam http:/www.sanger.ac.uk/Software/Pfam/search.shtml SMART http:/smart.embl-heidelberg.de/ BLOCKS PRINTS http:/www.bioinf.man.ac.uk/fingerPRINTScan/,数据库介绍 (5) SWISS-2DPAGE,双向聚丙烯酰胺凝胶电泳数据库。保存了很多组织来源的双向电泳图谱,用户可以提交自己的蛋白序列,根据等电点及分子量显示在电泳图上的位置。该数据库还提供了2-D 电泳的protocol, 以及构建2-D 电泳数据库的软件包/ch2d/m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论