蛋白质的序列分析及结构预测ppt课件_第1页
蛋白质的序列分析及结构预测ppt课件_第2页
蛋白质的序列分析及结构预测ppt课件_第3页
蛋白质的序列分析及结构预测ppt课件_第4页
蛋白质的序列分析及结构预测ppt课件_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,蛋白质的序列分析及结构预测,.,.,一、蛋白质数据库介绍二、蛋白质序列分析三、蛋白质结构预测四、应用分子设计,.,一、蛋白质数据库介绍,蛋白质的结构主要分为四级,一级结构、二级结构、三级结构以及四级结构。依据这种结构层次,将蛋白质数据库分为:1.蛋白质序列数据库:如PIR、SWISS-PROT、NCBI,这些数据库的数据主要以蛋白质的序列为主,并赋予相应的注释;2.蛋白质模体及结构域数据库:如PROSITE、Pfam,这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列;3.蛋白质结构数据库:如PDB等,这些数据库主要以蛋白质的结构测量数据为主;4.蛋白质分类数据库:如SCOP、CATH、FSSP等,这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。,.,蛋白质数据库特征:这些数据库种类有差别,但内部是相互联系的.每个数据库都有指针指向其他数据库,而且数据库之间的序列以及相应的结构是共享的,同一种蛋白质依次会出现在不同的数据库.这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息,这些数据库是融序列信息的索取、处理、存储、输出于一身的。,.,1.蛋白质序列数据库,(1)PIR(proteininformationresource,PIR)和PSD(proteinsequencedatabase,PSD)/pirwwwPIR-PSD是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD的序列来自于将GenBank/EMBL/DDBJ三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。(2)SWISS-PROT/TrEMBL数据库/swissprot,数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。,.,2.模体以及结构域数据库,模体数据库(1)PROSITE蛋白质家族及结构域数据库(/prosite/)PROSITE数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况下,也可以通过搜索隐含的功能结构模体(motif)来鉴定,因此是有效的序列分析数据库。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等,此外PROSITE还包括由多序列比对构建的序列表谱(profile),能更敏感地发现序列中的信息。,.,PROSITE同时数据库提供了序列分析工具:ScanProsite是用于搜索所提交的序列数据是否包含PROSITE数据库中的序列模式或者SWISS-PROT数据库中已提交的序列模式;MotifScan用于查找未知序列中所有可能的已知结构组件,数据库包括PROSITE序列表谱、PROSITE模式、Pfam收集的隐马尔可夫模式(HMM)。,.,(2)PRINTSFingerprintDatabasewww.bioinf.man.ac.uk/dbrowser/PRINTS/这个数据库包含1500个蛋白质指纹图谱,编码9136个单一模体。(3)BLOCKS(/)BLOCKS是通过一些高度保守的蛋白质区域比对出来的无空位的片段。,模体数据库,.,蛋白质结构域数据库(1)蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam(proteinfamiliesdatabaseofalignmentsandHMMs)Pfam是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是:www.sanger.ac.uk/Software/Pfam/index.shtml。(2)蛋白质结构域数据库ProDomhttp:/prodes.toulouse.inra.fr/prodom/doc/prodom.html(3)SMARTSMART是一个简单的结构研究工具,可对可转移的遗传因子进行鉴定和注解,以及分析结构域结构,可以检测出500多个参与信号传导、胞外和染色体相关蛋白质的结构域家族,对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。http:/smart.embl-heidelberg.de/,.,3.蛋白质结构数据库,PDB(proteindatabank,PDB)/pdb/PDB包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构,并由RCSB维护和注释。,.,4.蛋白质结构分类数据库,(1)CATH数据库www.biochem.ucl.ac.uk/bsm/cathnew/index.html(2)SCOP蛋白质结构分类数据库(structuralclassificationofproteindatabase,SCOP)scop.mrclmb.cam.ac.uk/scop/index.html,.,二、蛋白质的序列分析,1.蛋白质序列信息的获取2.蛋白质序列分析,.,1.蛋白质序列信息的获取,(1)直接测序(2)翻译编码的DNA序列ORFFinder(3)在数据库中搜索运用ID号、入口号、条目号等搜索。运用关键词搜索其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。,.,(1)直接测序,e.g.ProteinSequencingandIdentificationbyTandemMassSpectrometry,即用串联质谱仪测序,1.蛋白质序列信息的获取,.,串联质谱及其作用,两个或更多的质谱连接在一起,称为串联质谱。最简单的串联质谱(MS|MS)由两个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。,.,串联质谱仪的组合方式:(1)磁分析器-静电分析器-磁分析器(2)静电分析器-磁分析器-静电分析器(3)三重四极滤质器质谱仪(4)混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。,.,优点:可以避免底物分子产生的干扰,大大降低背景噪音。其次,可使分子离子通过与反应气的碰撞来产生断裂。因此能提供更多的结构信息,所以串联质谱特别适合于复杂组分体系且干扰严重的样品中低含量组分分析测定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。,.,MassesofAminoAcidResidues,.,Proteinbackbone,H.-HN-CH-CO-NH-CH-CO-NH-CH-CO-OH,Ri-1,Ri,Ri+1,AAresiduei-1,AAresiduei,AAresiduei+1,N-terminus,C-terminus,.,BreakingProteinintoPeptidesandPeptidesintoFragmentIons,Proteases,e.g.trypsin(胰蛋白酶),breakproteinintopeptides.ATandemMassSpectrometer(串联式质谱仪)furtherbreaksthepeptidesdownintofragmentionsandmeasuresthemassofeachpiece.,Generalforsequencing,.,BreakingProteinintoPeptidesandPeptidesintoFragmentIons,MassSpectrometeracceleratesthefragmentedions;heavierionsaccelerateslowerthanlighterones.MassSpectrometermeasuremass/chargeratioofanion.,Generalforsequencing,.,PeptideFragmentation,Peptidestendtofragmentalongthebackbone.FragmentscanalsolooseneutralchemicalgroupslikeNH3andH2O.,H.-HN-CH-CO.NH-CH-CO-NH-CH-CO-OH,Ri-1,Ri,Ri+1,H+,PrefixFragment,SuffixFragment,CollisionInducedDissociation,.,N-andC-terminalPeptides,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,N-terminalpeptides,C-terminalpeptides,.,Terminalpeptidesandiontypes,G,F,P,N,Peptide,Mass(D)57+97+147+114=415,H2O,Peptide,Mass(D)57+97+147+11418=397,G,F,P,N,H2O,without,.,N-andC-terminalPeptides,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,G,F,P,N,A,N-terminalpeptides,C-terminalpeptides,415,486,301,154,57,71,185,332,429,.,N-andC-terminalPeptides,N-terminalpeptides,C-terminalpeptides,415,486,301,154,57,71,185,332,429,.,PeptideFragmentation,y3,b2,y2,y1,b3,a2,a3,HONH3+|R1OR2OR3OR4|H-N-C-C-N-C-C-N-C-C-N-C-COOH|HHHHHHH,b2-H2O,y3-H2O,b3-NH3,y2-NH3,.,MassSpectra,mass,0,Thepeaksinthemassspectrum:PrefixFragmentswithneutrallosses(-H2O,-NH3)Noiseandmissingpeaks.,andSuffixFragments.,.,ProteinIdentificationwithMS/MS,.,TandemMass-Spectrometry,.,BreakingProteinsintoPeptides,peptides,MPSER,GTDIMR,PAKID,HPLC,ToMS/MS,MPSERGTDIMRPAKID.,protein,.,MassSpectrometry,Matrix-AssistedLaserDesorption/Ionization(MALDI)基质辅助激光解吸质谱,.,基质辅助激光解吸飞行时间质谱仪MALDI-TOF-MS,MALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。原理:当用一定强度的激光照射样品与基质形成的共结晶薄膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,根据到达检测器的飞行时间不同而被检测,即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z)的不同来进行检测,并测得样品分子的分子量。,.,TandemMassSpectrometry,Scan1708,LC,Scan1707,MS,MS/MS,.,多肽片段指纹图谱(PFF),步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定代表方法:LC-ESI-MS/MS2D-LC-MS/MS(shotgun),.,1.蛋白质序列信息的获取,(2)翻译编码的DNA序列e.g.用“ORFFinder”程序找到DNA的开放阅读框。网址:/gorf/gorf.html,.,.,.,1.蛋白质序列信息的获取,(3)在数据库中搜索e.g.PIR-PSDdatabase:/pirwwwSWISS-PROT/TrEMBL/swissprot,.,目前大部分蛋白质序列是通过DNA人工翻译过来的,实际上很少有人能获得真正的蛋白质,因而实验证据就很难直接获得,因此对蛋白质序列初始分析是很有价值的。比如,通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。,2.蛋白质序列分析,.,1.蛋白质序列的基本性质分析理化性质分析,疏水性分析,跨膜区分析,信号肽预测,Coil区分析,亚细胞定位2.序列数据库搜索相似性搜索,模体的搜索3.结构域定位4.空间结构预测二级结构及三级结构预测,结构预测方法评价,蛋白质序列分析主要内容:,.,1.蛋白质序列的基本性质分析(1)理化性质分析分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。例,利用ProtParam工具/tools/protparam.html,.,CL和CLAP的理化性质预测结果,CL:组织蛋白酶L,CLAP:组织蛋白酶L相关蛋白,.,(2)疏水性分析氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示,蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。e.g.利用ProtScale工具/protscale/利用BioEdit软件分析,.,海参溶菌酶亲水性/疏水性分析,Score0,表示疏水性;Score30%序列相似度30%,结合功能,蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验Whatcheck程序Ramachandranplot计算检验手工调整多序列比对,重新拟和,构建新的模型,.,.,.,.,.,.,蛋白质三维结构预测,SWISS-MODEL工具http:/www.expasy.ch/swissmod/SWISS-MODEL.html同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测,.,主要参数/选项,.,输出结果,.,.,方法二:折叠识别/穿线方法对蛋白质结构的预测,背景:序列比对后所击中的相似序列不是完整的而是一段一段的结构域,也可以通过二级结构预测和折叠识别(foldrecognition)找到合适的折叠子,再以这些已知结构的折叠子为模板来构建模型。,.,折叠识别/穿线方法,观察:有限的蛋白质折叠种类(1,000?)与“从头开始”来预测蛋白质结构不同,我们可以从有限的蛋白质折叠条目中得到正确的结果。基于序列技巧可以做到这一点,或者通过穿线法将序列按顺序投到模板上,并评价每一个匹配好坏程度,.,折叠识别/穿线方法,原理:将序列“穿”入已知的各种蛋白质折叠子骨架内,通过目的蛋白序列与已知折叠子的逐一比对,计算出未知结构序列折叠成各种已知折叠子的可能性;折叠子一般包括一个或多个蛋白质超家族;每个折叠子的结构内核有确定的结构特征;基于序列同源性很低的蛋白质都可能存在结构相同的折叠子进行预测。例如,通过PHYRE系统进行折叠识别预测http:/www.sbg.bio.ic.ac.uk/phyre/index.cgi,.,折叠识别或穿线法,目标序列SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ可能折叠的库(哪些具有已知序列和结构):,.,序列结构比对,目标序列SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQt1t2t3t4t5tn,已知折叠结构的序列s1s2s3s4s5sn已知折叠结构的位置p1p2p3p4p5pn怎样将目标序列与结构进行比对?,.,同源模建与结构类型识别方法的比较蛋白质家族与蛋白质结构类型Family蛋白质家族依据序列同源性将蛋白质分为不同的家族:一般将序列同源性大于30%的蛋白质归属为一个家族。一个蛋白质家族的成员可能由一个共同的祖先进化而来。自然界存在的可能蛋白质家族数目大约为23100种。同一个家族的蛋白质一般具有相近的功能和相同的结构类型(折叠模式)。,.,3D-PSSM工具http:/www.sbg.bio.ic.ac.uk/3dpssm/index2.html由英国伦敦帝国理工学院维护,其数据库中含有9864个蛋白折叠结构3D-PSSM先用PSI-BLAST标准方法通过多序列比对得到轮廓(profile),然后对家族中的一系列成员进行结构比对得出该家族的结构轮廓,接着用线串法将模板结构轮廓和待测蛋白的序列轮廓进行1D-3D轮廓之间的比对,此外也考虑了溶剂可及性和二级结构信息,.,.,输入用户Email(必需),蛋白质描述(选填),序列提交框(氨基酸单字母),Phyre-http:/www.sbg.bio.ic.ac.uk/phyre/3d-PSSM的升级版,增加了fold数据,并且性能上提高10-15,采用了新的分析界面,.,二级结构预测,.,序列比对结果,序列比对一致性,模板长度,靶标蛋白模型,模板蛋白结构分类信息,折叠子描述,.,.,.,常用蛋白质三维结构观察和修改工具,.,Chime网络游览器插件,Chime-,.,.,SWISS-PdbView观察三维模型,SWISS-PdbView工具/spdbv/观察和修改分子的三维结构,.,.,Ramachandran图,结构叠加,.,蛋白质序列分析汇总表,课程总结,.,课程总结,.,四、蛋白质结构预测的应用,蛋白质的分子设计,.,蛋白质分子设计与基因工程技术、多肽合成技术和化学合成技术一起开创了新药设计和开发研究的新局面。这个领域的研究方向主要包括蛋白三维结构预测、蛋白质结构功能关系研究、蛋白相互作用、蛋白与DNA相互作用、蛋白质突变体的分子设计、全新蛋白质设计等。,.,1.分子设计的意义,分子生物学最激动人心的进展之一是能够设计和生产新的蛋白质分子。重组DNA技术使人们能够定向改变蛋白质中的氨基酸序列,包括氨基酸的取代、插入或缺失,甚至包括蛋白质的融合等。蛋白质工程则是在深入了解蛋白质结构与功能关系的基础上,利用分子生物学方法和手段有目的地改造蛋白质,使之性能得到改善。作为蛋白质工程的组成部分,蛋白质分子设计在其中起着十分重要的作用。,.,.,从预期的蛋白质功能出发设计预期的蛋白质结构推测应有的氨基酸序列找到相对应的脱氧核苷酸(基因),.,2.分子设计的种类,小改:少数残基的替换,突变或修饰中改:分子拼接,肽段或结构域的替换大改:从头设计,全新蛋白质的设计,3.分子设计与蛋白质结构蛋白质分子内部的电荷分布、相互作用有其特定的结构特征,随意选择突变位点在蛋白质分子中改变氨基酸,不仅达不到预期目的,反而可能影响蛋白质分子的活性中心,使蛋白质的活性降低或丧失。,.,4.蛋白质分子设计的应用应用1:酶稳定性的改善酶的稳定性在蛋白质工程的实践中,一般可以通过在酶分子内增加二硫键或静电作用来提高酶分子的稳定性。例1:核糖核酸酶的稳定性的提高(1)已知条件:核糖核酸酶三维结构已由晶体衍射方法测定。分子内有两对二硫键:Tyr24与Asn84正对,二者的Ca之间的距离为6.0A,满足二硫键的特征(二硫键的Ca的平均距离:4.5-6.8),可能形成一个潜在的二硫键;二者附近没有干扰形成二硫键的基团;二者离催化活性中心较远,突变后不会影响活性。(2)设计方案:将Tyr24与Asn84突变为Cys实验结果:突变体的稳定性大大提高,.,例2.葡萄糖异构酶(GI)在工业上应用广泛,为提高其热稳定性,朱国萍等人在确定第138位甘氨酸(Gly138)为目标氨基酸后,用双引物法对GI基因进行体外定点诱变,以脯氨酸(Pro138)替代Gly138,含突变体的重组质粒在大肠杆菌中表达,结果突变型GI比野生型的热半衰期长一倍;最适反应温度提高1012;酶比活相同。据分析,Pro替代Gly138后,可能由于引入了一个吡咯环,该侧链刚好能够填充于Gly138附近的空洞,使蛋白质空间结构更具刚性,从而提高了酶的热稳定性。,.,应用2:融合蛋白质脑啡肽(Enk)N端5肽线形结构是与型受体结合的基本功能区域,干扰素(IFN)是一种广谱抗病毒抗肿瘤的细胞因子。黎孟枫等人化学合成了EnkN端5肽编码区,通过一连接5肽编码区与人1型IFN基因连接,在大肠杆菌中表达了这一融合蛋白。以体外人结肠腺癌细胞和多形胶质瘤细胞为模型,采用3H胸腺嘧啶核苷掺入法证明该融合蛋白抑制肿瘤细胞生长的活性显著高于单纯的IFN,通过Naloxone竞争阻断实验证明,抑制活性的增高确由Enk导向区介导。,.,应用3:蛋白质活性的改变通常饭后3060min,人血液中胰岛素的含量达到高峰,120180min内恢复到基础水平。而目前临床上使用的胰岛素制剂注射后120min后才出现高峰且持续180240min,与人生理状况不符。实验表明,胰岛素在高浓度(大于105mol/L)时以二聚体形式存在,低浓度时(小于109mol/L)时主要以单体形式存在。设计速效胰岛素原则就是避免胰岛素形成聚合体。类胰岛素生长因子I(IGFI)的结构和性质与胰岛素具有高度的同源性和三维结构的相似性,但IGFI不形成二聚体。IGFI的B结构域(与胰岛素B链相对应)中B28B29氨基酸序列与胰岛素B链的B28B29相比,发生颠倒。因此,将胰岛素B链改为B28LysB29Pro,获得单体速效胰岛素。该速效胰岛素已通过临床实验。,.,应用4:治癌酶的改造癌症的基因治疗分二个方面:药物作用于癌细胞,特异性地抑制或杀死癌细胞;药物保护正常细胞免受化学药物的侵害,可以提高化学治疗的剂量。疱症病毒(HSV)胸腺嘧啶激酶(TK)可以催化胸腺嘧啶和其他结构类似物如GANCICLOVIR和ACYCLOVIR无环鸟苷磷酸化。GANCICLOVIR和ACYCLOVIR缺少3端羟基,就可以终止DNA的合成,从而杀死癌细胞。HSVTK催化GANCICLOVIR和ACYCLOVIR的能力可以通过基因突变来提高。,.,从大量的随机突变中筛选出一种,在酶活性部位附近有6个氨基酸被替换,催化能力分别提高43和20倍。O6烷基鸟嘌呤是DNA经烷基化剂(包括化疗用亚硝基药物)处理以后形成的主要诱变剂和细胞毒素,所以这些亚硝基药物的使用剂量受到限制。O6烷基鸟嘌呤DNA烷基转移酶O6AlkylguanineDNAalkyltransferase(AGT)能够将鸟嘌呤O6上的烷基去除掉,起到保护作用。通过反向病毒转染,人类AGT在鼠骨髓细胞中表达并起到保护作用。通过突变处理,得到一些正突变AGT基因且活性都比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论