




已阅读5页,还剩135页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蛋白质研究进展,目录,蛋白质结构 Protein structure 蛋白质折叠 Protein folding 分子马达 Molecular motor 蛋白质相互作用 Protein-protein interaction 蛋白质剪接 Intein: Protein Splicing 糖蛋白-糖生物学Glycoprotein -Glycobiology 蛋白质工程 Protein engineering,蛋白质结构 Protein structure,蛋白质结构,蛋白质结构是结构生物学的中心问题 结构生物学是分子生物学的分支,特 别是蛋白质和核酸的三维形状和功能。 包括: 蛋白质结构分析 蛋白质结构信息学:蛋白质结构预测,蛋白质大小,蛋白质是相对分子质量很大的生物分子。 对一种给定的蛋白质来说,氨基酸的组成和顺序以及链的长度方面都应该是相同的,即均一的蛋白质。均一蛋白质的相对分子质量可以测得。 蛋白质的相对分子质量其变化范围很大,从约6103到1107或更大一些 目前估计蛋白质平均约300残基。约50残基似乎是执行特定的生化功能下限 蛋白质的相对分子质量的单位:Kd 与 S,蛋白质的氨基酸数量的估计,对不含辅基的简单蛋白质,用110除它的相对分子质量即该蛋白的氨基酸的数。 蛋白质20种氨基酸的平均相对分子质量约为138,但多数蛋白质中较小的氨基酸占优势,因此平均相对分子质量接近128。又因每形成一个肽键将除去一分子水(相对分子质量18),所以氨基酸残基的平均相对分子质量约为128-18=110。,三种蛋白质分子量的测定方法,沉降法:又叫超速离心法,蛋白质溶液经高速离心时,沉降速度与蛋白质颗粒大小成正比,利用 M=RTS/D(1-V) 求其分子量M。 凝胶过滤法:又称分子排阻层析或分子筛层析法,此法葡聚糖凝胶分子筛层析,根据待测样品的洗脱体积求其分子量。 SDS 聚丙烯酰胺凝胶电泳法:蛋白质在 SDS 聚丙烯酰胺凝胶中电泳,根据蛋白质分子在电泳中的相对迁移率和分子质量的对数成正比关系,可以求出蛋白质分子量。,葡聚糖凝胶测定蛋白质分子量,VeV0KdVi(0Kd1) 在一定的凝胶柱内,凝胶孔隙所占的体积成为内水体积Vi,凝胶颗粒间的自由空间所占的体积称为外水体积V0。Kd为分配系数。 如果假定蛋白质分子近于球形,当蛋白质分子量在1000015000时,蛋白质在葡聚糖凝胶柱上层析的洗脱体积和分子量的对数呈直线关系。若用已知分子量的标准蛋白质在一定型号葡聚糖凝胶柱上层析,精确测其洗脱体积,并以洗脱体积Ve对分子量对数logMW作图,可获得一条标准曲线。,三个不同大小分子洗脱曲线示意图,Ve / V0对log MW作图,lgMW = K - bm 将已知分子量的标准蛋白质在SDS-PAGE 中的电泳迁移率对分子量的对数作图,即可得到一条标准曲线。只要测得未知分子量的蛋白质在相同条件下的电泳迁移率,就能根据标准曲线求得其分子量。,SDS 聚丙烯酰胺凝胶电泳,蛋白质分类,蛋白质分为三个主要类别,这与典型的高 级结构相关: 球状蛋白质 Globular proteins 纤维状蛋白 Fibrous proteins 膜蛋白 Membrane proteins,纤维状蛋白,Fibrous proteins or scleroproteins. 纤维蛋白是仅见于动物的结缔组织,肌腱,骨基质和肌纤维 通常杆或线样形状 惰性或贮存蛋白质 水不溶性 氨基酸序列往往具有有限的残基与重复,纤维状蛋白,a-Keratin,-Keratin: -Sheet Proteins,Triple Helix : Collagen,纤维状蛋白质极具潜力的材料,结构赋予了这些结构蛋白质特定的机械强度,为此可以作为特制的材料。在利用天然的纤维状蛋白质作为材料外,目前人们还利用这些重形成一种新的人工蛋白质材料,称为SELP47K。这种新的蛋白质材料兼有丝蛋白和弹性蛋白的特点,而且具有RSPP的特点,可以自组装,成为纳米材料。SELP47K除了高强度外,还可形成亲水凝胶,作为细胞外基质。 另有一种蛋白质/肽纤维的构建是利用又一种蛋白质纤维的结构原理。新的蛋白质纤维有SAF-p1和SAF-p2。,胱氨酸的生产,我国巳开发出利用鸡、鸭毛和猪蹄甲壳等下脚料提取胱氨酸工艺。 迄今为止,日本、美国等仍在进口我国提取法生产的胱氨酸,现我国仍为世界胱氨酸第一产销大国。 国际市场上采用发酵法生产的胱氨酸实际上仍未成熟,难以与提取法生产的胱氨酸在成本上进行较量。这就是我国胱氨酸能在竞争异常激烈的国际市场上畅销不衰的主要原因。 据了解,从2004年以来,国际市场上的从饲料级、食品级到药用级等各种规格的胱氨酸价格均有所上涨。1999年胱氨酸出口均价每公斤7085元人民币,2004年我国出口胱氨酸均价升至每公斤近100元。2007年上半年,我国仅食品级胱氨酸出口均价已超过每公斤100元,国内经销商每公斤107元,符合美国药典或欧洲药典标准的药用级胱氨酸出口价更高达每公斤320元。 据有关部门估计,国际市场对胱氨酸和半胱氨酸原料药的需求量已超过12000吨,而我国出口量始终保持在30004000吨。 近年来国内兴建的一批较大的羽绒制品厂提绒后剩下的鸭毛、 鹅毛羽毛梗已被用于代替人发和猪毛作为生产胱氨酸的原料。,球状蛋白质,在水溶液中球样蛋白。Globular proteins, or spheroproteins The term globular protein is quite old (dating probably from the 19th century) 现在鉴于成千上万的蛋白质结构,有时以更优雅的描述词汇 structural motif 。 分子极性:疏水基团在分子内部,而极性亲水基团在分子外部,Globular proteins,膜蛋白,膜蛋白是细胞膜或细胞器的蛋白质分子 膜蛋白可分为两组: integral membrane protein peripheral membrane protein or Integral amphitropic,膜蛋白,蛋白结构分类,对蛋白质结构进行分类的方法有多种,有多个结构数据库(包括SCOP、CATH和FSSP)分别采用不同的方法进行结构分类。存放蛋白质结构的PDB数据库中就引用了SCOP的分类。 对于大多数已分类的蛋白质结构来说,SCOP、CATH和FSSP的分类是相同的,但在一些结构中还有所区别。仍存在一些分歧和矛盾。 一级数据库,二级数据库,在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。 人类基因组图谱库 GDB 转录因子和结合位点库 TRANSFAC 蛋白质序列功能位点数据库 Prosite ,SWISSPROT,1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI)合作维护(1986年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些 序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等) 5. SWISS-PROT的网址: /sprot,PIR(protein information resource),由美国NCBI翻译自GenBank的DNA序列(1984年); 在EMBL和GenBank数据库上均建立了镜像站点; 数据依据注释的质量分为4类。 PIRPIR网址: /,一个数据库记录(entry)一般由两部分组成: 1. 原始数据(data) 2. 描述这些数据生物学信息的注释(annotation) 注释中包含的信息与相应的序列数据同样重要和有应用价值 数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面 数据库的动态更新: 1.不断增加 2.不断修正,蛋白质的结构层次,初级结构:一级结构(primary structure); 高级结构: 二级结构(secondary structure) 超二级结构(supersecondary structure) 结构域(structural domain) 三级结构(tertiary structure) 四级结构(quarternary structure),初级结构,今天已知约有10万蛋白质的氨基酸序列 两个主要的蛋白质测序方法: Edman degradation reaction Mass spectrometry 预测蛋白质序列:从DNA / RNA序列,蛋白质序列分析策略,链的分离纯化。 链内二硫键裂切割(如果是链间二硫键的联系,第2步在第1步之前) 氨基酸组成 确定 N -末端和C -末端氨基酸分析 用不同的切割程序产生不同和重叠多肽片段 短肽自动化程序测序 氨基酸序重叠片段列重建。 二硫键定位,组成蛋白质的多肽链数目种类,将肽链水解成片断,将肽链水解,胰蛋白酶(LysArg), 胰凝乳蛋白酶(PheTyrTrp) 溴化氰(Met),The Edman degradation reaction,质谱分析,自约翰.芬恩(JohnB.Fenn)和田中耕一(Koichi.Tanaka)发明了对生物大分子进行确认和结构分析的方法及发明了对生物大分子的质谱分析法以来,随着生命科学及生物技术的迅速发展,生物质谱目前已成为有机质谱中最活跃、最富生命力的前沿研究领域之一。,质谱分析,传统的Edman降解技术获得氨基酸序列信息只能逐个获取,效率低,不能适应高通量实验的需求; 质谱技术为快速准确地获取蛋白质的一级结构信息提供了新的检测技术手段。首先通过质谱仪测量蛋白质样品的质量信息, 获得样本的质谱信息,然后据此进行计算分析和推理, 来获得蛋白质的一级结构信息, 该过程即蛋白质鉴定(protein identification),质谱分析的特点,质谱分析用于蛋白质等生物活性分子的研究具有如下优点: 很高的灵敏度能为亚微克级试样提供信息 能最有效地与色谱联用 适于复杂体系中痕量物质的鉴定或结构测定 同时具有准确性、易操作性、快速性及很好的普适性。,质谱分析的方法,用于生物大分子质谱分析的软电离技术: 1)电喷雾电离质谱;(electrospray ionisation,ESI) 2)基质辅助激光解吸电离质谱;(matrix assisted laser desorption/ionization,MALDI) 3)快原子轰击质谱 4)离子喷雾电离质谱 5)大气压电离质谱。 在这些软电离技术中,前面种研究得最多,应用也最广泛。,蛋白质的质谱分析,蛋自质是一条或多条肽链以特殊方式组合的生物大分子,复杂结构主要包括以肽链为基础的肽链线型序列称为一级结构及由肽链卷曲折叠而形成三维结构。 目前质谱主要测定蛋自质一级结构包括分子量、肽链氨基酸排序及多肽或二硫键数目和位置。,蛋白质的质谱分析原理,以往质谱()仅用于小分子挥发物质分析. 由于新的离子化技术的出现,如介质辅助的激光解析/离子化、电喷雾离子化,各种新的质谱技术开始用于生物大分子的分析。 其原理是:通过电离源将蛋白质分子转化为气相离子,然后利用质谱分析仪的电场、磁场将具有特定质量与电荷比值(/值)的蛋白质离子分离开来,经过离子检测器收集分离的离子,确定离子的/值,分析鉴定未知蛋白质。,蛋白质和肽的序列分析,近年来随着电喷雾电离质谱(ESI)及基质辅助激光解吸质谱(MALDI)等质谱软电离技术的发展与完善,极性肽分子的分析成为可能, 检测限下降到fmol级 可测定分子量范围则高达100000 Da 目前基质辅助的激光解吸电离飞行时间质谱法(MALDI TOF MS)已成为测定生物大分子尤其是蛋白质、多肽分子量和一级结构的有效工具,也是蛋白质组研究所必不可缺的关键技术之一 。,蛋白质的质谱分析方式,质谱用于肽和蛋白质的序列测定主要分为三种方法: 蛋白图谱(proteinmapping),即用特异性的酶或化学方法将蛋白水解切成小片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库。将蛋白质绘制“肽图”,肽质量指纹谱(peptide mass fingerprinting, PMF) 第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基,其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂. 第三种方法与Edman法相似,即用化学探针或酶解使蛋白或肽从端或端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(laddersequencing),经质谱检测,由相邻峰的质量差知道相应氨基酸残基。,质谱仪,质谱仪是使大量分子带上电荷(离子), 并根据不同离子的质量与电荷比的差异而导致它们在电场或磁场中运动轨迹的不同而对这些离子进行分离, 进而测量这些离子的质荷比与强度, 并记录下来获得质谱数据的一种仪器. 它由三大部分串联而成: 离子源(ion source) 质量分析器(mass analyzer) 检测器(detector),Main steps of mass spectrometer,用质谱测定序列,串联质谱 Tandem mass spectrometry,串联质谱仪是能够多轮质谱。 第一个质量分析器可以分离许多进入质谱仪的一个多肽。 第二个质量分析器稳定肽离子碰撞时的气体,使他们片段的碰撞诱导解离(CID) 。 第三个质量分析器分离多肽产生的各种碎片。 有各种方法:碰撞诱导解离(CID) ,电子捕获解离(ECD) ,电子转移解离( ETD ) ,红外多光子解离( IRMPD )和红外辐射解离(BIRD),Protein mass spectrometry,串联质谱仪通常的两个主要电离方法: electrospray ionization (ESI) matrix-assisted laser desorption/ionization (MALDI). 两种策略: 完整蛋白质首先离子化,然后进分析仪。这种称为“自上而下”的策略。 蛋白质用蛋白酶消化成较小的多肽和引入质谱仪和确定。他的做法也被称为“自下而上”的蛋白质。,蛋白质研究中的质谱技术,2002 年诺贝尔化学奖: MALDI 和ESI技术的发明 基于质谱技术在计算蛋白质研究中主要包括: 蛋白质的身份鉴定 氨基酸序列信息分析 翻译后修饰分析 定量化信息 提取生物标记物发现与疾病诊断建模等,蛋白质组学 Proteomics,The word “proteome“ :protein and genome蛋白质是生物体或系统的整个蛋白质,包括修饰的蛋白质。 术语“蛋白质组学”来自基因组学类推。,蛋白质组学的研究内容,1.蛋白质鉴定:可以利用一维电泳和二维电泳并结合Western等技术,利用蛋白质芯片和抗体芯片及免疫共沉淀等技术对蛋白质进行鉴定研究。 2.翻译后修饰:很多蛋白质要经历翻译后修饰如磷酸化,糖基化等。对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。 3.蛋白质功能确定:如分析酶活性和确定酶底物,配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。 蛋白质在细胞内的定位研究,Clontech的荧光蛋白表达系统就是研究蛋白质在细胞内定位的一个很好的工具。 4.蛋人类白质组学的研究最主要是促进分子医学的发展。如寻找药物的靶分子。,蛋白质组学,蛋白质分离 :双向凝胶电泳 蛋白质鉴定和相对数量测定:基质辅助激光解吸质谱maldi-ms/ms和电喷雾串联质谱 esi-ms/ms 。,Two-dimensional gel electrophoresis,分离技术:双向凝胶电泳,为2-D或二维电泳 等电聚焦 Isoelectric focusing SDS -PAGE 分子生物学的ExPASy网,日内瓦大学(http:/expasy.hcuge.ch/)提供了访问二维聚丙烯酰胺凝胶电泳数据库,命名 SWISS-2D-PAGE。这个数据库包含来自许多不同的细胞和组的蛋白质双向电泳凝胶信息。,等电聚焦,SDS - PAGE,双向凝胶电泳,为什么要进行样品制备,目前双向电泳一般只能分辨到1000-3000个蛋白质点,而样品中的蛋白种类可达到10万种以上,因此样品的制备是必须的。 样品制备需要不同步骤,不同方法来配合。 首先需要明确实验的最终目的:是分离尽可能多的蛋白还是样品中某些感兴趣的蛋白。 蛋白的溶解的效果取决于裂解、破碎、沉淀、溶解过程以及去污剂的选择和各种溶液的组成。 如果是样品中部分感兴趣蛋白,可采取预分离的方法,如来自细胞器蛋白,应先采取细胞器分离;如进行全蛋白质组分析,则可以分级制备。,样品制备的原则,应使所有待分析的蛋白样品全部处于溶解状态(包括多数疏水性蛋白),且制备方法应具有可重现性。 防止样品在聚焦时发生蛋白的聚集和沉淀。 防止在样品制备过程中发生样品的抽提后化学修饰(如酶性或化学性降解等)。 完全去除样品中的核酸和某些干扰蛋白。 尽量去除起干扰作用的高丰度或无关蛋白,从而保证待研究蛋白的可检测性,AXIMA-QIT MALDI-QIT-TOF Mass Spectroscopy),蛋白质构象,二级结构 Secondary structure 三级结构 Tertiary structure 四级结构 Quaternary structure,蛋白质构象,蛋白质构象测定 蛋白质构象预测,蛋白质结构的测定方法,高分辨率:X射线晶体学|核磁共振|电子晶体学 中分辨率: 低温电子显微镜Cryo-electron microscopy 光纤衍射 质谱 光谱:核磁共振|圆二色|荧光|各向异性荧光 平移扩散分析超离心 排阻色谱 流动双折射 介电弛豫化学:氢氘交换|定点突变|化学修饰 热力学:平衡展开,蛋白质结构的测定,蛋白质数据库中大约90的蛋白质结构由X射线晶体学确定。大约9的蛋白质结构由核磁共振获得。 低温电子显微镜Cryo-electron microscopy最近已成为一种手段来确定蛋白质结构高分辨率(小于5埃或0.5纳米) ,在未来的十年是一种高分辨率的工具。,晶体x射线 an X-Ray Beam, a Crystal, and a Detector.,Workflow for solving the structure of a molecule by X-ray crystallography.,Crystallization of Myoglobin.,Myoglobin Crystal and X-Ray. (A) Crystal of myoglobin. (B) X-ray precession photograph of a myoglobin crystal.,Section of the Electron-Density Map of Myoglobin. This section of the electron-density map shows the heme group. The peak of the center of this section corresponds to the position of the iron atom.,Resolution Affects the Quality of an Image. The effect of resolution on the quality of a reconstructed image is shown by an optical analog of x-ray diffraction: (A) a photograph of the Parthenon; (B) an optical diffraction pattern of the Parthenon; (C and D) images reconstructed from the pattern in part B. More data were used to obtain image D than image C, which accounts for the higher quality of image D.,蛋白质的晶体结构开始在1950年代后期,因为这成功,超过39000 x射线晶体结构的蛋白质、核酸及其他的生物分子巳测定,myoglobin,限制 小分子晶体通常少于100原子不对称单位;这种晶体结构通常好解决。 生物大分子晶体在晶胞往往涉及成千上万的原子。这种晶体结构一般的解决较差(smeared out )-原子和化学键显示电子密度管,而不是孤立的原子。 内在膜蛋白的结晶仍然具有挑战性。,核磁共振光谱,核磁共振波谱用于获取蛋白质的结构和动态的信息。 Kurt Wthrich 开创,2002年诺贝尔化学奖。 核磁共振(Nuclear Magnetic ResonanceNMR) ,即核磁共振成像(Nuclear Magnetic Resonance Imaging,NMRI),又称磁共振成像(Magnetic Resonance Imaging,MRI) NMR技术即核磁共振谱技术,是将核磁共振现象应用于分子结构测定的一项技术。 核磁共振谱与紫外光谱、红外光谱和质谱一起被称为“四大名谱”。,核磁共振光谱学的基础,One-Dimensional NMR Spectra. (A) 1H-NMR spectrum of ethanol (CH3CH2OH) shows that the chemical shifts for the hydrogen are clearly resolved. (B) 1H-NMR spectrum from a 55 amino acid fragment of a protein with a role in RNA splicing shows a greater degree of complexity. A large number of peaks are present and many overlap.,The Nuclear Overhauser Effect. The nuclear Overhauser effect (NOE) identifies pairs of protons that are in close proximity. (A) Schematic representation of a polypeptide chain highlighting five particular protons. Protons 2 and 5 are in close proximity (4 apart), whereas other pairs are farther apart. (B) A highly simplified NOESY spectrum. The diagonal shows five peaks corresponding to the five protons in part A. The peaks above the diagonal and the symmetrically related one below reveal that proton 2 is close to proton 5.,Detecting Short Proton-Proton Distances. A NOESY spectrum for a 55 amino acid domain from a protein having a role in RNA splicing. Each off-diagonal peak corresponds to a short proton-proton separation. This spectrum reveals hundreds of such short proton-proton distances, which can be used to determine the three-dimensional structure of this domain.,Structures Calculated on the Basis of NMR Constraints. (A) NOESY observations show that protons (connected by dotted red lines) are close to one another in space. (B) A three-dimensional structure calculated with these proton pairs constrained to be close together.,A Family of Structures. A set of 25 structures for a 28 amino acid domain from a zinc-finger-DNA-binding protein. The red line traces the average course of the protein backbone. Each of these structures is consistent with hundreds of constraints derived from NMR experiments. The differences between the individual structures are due to a combination of imperfections in the experimental data and the dynamic nature of proteins in solution.,900MHz, 21.2 T NMR Magnet at HWB-NMR, Birmingham,Cryo-electron microscopy,Electron cryomicroscopy (cryo-EM or cryo-electron microscopy) 是一种形式的电子显微学( EM ),研究的样本是在结晶温度(一般液态氮)的 电子晶体显微图是三维图像 这种方法可能提供一种新的建立近天然蛋白质骨架或其他大分子模型的的解决方案。 CryoEM是结构生物学的发展,Wen Jiang, Matthew L. Baker, Joanita Jakana, Peter R. Weigele, Jonathan King & Wah Chiu Backbone structure of the infectious 15 virus capsid revealed by electron cryomicroscopy Nature 451, 1130-1134 (28 February 2008) authors : Markey Center for Structural Biology, Department of Biological Sciences, Purdue University, West Lafayette, Indiana 47907, USA National Center for Macromolecular Imaging, Verna and Marrs McLean Department of Biochemistry and Molecular Biology, Baylor College of Medicine, Houston, Texas 77030, USA Department of Biology, Massachusetts Institute of Technology, Cambridge, Massachusetts 02139, USA,Infectious bacteriophage epsilon 15,蛋白质结构预测,背景知识,生物细胞种有许多蛋白质,生物学界常常将蛋白质的结构分为4级结构。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 经过多年努力,结构测定的方法得到了很好的发展,常用的有核磁共振和X光晶体衍射。然而由于实验测定比较耗时和昂贵,某些不易结晶的蛋白质不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。,蛋白质结构预测,蛋白质结构预测是生物信息学和理论化学一个最重要的目标 蛋白质结构预测是非常重要: 医学(例如,在药物设计) 生物技术(如设计新的酶) 预测三维结构的蛋白质及其氨基酸序列,有时甚至包括额外的有关资料。,结构预测流程,蛋白质序列,相似性搜索数据库,蛋白质序列是否符合已知的3 D结构?,蛋白家族,结构域,聚类分析,与已知结构关系?,结构分析,3 D 比较建模,预测三维结构,有一个预言结构?,实验室的三维分析,yes,no,no,no,蛋白质结构预测主要有两大类方法,(1)理论分析方法:通过理论计算(如分子力学、分子动力学计算)进行结构预测。 (2)统计的方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型直接从氨基酸序列对未知结构的蛋白质预测结构。 包括: 经验性方法 结构规律提取方法 同源模型化方法,蛋白质结构预测的统计学方法,同源性(Homology)方法 从头计算(Ab initio) 方法 穿线法(Threading)方法:(折叠识别方法),1、同源模型化方法,主要思想: 对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。 依据: 任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。,同源模型化法的步骤,设待预测三维结构的蛋白质为U(Unknown), 同源模型化方法建模的过程包括6个步骤: (1)搜索结构模型的模板(T) (2)序列比对 (3)建立骨架 (4)构建目标蛋白质的侧链 (5)构建目标蛋白质的环区 (6)优化模型,预测结果准确率,对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。 若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。 一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。,Threading 方法(折叠识别方法),Threading 方法:首先取出一条模版和查询序列作序列比对(Alignment),将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。 比对的过程是在设计的一个能量函数指导下进行的。 根据比对结果和得到的查询序列的空间坐标,通过设计的能量函数,得到一个能量值。 将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。,Threading 方法(折叠识别方法) 建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。 线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。 有很多蛋白质具有相似的空间结构,但它们的序列等同部分小于25%,即远程同源。 对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。,线索化的主要思想: 利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。,3、从头预测方法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,这时只能采用从头预测方法。 从头预测方法依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。,从头预测法的3个组成部分,(1)一种蛋白质几何的表示方法 由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理。 (2)一种势函数及其参数 通过对已知结构的蛋白质进行统计分析确定势函数中的各个参数 (3)一种构象空间搜索技术 构象空间搜索和势函数的建立是从头预测方法的关键,从头预测方法,分子动力学 蒙特卡罗方法 模拟退火方法 遗传算法,预测方法评价,对各种方法所得到的蛋白质结构预测结果需要进行验证,以确定预测方法是否可行,确定其适应面。 验证的方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较,分析两者之间的差距。 权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的CASP就是这样一个系统 (/casp4/),蛋白质二级结构预测,蛋白质序列 二级结构,二级结构预测概述,二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。 二级结构预测问题是模式分类问题 二级结构预测的目标:判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态,即三态。,基本策略(1) 相似序列相似结构,QLMGERIRARRKKLK,QLMGAERIRARRKKLK,结构?,基本策略(2)-分类分析,螺旋,提取样本,聚类分析,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,二级结构预测方法,基于单个氨基酸残基统计分析 从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。 基于氨基酸片段的统计分析 统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,二级结构预测算法,(1)Chou-Fasman算法 (2)GOR算法:,因其作者Garnier, Osguthorpe和 Robson而得名 (3)多序列列线预测 (4)基于神经网络的序列(Back-Propagation Network) (5)基于已有知识的预测方法(knowledge based method): (6)混合方法(hybrid system method):,经验参数法,经验参数法由Chou 和Fasman在70年代提出的。根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测 三种基本二级结构平均占氨基酸残基的85% 各种二级结构非均匀地分布在蛋白质中,如血红蛋白蛋白质中含大量螺旋;铁氧蛋白中很少螺旋,免疫球蛋白以折叠为主 每种氨基酸出现在各种二级结构中倾向或者频率是不同的,例如:Glu主在螺旋中,Asp和Gly主要在转角中,关于二级结构的经验规则,一个氨基酸残基的构象倾向性因子定义为 Pi = Ai / Ti (i= ,c, t) 式中:下标i表示构象态 如螺旋、折叠、转角、无规卷曲等; Ti是所有被统计残基处于构象态i的比例; Ai是第A种残基处于构象态i 的比例; Pi大于1.0表示该残基倾向于形成二级结构构象 i,小于1.0则表示倾向于形成其它构象。,经验规则的基本思想是在序列中寻找规则二级结构的成核位点和终止位点。 扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止。 规则: (i)螺旋规则 (ii)折叠规则 (iii)转角规则 (iv) 重叠规则,延伸 成核区 延伸,(i)螺旋规则,沿蛋白质序列寻找螺旋核 相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。 从螺旋核向两端延伸 直至四肽片段的螺旋倾向性因子的平均值P1.03,则预测为螺旋。,(ii)折叠规则,相邻6个残基中若有4个倾向于形成折叠,则认为是折叠核。 折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05,则预测为折叠。,(iii)转角规则,转角的模型为四肽 四肽片段Pt的平均值大于100,并且Pt 的均值同时大于P 的均值以及P 的均值,则可以预测这样连续的4个残基形成转角。 则可以预测这样连续的4个氨基酸形成转角。,(iv) 重叠规则,对于螺旋和折叠的重叠区域,按Pa和P的相对大小进行预测 若Pa大于P,则预测为螺旋; 反之,预测为折叠。,A Ramachandran diagram showing the sterically reasonable values of the angles and .,(2) GOR方法,是一种基于信息论和贝叶斯统计学的方法,也属于统计学方法,GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残基种类对该位置构象的影响。这样使预测的成功率提高到65%左右。 GOR方法的优点是物理意义清楚明确,数学表达严格,而且很容易写出相应的计算机程序,但缺点是表达式复杂。,序列窗口 中心残基,窗口中各个残基对中心残基二级结构的支持程度,两个事件S和R的条件概率P(S|R) 即在R发生的条件下,S发生的概率 定义信息为: 若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)0 若R的发生不利于S的发生,则I(S; R)0,I(S; R)在二级结构预测中的含义 R代表中心氨基酸及其所处环境 S代表二级结构类型 I(S; R)代表中心氨基酸处于S的信息值,例如:假定数据库中有1830个残基, 780个处于螺旋态,1050个处于非螺旋态,库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150个 A 处于非螺旋态。可得:,基于已有知识的预测方法(knowledge based method),这类预测方法包括Lim 和 Cohen 两种方法。 Lim 方法是一种物理化学的方法,它根据氨基酸残基的物理化学性质,包括:疏水性、亲水性、带电性以及体积大小等,并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链, Lim 方法的预测准确率可以达到73%. 另一种是 Cohen 方法,它的提出当时是为了/蛋白的预测,基本原理是说:疏水性残基决定了二级结构的相对位置,螺旋亚单元或扩展单元是结构域的核心,螺旋和折叠组成了结构域。,人工神经网络方法,神经网络的方法进行序列的预测,即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法,它是由三层相同的神经元构成的层状网络,使用反馈式学习规则,在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋白进行预测 神经网络方法的优点是应用方便,获得结果较快较好,主要缺点是没有反映蛋白的物理和化学特性,而且利用大量的可调参数,使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。,综合方法,综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。 多个程序同时预测,综合评判一致结果 序列比对与二级结构预测 双重预测 首先预测蛋白质的结构类型 然后再预测二级结构,利用进化信息预测蛋白质的二级结构,蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。 蛋白质二级结构预测软件系统 PHD 第一步工作是形成同源序列的多重对比排列 第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。,Levels of protein structure,motif 与 domain,Motif ,模体,基序,Motif in biochemistry,Motif ,模体,基序,超二级结构,二级结构有规律的组合。 Structural motif, 结构模体,氨基酸的空间排列形成的蛋白质空间结构类型,核苷酸的空间排列形成的核酸空间结构类型 Sequence motif, DNA中一个核苷酸序列模式或蛋白质中一个序列模式 晶体结构的一个重复模式元件,Sequence motif,遗传学:序列模体是一个核苷酸序列或氨基酸序列模式,普遍分布,被推测有生物学意义。 元素的一个重复模式在水晶结构 对蛋白质,序列模体区别于结构模体,一个结构模体所形成的三维排列,氨基酸不接近。,Sequence motif,When a sequence motif appears in the exon of a gene, it may encode the “structural motif“ of a protein Outside of gene exons, there exist regulatory sequence motifs and motifs within the “junk,“ such as satellite DNA. Some of these are believed to affect the shape of nucleic acids , but this is only sometimes the case. Short coding motifs, which appear to lack secondary structure, include those that label proteins for delivery to particular parts of a cell, or mark them for phosphorylation. Within a sequence or database of sequences, researchers search and find motifs using computer-based techniques of sequence analysis, such as BLAST.,Structural motif types in proteins,Examples of motif types in proteins,Beta ribbon Omega loop Helix-loop-helix Zinc finger Helix-turn-helix Beta hairpin,Motif bioinformatics,Motifs and consensus sequences De n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年住宅室内环境检测协议规范
- 2025年校园文化建设细则:制度创新下的文化育人实践
- 高质量教育发展中的教师能力提升策略
- 校园急救课程内容的设置与优化
- 智慧城市实战解析
- 道德法治启蒙课
- 词汇记忆的艺术
- 创新教学实践探索
- 出行新纪元模板
- 双十二营销解析
- 打印版医师执业注册健康体检表(新版)
- 老年痴呆护理
- 1.3.1动量守恒定律课件(共13张PPT)
- DB36_T 420-2019 江西省工业企业主要产品用水定额(高清无水印-可复制)
- 中小学教育惩戒规则(试行)全文解读ppt课件
- TCECS 850-2021 住宅厨房空气污染控制通风设计标准
- 布鲁克纳操作手册
- 印度尼西亚煤炭购销合同
- GB∕T 25119-2021 轨道交通 机车车辆电子装置
- 2022年国网输变电工程质量通病防治工作要求及技术措施[1]
- 三年级美术下册16奇石教学设计1浙美版
评论
0/150
提交评论