




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、蛋白质序列分析,胡松年 2005 基因表达序列标签(EST)数据分析手册第八章 吴祖建等 2011 生物信息学分析实践 第五章,蛋白质序列结构信息 蛋白质序列的基本性质分析 结构域分析及motif搜索 蛋白质二级结构 蛋白质三级结构,蛋白质序列分析,A,3,一 、蛋白质序列的基本性质分析,理化性质分析 疏水性分析 跨膜区分析 信号肽预测 Coil区分析 亚细胞定位,蛋白质序列分析,蛋白质理化性质分析,Protparam 工具 /tools/protparam.html 计算以下物理化学性质: 相对分子质量 理论 pI 值 氨基酸组成 原子组成 消光系数
2、半衰期 不稳定系数 脂肪系数 总平均亲水性,蛋白质序列分析,主要选项/参数,序列在线提交形式: 如果分析SWISS-PORT和TrEMBL数据库中序列 直接填写Swiss-Prot/TrEMBL AC号(accession number) 如果分析新序列: 直接在搜索框中粘贴氨基酸序列,蛋白质序列分析,输入Swiss-Prot/TrEMBL AC号分不同的功能域肽段,输出结果,蛋白质序列分析,点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果,蛋白质序列分析,蛋白质序列分析,ProtScale工具 /tools/protscale.html 氨基酸标
3、度 表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等 收集50多个文献中提供的氨基酸标度 默认值为Hphob. Kyte & Doolittle,做疏水性分析,蛋白质疏水性分析,蛋白质序列分析,A,10,20种氨基酸的疏水K-D标度,主要选项/参数 序列在线提交形式: 如果分析SWISS-PORT和TrEMBL数据库中序列 直接填写Swiss-Prot/TrEMBL AC号(accession number) 如果分析新序列: 直接在搜索框中粘贴氨基酸序列,蛋白质序列分析,输出结果 输入Swiss-Prot/TrEMBL AC号分不同的功能域肽段,蛋白质序列分析,点
4、击不同功能域或直接粘贴氨基酸序列的方式得到以下结果 蛋白质序列疏水区域分布预测图,蛋白质序列分析,跨膜区分析,膜蛋白不溶于水,分离纯化困难,不容易生长晶体, 很难确定其结构 膜蛋白跨膜区可能作为膜受体, 也可能是定位在膜上的锚定蛋白或离子通道蛋白 预测跨膜螺旋主要基于已知的跨膜螺旋信息, 应用统计模型或神经网络方法 使用单一的预测软件准确性不太高, 综合不同的软件预测结果并结合疏水性图, 可以获得较好的预测, 对于跨膜螺旋和膜向性预测准确率达80%95%,蛋白质序列分析,跨膜区在线分析工具,蛋白质序列分析,跨膜蛋白数据库Tmbase 来源于Swiss-Prot数据库, 提供如跨膜结构区的数量、
5、位置及其侧翼序列等信息。 数据库下载地址:http:/www.isrec.isb-sib.ch/ftp-server/tmbase,跨膜区实例分析,蛋白质序列分析,使用TMHMM server 2.0对水稻瘤矮病毒(RGDV)外层衣壳 P8蛋白进行跨膜区分析 。 TMHMM基于隐马尔可夫模型预测,综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,可对跨膜区及膜内外区进行整体预测。 TMHMM在区分可溶性蛋白和膜蛋白方面尤为见长,常用于判定一个蛋白是否为膜蛋白。,贴入RGDVp8.txt蛋白质序列,P8蛋白的1405位氨基酸位于细胞膜表面 406425位氨基酸形成一个典型的跨膜螺旋
6、区,A,20,信号肽预测,蛋白质合成后要运送到细胞中不同的部位,有的蛋白质要通过内质网膜进入内质网腔内,最终成为分泌蛋白。 分泌蛋白的N端都有一段约1535个氨基酸的疏水性肽段,其功能是引导蛋白质多肽链穿过内质网膜进入腔内,称为信号肽(signal peptide)。 按照氨基酸组成及其位置特征,可将信号肽分为4大类: 分泌信号肽 2. 脂蛋白信号肽 3. Pilin-like信号肽 4. 细菌素和细菌素信号肽,蛋白质序列分析,A,21,信号肽主要由三个domain组成:N-region、H-regin和C-region. N-region为正电荷区域,至少含有一个精氨酸(R) 或赖氨酸(K)
7、. H-region为疏水核,一般长为1214个氨基酸. C-region包含信号肽酶(SPase)的剪切位点,在剪切位点的-1位和-3位上多为中性的丙氨酸,该区域也称为富含丙氨酸区域. N H C N端 C端,蛋白质序列分析,A,22,信号肽预测在线分析工具,蛋白质序列分析,A,23,水稻条文病毒NSVc2蛋白信号肽预测,蛋白质序列分析,SignalP 3.0 Server主页 NSVc2序列 输出结果: C score: 剪切位点分值 S score: 信号肽分值 Y score: 综合剪切位点分值 综合两种算法,NSVc2含有信号肽序列,为MHFKSYFIYTTIFNMAWG,说明NSV
8、c2蛋白可能在跨膜运输中起信号识别作用 剪切位点位于第1819位氨基酸,表明成熟肽始于第18位氨基酸,A,24,Coil区分析,卷曲螺旋(coiled coil)是蛋白质中由27条螺旋链缠绕成麻花状结构的总称。 卷曲螺旋是控制蛋白质寡聚化的元件,含有卷曲螺旋结构的蛋白质主要是一些转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。 七肽重复区(heptad repeat, HR)是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列,每个重复序列中的7个氨基酸残基依次用a-b-c-d-e-f-g表示。,蛋白质序列分析,A
9、,25,a、d位多为非极性疏水氨基酸,位于卷曲螺旋结构的内侧;e、g多为极性带电氨基酸,与a、d位残基相互作用形成疏水核心的外侧。 a、d、e、g位置上的氨基酸对于整个卷曲螺旋结构的稳定性及特异性具有重要作用。 COILS Server: /software/COILS_form.html 根据卷曲螺旋蛋白结构数据库和包含球状蛋白序列的PDB次级数据库,可计算出目的序列形成卷曲螺旋的概率。 使用COILS Server对RGDV P2蛋白卷曲螺旋预测分析。,蛋白质序列分析,A,26,已有文献研究表明,RDV的P2蛋白含有一个 N 端的疏水肽、两个七
10、肽重复区和一个跨膜区。 RGDV P2蛋白与RDV P2蛋白在病毒粒体中位置相同、大小相似,具有高度保守的氨基酸序列和相似的一级结构,表明两者可能具有相似的结构。 使用COILS Server分析RGDV P2是否由七肽重复区。 COILS Server网页 MTK:根据肌球蛋白、原肌球蛋白和角蛋白得到的打分矩阵 MTIDK:由肌球蛋白、原肌球蛋白、中间纤维类蛋白、桥立蛋白和角蛋白得到的打分矩阵,蛋白质序列分析,A,27,COILS_20424_6595.txt,A,28,亚细胞定位,亚细胞定位与蛋白质的功能存在着密切的联系 通过氨基酸组成进行亚细胞定位主要基于如下原理: 不同的细胞器多具不同
11、的理化环境,根据蛋白质的结构及表面理化特征选择性容纳蛋白 蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成,蛋白质序列分析,A,29,亚细胞定位预测步骤: 抽取一个高质量的亚细胞定位数据集并分为训练集和测试集 从选取的蛋白质数据中抽取出特征信息 选择合适的算法预测 用测试数据集对预测结果进行评价,蛋白质序列分析,A,30,常用的亚细胞定位在线工具,蛋白质序列分析,A,31,使用TargetP对RSV NSVc2蛋白进行亚细胞定位 TargetP是预测真核蛋白亚细胞定位软件,主要基于叶绿体转运肽(chloroplast transit peptide, cTP)、线
12、粒体导肽(mitochondrial targeting peptide, mTP)及分泌通路信号肽(secretory pathway signal peptide, SP)的N端序列进行预测 预测结果:蛋白NSvc2的分泌途径为“-”型,即定位到其他细胞器。,蛋白质序列分析,A,32,二、蛋白质结构域及motif搜索,结构域分析 Motif搜索,蛋白质序列分析,A,33,结构域分析,结构域(structure domain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
13、 结构域通常由25300个氨基酸组成,不同蛋白质结构域数目或同一蛋白质结构域相似度差异较大,蛋白质序列分析,A,34,常见的结构域主要有5种: 全平行结构域 反平行结构域 +结构域 /结构域 其他折叠类型 结构域是蛋白质的功能、结构和进化单元,结构域分析对于蛋白质结构的分类和预测有着重要作用。,蛋白质序列分析,A,35,结构域分析工具及数据库,蛋白质序列分析,A,36,使用SMART(Simple Molecular Architecture Research Tool)分析RGDV P8蛋白的结构功能域。 两种搜索模式:常规模式和基因组模式 在常规模式下粘贴RGDV P8序列,选PFAM d
14、omain,蛋白质序列分析,A,37,预测结果:第1426位是个高度保守的结构功能域Phytoero_P8,该结构域由多个植物呼肠孤病毒属外层衣壳蛋白P8序列组成,具有结构分子活性,蛋白质序列分析,点击,A,38,A,39,motif搜索,motif(模体)是序列中局部的保守区域。 motif通常由2、3个二级结构单位组成,二级结构一般为螺旋、折叠和环(loop) motif作为结构域中的亚单位,表现结构域的各种生物学功能。 有几十个motif类,详见:/wiki/Category:Protein_structural_motifs/,蛋白质序列分析
15、,A,40,几种motif空间结构图,蛋白质序列分析,亮氨酸拉链(Leucine zipper) A leucine zipper, aka leucine scissors, is a common three-dimensional structural motif in proteins. These motifs are usually found as part of a DNA-binding domain in various transcription factors, and are therefore involved in regulating gene expressi
16、on. Leucine zippers are found in both eukaryotic and prokaryotic regulatory proteins, but are mainly a feature of eukaryotes.,A,41,几种motif空间结构图,蛋白质序列分析,螺旋-转角-螺旋 (Helix-turn-helix) In proteins, the helix-turn-helix (HTH) is a major structural motif capable of binding DNA. It is composed of two helice
17、s joined by a short strand of amino acids and is found in many proteins that regulate gene expression,A,42,几种motif空间结构图,蛋白质序列分析,锌指(Zinc finger) Cartoon representation of the Cys2His2 zinc finger motif, consisting of an helix and an antiparallel sheet. The zinc ion (green) is coordinated by two histi
18、dine residues and two cysteine residues,几种motif空间结构图,蛋白质序列分析,罗斯曼折叠(Rossmann fold) The Rossmann fold is a protein structural motif found in proteins that bind nucleotides, especially the cofactor NAD. The structure with two repeats is composed of six parallel beta strands linked to two pairs of alpha
19、 helices in the topological order beta-alpha-beta-alpha-beta.,A,44,常见的motif数据库,蛋白质序列分析,A,45,Motif搜索方法有两种:序列模式(Pattern)和序列特征谱(Profile) 序列模式方法直接搜索关键的几个保守残基,如L-x(6)-L-x(6)-L-x(6)-L (x表示任意的氨基酸) 序列特征谱搜索是基于蛋白质序列多重比对结果,考虑了保守氨基酸在相应位置上的权重,可以检测到进化距离较远蛋白质的motif。 使用PROSITE数据库对RGDV P2蛋白进行motif搜索 点击ScanProsite链接,
20、进行高级搜索,蛋白质序列分析,A,46,参数设置: 排除高频率出现的motif: 选中后,N-糖基化位点、酪蛋白激酶II磷酸化位点等33种常见motif序列模式将被排除在外。 不进行序列特征谱搜索 搜索自定义的motif, 这里设置序列模式为: RK-x(2,3)-DE-x(2,3)-Y 输出结果:RGDV P8蛋白中有1处与指定的序列模式相匹配,为142148位的氨基酸序列: KAYDIPY,蛋白质序列分析,A,47,三、空间结构预测,蛋白质的二级结构预测 蛋白质的三级结构预测 蛋白质结构预测方法评价,蛋白质序列分析,A,48,蛋白质的二级结构预测,蛋白质的二级结构是指多肽链借助于氢键沿一维
21、方向排列成具有周期性结构的构象,主要有 螺旋 折叠 转角 无规则卷曲,蛋白质序列分析,A,49,-螺旋,(1)螺旋走向,稳定以氢键连接,氢键与轴平行。 (2)侧基R伸向螺旋外侧。 (3)棒状结构,高度压缩,紧密排列。 (4)规律排列 (5)由1条充分伸展的肽链的肽键平面折叠成的右手螺旋。 (6)每隔3.6个氨基酸残基螺旋上升一圈,螺距0.54nm。 (7)1个螺圈内有13个原子。,Hydrogen bonds (yellow dots) stabilizing an alpha-helix,A,50,-折叠,A,51,两种-折叠方式,反平行: 肽链的N端不处于同一端,氢键与肽链走向垂直。如:丝
22、心蛋白。,A,52,平行:所有肽链的N端处于同一端,氢键不与肽链走向垂直。如: - 角蛋白。,A,53,4种二级结构,A,54,蛋白质二级结构预测网络资源,蛋白质序列分析,A,55,使用SSPro服务器预测RGDV Pns10蛋白质二级结构 SSPro使用神经网络和同源分析混合进行蛋白质二级结构预测 Email接收的预测结果: 双行显示,上行为目的序列,下行为对应的二级结构, 其中C表示Coil(无规则卷曲), H表示Helix(螺旋),E表示Extented(折叠),蛋白质序列分析,蛋白质二级结构预测实例1,A,56,使用PORTER服务器预测HCV E蛋白质二级结构 由于膜蛋白难以纯化,
23、丙型肝炎病毒膜蛋白的三维至今未知, 预测其膜蛋白的二级结构有利于三级结构的模建和功能研究 本例使用丙型肝炎病毒中国湖北株(GI: 149389442) Email接收的预测结果: 双行显示,上行为目的序列,下行为对应的二级结构, 其中C表示Coil(无规则卷曲), H表示Helix(螺旋),E表示Extented(折叠),蛋白质序列分析,蛋白质二级结构预测实例2,A,57,蛋白质的三级结构预测,蛋白质的生物学功能很大程度取决于蛋白质的空间结构 通过X射线晶体衍射、NMR核磁共振等物理方法测定蛋白质的三级结构以及通过生化方法研究蛋白质的功能,成本高、速度慢、效率低,无法满足蛋白质序列飞速增长的需
24、要 生物信息学方法可对一个未知结构的蛋白质序列作出分析,预测其空间结构 蛋白质三级结构预测方法:同源模建、折叠识别和从头预测,蛋白质序列分析,A,58,同源模建,同源模建(homology modeling)是目前较为成功的而且比较实用的蛋白质结构预测方法 同源模建的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列相似性大于35%,一般认为它们具有相同的三维结构。 同源模建的四个步骤: 搜索与目的蛋白序列相匹配的模板 模建目的蛋白结构保守区的主链、结构变异区的主链 目的蛋白侧链的模建及其优化 对模建的结构进行优化和评估,蛋白质序列分析,A,59,同源建模法分析步骤: 多序列比对 与已有晶体结构的蛋白质序列比对 确定是否有可以使用的模板 序列相似度25% 序列相似度25%,结合功能,蛋白质一级序列、二级结构或结构域信息 构建三维模型 三维模型准确性检验 Whatcheck 程序 Ramachandran plot计算检验 手工调整多序列比对,重新拟和,构建新的模型 *,蛋白质序列分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 条线干部考试试题及答案
- 嵩山思修考试试题及答案
- 2025年全自动洗车机行业分析报告及未来五至十年行业发展报告
- 中国分子生物学服务市场竞争格局及投资战略规划报告
- 2025-2030年中国电动鼻毛器行业深度研究分析报告
- 完整版污水处理厂(一体化设备)调试方案
- 儿童绘画新疆美术课件
- 中国银杏螺旋藻市场供需现状及投资战略研究报告
- 2025年中国外墙环保乳胶漆行业现状分析及赢利性研究预测报告
- 2025年3D眼镜项目评估报告
- JBT 14645-2023 低温装置用密封垫片 (正式版)
- JBT 106-2024 阀门的标志和涂装(正式版)
- 2024年广东省香港大学深圳医院财务部岗位招聘历年高频考题难、易错点模拟试题(共500题)附带答案详解
- JC∕T 60016-2022 建筑用免拆复合保温模板应用技术规程
- 三伏贴课件(最终版)
- 《办公室保健、颈椎、腰椎病防备讲座》
- 山东省青岛第二中学2022-2023学年高一年级下册期末考试数学试题
- 检验设备的管理课件
- 摔伤安全培训课件
- 体育之研究白话翻译
- 新版标准日本语初级上册课文(附中文对照)-日本初级课本
评论
0/150
提交评论