蛋白质序列分析及结构预测第一讲_第1页
蛋白质序列分析及结构预测第一讲_第2页
蛋白质序列分析及结构预测第一讲_第3页
蛋白质序列分析及结构预测第一讲_第4页
蛋白质序列分析及结构预测第一讲_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学 谢文海讲iewenhai 第五章蛋白质序列分析及结构预测 一 蛋白质的结构二 蛋白质数据库介绍三 蛋白质序列分析四 蛋白质结构预测五 蛋白质功能预测 从多条免疫球蛋白序列中提取的8个片段的多重比对 回顾 humanbetaglobin 人 珠蛋白 horsebetaglobin 马 珠蛋白 humanalphaglobin 人 珠蛋白 horsealphaglobin 马 珠蛋白 cyanohaemoglobin 蓝血红蛋白 whalemyoglobin 鲸肌红蛋白 Leghaemoglobin 豆血红蛋白 通过珠蛋白的比较构建系统发育树判断生物进化分歧时间 回顾 结构是蛋白行使功能的前提 一 蛋白质的结构 蛋白质的结构主要分为四级 一级结构 二级结构 三级结构以及四级结构 一级结构 蛋白质多肽链中氨基酸残基的排列顺序 MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTE 蛋白质二级结构 二级结构 主要由氢键维系的结构 螺旋 折叠 指多肽链中主链原子的局部空间排布即构象 不涉及侧链部分的构象 螺旋 折叠 转角 无规卷曲 螺旋组合 折叠组合 和 螺旋 折叠组合 螺旋 helix 的结构特征为 1 主链骨架围绕中心轴盘绕形成右手螺旋 2 螺旋每上升一圈是3 6个氨基酸残基 螺距为0 54nm 3 相邻螺旋圈之间形成许多氢键 4 侧链基团位于螺旋的外侧 Ala Glu Leu Met促进形成Pro Gly Tyr Ser不利于形成 人细胞珠蛋白 2DC3 pdb 的第121到140位残基对应的a 螺旋侧面和顶部 N端 视图 1 若干条肽链或肽段平行或反平行排列成片 2 所有肽键的C O和N H形成链间氢键 3 侧链基团分别交替位于片层的上 下方 折叠 sheets 的结构特征为 反平行和平行的多个 折叠链形成一个完整 折叠结构的氢键示意图 来自人pi型谷胱甘肽 S 转硫酶中单个亚基中连续主链的部分 折叠结构 2DGQ pdb 侧面视图 可见转角 turn 来自人pi型谷胱甘肽 S 转硫酶一个亚基中连续主链的部分 折叠结构顶部视图 可见转角 turn 来自人信号传递蛋白SMAD4 1DD1 pdb 的一个亚基中部分 折叠结构顶部视图 可见到大的环区 loop 多肽链180 回折部分 通常由四个氨基酸残基构成 借1 4残基之间形成的氢键维系 Asp Asn Ser Thr Gln Pro常出现在 转角 转角的结构特征为 来自人细胞珠蛋白 2DC3 pdb 的两段 螺旋由 转角连接 用粗树枝状显示了两段螺旋末端的脯氨酸 无规卷曲的结构特征为 无规卷曲的特点为在主链骨架上无规则盘绕 其构象状态仍遵循物理化学原理 但波动性较大 对温度变化敏感 实验测定三级结构时往往无法识别无规卷曲 缺失其座标 即使有座标则其温度因子也较高 无规卷曲同 环的区分主要是其长度和其形状的波动性 超二级结构的主要类型和特征超二级结构 supersecondarystructure 指位于同一主链的多个二级结构组装形成的特定组装体 可直接作为三级结构的或结构域的组成单元 是从蛋白质二级结构形成三级结构的一个过渡结构形式 也称为立体结构形成的模体 1 转角或 环等连接连续四个 螺旋形成的四 螺旋捆 2 中部固定位置含有亮氨酸及其他疏水侧链氨基酸残基 在螺旋两端含有强亲水侧链氨基酸的 螺旋组成的亮氨酸拉链 Leucinezipper 3 一条主链中相邻七个两亲 螺旋通过过度结构形成的七次穿膜螺旋组 4 连续主链中两段 螺旋连接三段 折叠链形成的Rossmann折叠 5 转角连接a螺旋构成的a 螺旋 转角 螺旋 6 环连接 螺旋构成的 螺旋 环 螺旋等 7 折叠都为超二级结构 超二级结构的主要类型 蛋白质三级结构 二级结构进一步折叠形成的结构域 三级结构 蛋白质的多肽链在各种二级结构的基础上再进一步盘曲或折迭形成具有一定规律的三维空间结构 称为蛋白质的三级结构 tertiarystructure 蛋白质三级结构的稳定主要靠次级键 包括氢键 疏水键 盐键以及范德华力 VanderWasls力 等 四级结构 具有二条或二条以上独立三级结构的多肽链组成的蛋白质 其多肽链间通过次级键相互组合而形成的空间结构称为蛋白质的四级结构 quarternarystructure 其中 每个具有独立三级结构的多肽链单位称为亚基 subunit 蛋白质的一级结构决定了蛋白质的二级 三级 四级结构 1 蛋白质序列数据库 如PIR SWISS PROT NCBI 这些数据库的数据主要以蛋白质的序列为主 并赋予相应的注释 2 蛋白质模体及结构域数据库 如PROSITE Pfam 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列 3 蛋白质结构数据库 如PDB等 这些数据库主要以蛋白质的结构测量数据为主 4 蛋白质分类数据库 如SCOP CATH FSSP等 这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分 依据蛋白质的结构层次 将蛋白质数据库分为 二 蛋白质数据库 蛋白质数据库特征 这些数据库种类有差别 但内部是相互联系的 每个数据库都有指针指向其他数据库 而且数据库之间的序列以及相应的结构是共享的 同一种蛋白质依次会出现在不同的数据库 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息 这些数据库是融序列信息的索取 处理 存储 输出于一身的 1 蛋白质序列数据库 1 PIR proteininformationresource PIR 和PSD proteinsequencedatabase PSD http pir georgetown edu pirwwwPIR PSD是一个综合全面的 非冗余的 专业注释的 分类完整的蛋白质序列数据库 PIR PSD的序列来自于将GenBank EMBL DDBJ三大数据库的编码序列的翻译而成的蛋白质序列 发表的文献中的序列和用户直接提交的序列 2 SWISS PROT TrEMBL数据库www expasy org swissprot 数据库由蛋白质序列条目构成 每个条目包含蛋白质序列 引用文献信息 分类学信息 注释等 注释中包括蛋白质的功能 转录后修饰位点 特殊位点和区域 二级结构 四级结构 与其他序列的相似性 序列残缺与疾病的关系 序列变异体等信息 2 模体以及结构域数据库 模体数据库 1 PROSITE蛋白质家族及结构域数据库 www expasy org prosite PROSITE数据库收集了有显著生物学意义的蛋白质位点序列 蛋白质特征序列谱库以及序列模型 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族 即使在蛋白质序列相似性很低的情况下 也可以通过搜索隐含的功能结构模体 motif 来鉴定 因此是有效的序列分析数据库 PROSITE中涉及的序列模式包括酶的催化位点 配体结合位点 金属离子结合位点 二硫键 小分子或者蛋白质结合区域等 此外PROSITE还包括由多序列比对构建的序列表谱 profile 能更敏感地发现序列中的信息 PROSITE同时数据库提供了序列分析工具 ScanProsite是用于搜索所提交的序列数据是否包含PROSITE数据库中的序列模式或者SWISS PROT数据库中已提交的序列模式 MotifScan用于查找未知序列中所有可能的已知结构组件 数据库包括PROSITE序列表谱 PROSITE模式 Pfam收集的隐马尔可夫模式 HMM 2 PRINTSFingerprintDatabasewww bioinf man ac uk dbrowser PRINTS 这个数据库包含1500个蛋白质指纹图谱 编码9136个单一模体 3 BLOCKS www blocks fhcrc org BLOCKS是通过一些高度保守的蛋白质区域比对出来的无空位的片段 模体数据库 蛋白质结构域数据库 1 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam proteinfamiliesdatabaseofalignmentsandHMMs Pfam是蛋白质家族序列比对以及隐马尔可夫模式数据库 其网址是 www sanger ac uk Software Pfam index shtml 2 蛋白质结构域数据库ProDomhttp prodes toulouse inra fr prodom doc prodom html 3 SMARTSMART是一个简单的结构研究工具 可对可转移的遗传因子进行鉴定和注解 以及分析结构域结构 可以检测出500多个参与信号传导 胞外和染色体相关蛋白质的结构域家族 对这些结构域又在系统进化树分布 功能分类 三级结构和重要的功能残基方面做了注解 http smart embl heidelberg de 3 蛋白质结构数据库 PDB proteindatabank PDB http www rcsb org pdb PDB包括了蛋白质 核酸 蛋白质 核酸复合体以及病毒等生物大分子结构数据 主要是蛋白质结构数据 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构 并由结构生物学合作研究协会 RCSB 维护和注释 4 蛋白质结构分类数据库 1 CATH数据库www biochem ucl ac uk bsm cathnew index html 2 SCOP蛋白质结构分类数据库 structuralclassificationofproteindatabase SCOP scop mrclmb cam ac uk scop index html 三 蛋白质的序列分析 蛋白质理化性质是蛋白质研究的基础蛋白质的基本性质 相对分子质量氨基酸组成等电点 PI 消光系数半衰期不稳定系数总平均亲水性 实验方法 相对分子质量的测定 等电点实验 沉降实验缺点 费时 耗资基于实验经验值的计算机分析方法 1 蛋白质基本理化性质分析 基于一级序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考Expasy开发的针对蛋白质基本理化性质的分析 Protparam工具http www expasy org tools protparam html 相对分子质量氨基酸组成等电点 PI 消光系数半衰期不稳定系数总平均亲水性 蛋白质理化性质分析工具 AACompIdent PeptideMass Protparam工具http www expasy org tools protparam html计算以下物理化学性质 相对分子质量理论pI值氨基酸组成原子组成消光系数半衰期不稳定系数脂肪系数总平均亲水性 主要选项 参数 序列在线提交形式 如果分析SWISS PORT和TrEMBL数据库中序列直接填写Swiss Prot TrEMBLAC号 accessionnumber 如果分析新序列 直接在搜索框中粘贴氨基酸序列 输入Swiss Prot TrEMBLAC号 分不同的功能域肽段 输出结果 点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果 正 负电荷残基数 37 原子组成 分子式 总原子数 不稳定系数 脂肪系数 总平均亲水性 40unstable a TypeImembraneprotein b TypeIImembraneprotein c Multipasstransmembraneproteins d Lipidchain anchoredmembraneproteins e GPI anchoredmembraneproteins 2 蛋白质亲疏水性 跨膜区分析 3 蛋白质亲疏水性分析 氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示 蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用 疏水作用是蛋白质折叠的主要驱动力分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步氨基酸疏水分析为蛋白质二级结构预测提供佐证可用于分析蛋白质相互作用位点 抗原位点预测 预测准确率达56 是分析蛋白质跨膜区重要一步 海参溶菌酶亲水性 疏水性分析 Score 0 表示疏水性 Score 0 表示亲水性 螺旋跨膜区主要是由20 30个疏水性氨基酸 Leu Ile Val Met Gly Ala等 组成亲水残基往往出现在疏水残基之间 对功能有重要的作用基于亲 疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量TMpredhttp www ch embnet org software TMPRED form htmlSOSUI http bp nuap nagoya u ac jp sosui 4 蛋白质跨膜区分析 常用蛋白质跨膜区域分析工具 TMHMM ProtScale工具http ca expasy org tools protscale html氨基酸标度表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异 如疏水性 亲水性等收集56多个文献中提供的氨基酸标度默认值以Hphob Kyte Doolittle做疏水性分析特异性氨基酸标度 如Hopp Woods 1981 针对抗原片段定位 Accessibleresidues 1979 针对氨基酸溶剂可及性定位 Chou Fasman 1978 针对氨基酸二级结构疏水性分析 5 蛋白质亲疏水性分析 主要选项 参数序列在线提交形式 如果分析SWISS PORT和TrEMBL数据库中序列直接填写Swiss Prot TrEMBLAC号 accessionnumber 如果分析新序列 直接在搜索框中粘贴氨基酸序列 是否归一化 输出结果输入Swiss Prot TrEMBLAC号 分不同的功能域肽段 所用氨基酸标度信息 分析所用参数信息 输出结果 3 跨膜区分析蛋白质含有跨膜区提示它可能作为膜受体起作用 也可能是定位在膜上的锚定蛋白或离子通道蛋白 例 使用TMHMMServerv 2 0在线分析http www cbs dtu dk services TMHMM 铝激活苹果酸的转运蛋白 TaALMT1 跨膜结构分析 6 跨膜区分析 TMpred工具 http www ch embnet org software TMPRED form html预测跨膜区和跨膜方向依靠跨膜蛋白数据库Tmbase 主要参数 选项 序列在线提交形式 直接贴入蛋白序列填写SwissProt TrEMBL EMBL EST的ID或AC 输出结果 包含四个部分可能的跨膜螺旋区相关性列表 跨膜拓扑模型及图示 SOSUI工具 http bp nuap nagoya u ac jp sosui 以图形方式返回结果 需要JavaApplet程序 输入氨基酸单字母 运行 平均疏水值 预测的跨模螺旋区域 两种跨膜Helix 预测区域的螺旋示意图 平均疏水值 预测的跨模螺旋区域 两种跨膜Helix 59 亲疏水轮廓 跨膜蛋白序列 边界 原则 LandoltMarticorenaetal 1993 胞外末端 Asp Ser和Pro胞外 内分界区域 Trp跨膜区 Leu Ile Val Met Phe Trp Cys Ala Pro和Gly胞内 外分界区域 Tyr Trp和Phe胞内末端 Lys和Arg 两股或两股以上 螺旋相互缠绕而形成超螺旋结构存在于多种天然蛋白质中 如转录因子 结构蛋白 膜蛋白中 在生物体内执行着代谢调控 分子运动 膜通道 分子识别等重要的生物功能 63 7 蛋白质卷曲螺旋域分析 典型的有亮氨酸拉链 存在7残基重复结构 heptadrepeat 以a b c d e f g位置表示 其中a和d位置为疏水性氨基酸 而其他位置残基为亲水性 蛋白质中由2 7条 螺旋链相互缠绕形成类似麻花状结构的总称 主要存在形式是2 5条相互缠绕形成的平行或反平行同寡聚体或异寡聚体 是控制蛋白质寡聚化的元件 转录因子 骨架蛋白 动力蛋白 膜蛋白 酶等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论