蛋白质生物信息学

上传人：闯*** IP属地：广东上传时间：2020-02-12 格式：PPT 页数：49 大小：1.90MB 积分：25 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第六章生物信息学的应用第一节生物信息学与蛋白质工程一生物信息学概述生物信息学是利用应用数学信息学统计学和计算机科学的方法研究生物学的问题 1987年林华安首创Bioinformation一词被誉为世界生物信息之父生物信息学分子生物学与信息技术尤其是互联网技术的结合体研究材料和结果就是各种各样的生物学数据研究工具是计算机研究方法包括对生物学数据的搜索收集和筛选处理编辑整理管理和显示及利用计算模拟概述研究内容 1 生物信息的收集存储管理与提供2 基因组序列信息的提取和分析3 功能基因组相关信息分析4 生物大分子结构模拟和药物设计5 生物信息分析的技术与方法研究 2001年2月人类基因组工程测序的完成使生物信息学走向了一个高潮由于DNA自动测序技术的快速发展 DNA数据库中的核酸序列公共数据量以每天106bp速度增长生物信息迅速地膨胀成数据的海洋毫无疑问我们正从一个积累数据向解释数据的时代转变数据量的巨大积累往往蕴含着潜在突破性发现的可能生物信息学正是从这一前提产生的交叉学科发展条件核心内容是研究如何通过对DNA序列的统计计算分析更加深入地理解DNA序列结构演化及其与生物功能之间的关系研究课题涉及到分子生物学分子演化及结构生物学统计学及计算机科学等许多领域以数据库为核心1数据库的建立2生物学数据的检索3生物学数据的处理4生物学数据的利用计算生物学研究过程由于生物信息学是基于分子生物学与多种学科交叉而成的新学科现有的形势仍表现为各种学科的简单堆砌相互之间的联系并不是特别的紧密在处理大规模数据方面没有行之有效的一般性方法而对于大规模数据内在的生成机制也没有完全明了这使得生物信息学的研究短期内很难有突破性的结果研究展望要真正解决这一问题最终不能从计算机科学得到真正地解决可能还是得从生物学自身从数学上的新思路来获得本质性的动力毫无疑问正如Dulbecco1986年所说 DNA序列是人类的真谛这个世界上发生的一切事情都与这一序列息息相关但要完全破译这一序列以及相关的内容我们还有相当长的路要走研究展望二生物信息学与蛋白质工程一蛋白质序列分析预测其理化性质空间结构及生物学功能二蛋白质结构预测理论分析法在理论计算的基础上预测统计分析法建立序列结构的映射模型三蛋白质功能预测P162 四蛋白质分子设计三生物信息学与蛋白质组学 1994 澳大利亚Wilkins和Willians提出蛋白质组由全部基因表达的全部蛋白质及其存在方式是一种细胞组织或完整的生命体在特定时空上所拥有的全套蛋白质蛋白质组学以蛋白质为研究对象阐明某生物体全部蛋白质的表达模式及功能模式生物信息学理论技术方法和软件等在蛋白质组学相关数据库的建立应用以及蛋白质组分析等方面具有重要的应用生物信息学作为一门新的学科领域把基因组DNA序列信息分析作为源头在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测然后依据特定蛋白质的功能进行必要的药物设计基因组信息学蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分第二节蛋白质常用数据库及应用一次数据库实验获得的原始数据简单归类整理注释 Genbank Swiss Prot PDB二次数据库在一次数据库实验数据和理论分析的基础上根据研究内容的需要对相关生物知识和信息进一步分析整理包括人类基因组图谱库GDB 转录因子和结合位点库TRANSFAC 蛋白质结构家族分类库SCOP等第二节蛋白质常用数据库一核酸数据库NCBI的Genbank EMBL DDBJ等二蛋白质数据库一蛋白序列数据库 SWISS PROT PIR TreEMBL UniProt GenPept 二蛋白序列二次数据库蛋白保守区域和功能位点数据库 PROSITE PRINTS BLOCKS 三蛋白结构数据库三维结构数据库PBD MMDB 全人源抗EGFR单克隆抗体红色字体为信号肽标黄部分为可变区重链可变区 HV DNA序列 423bp ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGACAGGTGCAGCTGCAGGAGTCGGGCCCAGGACTGGTGAAGCCTTCGGAGACCCTGTCCCTCACCTGCACTGTCTCTGGTGGCTCCGTCAGCAGTGGTGATTACTACTGGACCTGGATTCGGCAGTCCCCAGGGAAGGGACTGGAGTGGATTGGACACATCTATTACAGTGGGAACACCAATTATAACCCCTCCCTCAAGAGCAGACTCACCATATCAATTGACACGTCCAAGACTCAGTTCTCCCTGAAGCTGAGTTCTGTGACCGCTGCGGACACGGCCATTTATTACTGTGTGCGAGATCGAGTGACTGGTGCTTTTGATATCTGGGGCCAAGGGACAATGGTCACCGTCTCTTCA ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGAGacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcACCATCACTTGCCAGGCGAGTCAGGACATCAGCAACTATTTAAATTGGTATCAGCAGAAACCAGGGAAAGCCCCTAAACTCCTGATCTACGATGCATCCAATTTGGAAACAGGGGTCCCATCAAGGTTCAGTGGAAGTGGATCTGGGACAGATTTTACTTTCACCATCAGCAGCCTGCAGCCTGAAGATATTGCAACATATTTCTGTCAACACTTTGATCATCTCCCGCTCGCTTTCGGCGGAGGGACCAAGGTGGAGATCAAACGTACTGTGGCTGCACCATCTGTCTTCATCTTCCCGCCATCTGATGAGCAGTTGAAATCTGGAACTGCCTCTGTTGTGTGCCTGCTGAATAACTTCTATCCCAGAGAGGCCAAAGTACAGTGGAAGGTGGATAACGCCCTCCAATCGGGTAACTCCCAGGAGAGTGTCACAGAGCAGGACAGCAAGGACAGCACCTACAGCCTCAGCAGCACCCTGACGCTGAGCAAAGCAGACTACGAGAAACACAAAGTCTACGCCTGCGAAGTCACCCATCAGGGCCTGAGCTCGCCCGTCACAAAGAGCTTCAACAGGGGAGAGTGT轻链全长 L DNA序列 708bp GGTGGTGGTGGCTCTGGCGGTGGTGGCTCTGGTGGCGGTGGTTCT连接肽 G4S 3蛋白质分子设计 VH L L VH VL CL linker 利用DNAman对VH L L的限制性内切酶位点分析结果显示VH L L有31个限制性酶切位点最多的是Eco57 Tthlll 分别有三个酶切位点利用生物信息学软件DNAman将VH L L的核苷酸序列翻译为氨基酸序列利用NCBI提供的ORFFinder预测VH L L的ORF 从预测结果看出VH L L是一段连续的较长的ORF 它可能是一个完整的编码序列利用ProtParam对VH L L的氨基酸序列及基本理化性质进行了分析结果显示VH L L蛋白由392个氨基酸组成的稳定蛋白分子式为C1867H2894N494O596S11 分子量42149 1 等电点5 98 理论推导半衰期为 30h 体外哺乳动物的网织红细胞内 20h 体内酵母细胞内 10h 体内大肠杆菌不稳定参数是38 92 属于稳定蛋白含的氨基酸如图所示 Ser S Glu G Thr T 最多分别占15 1 9 9 7 7 不含Pyl 0 Sec U 总带正电荷残基 Asp Glu 为32 负电荷残基 Arg Lys 为29 总的亲水性平均系数 0 169 预测该蛋白属于亲水性蛋白蛋白质的亲疏水性是影响蛋白质空间结构的因素之一利用ProtScale分析氨基酸亲水性疏水性预测结果显示该氨基酸序列中亲水性和疏水性区域间隔存在小部分为中性在氨基酸序列20 170处出现了较高的疏水性此处富含疏水性氨基酸总体来说亲水氨基酸多于疏水氨基酸因此可以认为VH L L是亲水性蛋白利用Tmpred分析VH L L的跨膜区分析表明该序列无跨膜区不是跨膜蛋白可以预测该蛋白在膜外利用NetPhos进行磷酸化位点分析结果显示磷酸化位点主要包括丝氨酸Ser位点 28个苏氨酸Thr 5个酪氨酸Tyr 3个利用TargetP对VH L L蛋白的亚细胞定位进行预测结果表明 VH L L是分泌到细胞周质的蛋白 III蛋白质二级结构预测蛋白质序列二级结构 1 二级结构预测概述蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向二级结构预测问题是模式分类问题二级结构预测的目标判断每一段中心的残基是否处于螺旋折叠转角或其它状态之一的二级结构态即三态蛋白质结构预测主要有两大类方法 1 理论分析方法通过理论计算如分子力学分子动力学计算进行结构预测 2 统计的方法对已知结构的蛋白质进行统计分析建立序列到结构的映射模型进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构包括经验性方法 Chou Fasman 结构规律提取方法神经网络方法同源模型化方法经验参数法由Chou和Fasman在70年代提出是一种基于单个氨基酸残基统计的经验预测方法通过统计分析获得的每个残基出现于特定二级结构构象的倾向性因子进而利用这些倾向性因子预测蛋白质的二级结构经验参数法蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85 各种二级结构非均匀地分布在蛋白质中有些蛋白质中含有大量的螺旋如血红蛋白和肌红蛋白而一些蛋白质中则不含或者仅含很少的螺旋如铁氧蛋白有些蛋白质的二级结构以折叠为主如免疫球蛋白例肽链Ala A Glu E Leu L Met M 倾向于形成螺旋肽链Pro P Gly G Tyr Y Ser S 则不会形成螺旋每种氨基酸出现在各种二级结构中倾向或者频率是不同的例如 Glu主要出现在螺旋中Asp和Gly主要分布在转角中Pro也常出现在转角中但是绝不会出现在螺旋中可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测基本策略 1 相似序列相似结构 QLMGERIRARRKKLK QLMGAERIRARRKKLK 结构基本策略 2 分类分析螺旋提取样本聚类分析学习分类规则预测 Gly Ala Glu Phe 蛋白质二级结构预测程序 1 nnPredict神经网络法 2 PredictProtein 3 SSPRED 序列比对 4 SOPMA几种预测方法的综合准确率最高利用SOPMA预测VH L L的二级结构结果显示二级结构中螺旋占15 56 折叠34 95 转角12

人人文库> 全部分类> 行业资料 > 医学制药

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

蛋白质生物信息学

文档简介

温馨提示

最新文档

评论

蛋白质生物信息学

文档简介

温馨提示

最新文档

评论

相关文档