




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章生物信息学的应用 第一节生物信息学与蛋白质工程一 生物信息学概述 生物信息学是利用应用数学 信息学 统计学和计算机科学的方法研究生物学的问题 1987年 林华安首创Bioinformation一词 被誉为 世界生物信息之父 生物信息学分子生物学与信息技术 尤其是互联网技术 的结合体 研究材料和结果就是各种各样的生物学数据研究工具是计算机研究方法包括对生物学数据的搜索 收集和筛选 处理 编辑 整理 管理和显示 及利用 计算 模拟 概述 研究内容 1 生物信息的收集 存储 管理与提供2 基因组序列信息的提取和分析3 功能基因组相关信息分析4 生物大分子结构模拟和药物设计5 生物信息分析的技术与方法研究 2001年2月 人类基因组工程测序的完成 使生物信息学走向了一个高潮 由于DNA自动测序技术的快速发展 DNA数据库中的核酸序列公共数据量以每天106bp速度增长 生物信息迅速地膨胀成数据的海洋 毫无疑问 我们正从一个积累数据向解释数据的时代转变 数据量的巨大积累往往蕴含着潜在突破性发现的可能 生物信息学 正是从这一前提产生的交叉学科 发展条件 核心内容是研究如何通过对DNA序列的统计计算分析 更加深入地理解DNA序列 结构 演化及其与生物功能之间的关系 研究课题涉及到分子生物学 分子演化及结构生物学 统计学及计算机科学等许多领域 以数据 库 为核心1数据库的建立2生物学数据的检索3生物学数据的处理4生物学数据的利用 计算生物学 研究过程 由于生物信息学是基于分子生物学与多种学科交叉而成的新学科 现有的形势仍表现为各种学科的简单堆砌 相互之间的联系并不是特别的紧密 在处理大规模数据方面 没有行之有效的一般性方法 而对于大规模数据内在的生成机制也没有完全明了 这使得生物信息学的研究短期内很难有突破性的结果 研究展望 要真正解决这一问题 最终不能从计算机科学得到 真正地解决可能还是得从生物学自身 从数学上的新思路来获得本质性的动力 毫无疑问 正如Dulbecco1986年所说 DNA序列是人类的真谛 这个世界上发生的一切事情 都与这一序列息息相关 但要完全破译这一序列以及相关的内容 我们还有相当长的路要走 研究展望 二 生物信息学与蛋白质工程 一 蛋白质序列分析 预测其理化性质 空间结构及生物学功能 二 蛋白质结构预测理论分析法 在理论计算的基础上预测统计分析法 建立序列 结构的映射模型 三 蛋白质功能预测P162 四 蛋白质分子设计 三 生物信息学与蛋白质组学 1994 澳大利亚Wilkins和Willians提出蛋白质组 由全部基因表达的全部蛋白质及其存在方式 是一种细胞 组织或完整的生命体在特定时空上所拥有的全套蛋白质蛋白质组学 以蛋白质为研究对象 阐明某生物体全部蛋白质的表达模式及功能模式生物信息学理论 技术方法和软件等在蛋白质组学相关数据库的建立 应用以及蛋白质组分析等方面具有重要的应用 生物信息学作为一门新的学科领域 把基因组DNA序列信息分析作为源头 在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测 然后依据特定蛋白质的功能进行必要的药物设计 基因组信息学 蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分 第二节蛋白质常用数据库及应用 一次数据库 实验获得的原始数据 简单归类整理 注释 Genbank Swiss Prot PDB二次数据库 在一次数据库 实验数据和理论分析的基础上 根据研究内容的需要 对相关生物知识和信息进一步分析整理 包括人类基因组图谱库GDB 转录因子和结合位点库TRANSFAC 蛋白质结构家族分类库SCOP等 第二节 蛋白质常用数据库 一 核酸数据库NCBI的Genbank EMBL DDBJ等 二 蛋白质数据库 一 蛋白序列数据库 SWISS PROT PIR TreEMBL UniProt GenPept 二 蛋白序列二次数据库 蛋白保守区域和功能位点数据库 PROSITE PRINTS BLOCKS 三 蛋白结构数据库 三维结构数据库PBD MMDB 全人源抗EGFR单克隆抗体 红色字体为信号肽 标黄部分为可变区重链可变区 HV DNA序列 423bp ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGACAGGTGCAGCTGCAGGAGTCGGGCCCAGGACTGGTGAAGCCTTCGGAGACCCTGTCCCTCACCTGCACTGTCTCTGGTGGCTCCGTCAGCAGTGGTGATTACTACTGGACCTGGATTCGGCAGTCCCCAGGGAAGGGACTGGAGTGGATTGGACACATCTATTACAGTGGGAACACCAATTATAACCCCTCCCTCAAGAGCAGACTCACCATATCAATTGACACGTCCAAGACTCAGTTCTCCCTGAAGCTGAGTTCTGTGACCGCTGCGGACACGGCCATTTATTACTGTGTGCGAGATCGAGTGACTGGTGCTTTTGATATCTGGGGCCAAGGGACAATGGTCACCGTCTCTTCA ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCATAATATCCAGAGGAGacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcACCATCACTTGCCAGGCGAGTCAGGACATCAGCAACTATTTAAATTGGTATCAGCAGAAACCAGGGAAAGCCCCTAAACTCCTGATCTACGATGCATCCAATTTGGAAACAGGGGTCCCATCAAGGTTCAGTGGAAGTGGATCTGGGACAGATTTTACTTTCACCATCAGCAGCCTGCAGCCTGAAGATATTGCAACATATTTCTGTCAACACTTTGATCATCTCCCGCTCGCTTTCGGCGGAGGGACCAAGGTGGAGATCAAACGTACTGTGGCTGCACCATCTGTCTTCATCTTCCCGCCATCTGATGAGCAGTTGAAATCTGGAACTGCCTCTGTTGTGTGCCTGCTGAATAACTTCTATCCCAGAGAGGCCAAAGTACAGTGGAAGGTGGATAACGCCCTCCAATCGGGTAACTCCCAGGAGAGTGTCACAGAGCAGGACAGCAAGGACAGCACCTACAGCCTCAGCAGCACCCTGACGCTGAGCAAAGCAGACTACGAGAAACACAAAGTCTACGCCTGCGAAGTCACCCATCAGGGCCTGAGCTCGCCCGTCACAAAGAGCTTCAACAGGGGAGAGTGT轻链全长 L DNA序列 708bp GGTGGTGGTGGCTCTGGCGGTGGTGGCTCTGGTGGCGGTGGTTCT连接肽 G4S 3蛋白质分子设计 VH L L VH VL CL linker 利用DNAman对VH L L的限制性内切酶位点分析 结果显示VH L L有31个限制性酶切位点 最多的是Eco57 Tthlll 分别有三个酶切位点 利用生物信息学软件DNAman将VH L L的核苷酸序列翻译为氨基酸序列 利用NCBI提供的ORFFinder预测VH L L的ORF 从预测结果看出VH L L是一段连续的较长的ORF 它可能是一个完整的编码序列 利用ProtParam对VH L L的氨基酸序列及基本理化性质进行了分析 结果显示VH L L蛋白由392个氨基酸组成的稳定蛋白 分子式为C1867H2894N494O596S11 分子量42149 1 等电点5 98 理论推导半衰期为 30h 体外 哺乳动物的网织红细胞内 20h 体内 酵母细胞内 10h 体内 大肠杆菌 不稳定参数是38 92 属于稳定蛋白 含的氨基酸如图所示 Ser S Glu G Thr T 最多 分别占15 1 9 9 7 7 不含Pyl 0 Sec U 总带正电荷残基 Asp Glu 为32 负电荷残基 Arg Lys 为29 总的亲水性平均系数 0 169 预测该蛋白属于亲水性蛋白 蛋白质的亲疏水性是影响蛋白质空间结构的因素之一 利用ProtScale分析氨基酸亲水性 疏水性 预测结果显示该氨基酸序列中亲水性和疏水性区域间隔存在 小部分为中性 在氨基酸序列20 170处出现了较高的疏水性 此处富含疏水性氨基酸 总体来说 亲水氨基酸多于疏水氨基酸 因此可以认为VH L L是亲水性蛋白 利用Tmpred分析VH L L的跨膜区 分析表明 该序列无跨膜区 不是跨膜蛋白 可以预测该蛋白在膜外 利用NetPhos进行磷酸化位点分析 结果显示磷酸化位点主要包括丝氨酸Ser位点 28个 苏氨酸Thr 5个 酪氨酸Tyr 3个 利用TargetP对VH L L蛋白的亚细胞定位进行预测 结果表明 VH L L是分泌到细胞周质的蛋白 III蛋白质二级结构预测 蛋白质序列 二级结构 1 二级结构预测概述蛋白质的二级结构预测的基本依据是 每一段相邻的氨基酸残基具有形成一定二级结构的倾向 二级结构预测问题是模式分类问题二级结构预测的目标 判断每一段中心的残基是否处于 螺旋 折叠 转角 或其它状态 之一的二级结构态 即三态 蛋白质结构预测主要有两大类方法 1 理论分析方法通过理论计算 如分子力学 分子动力学计算 进行结构预测 2 统计的方法对已知结构的蛋白质进行统计分析 建立序列到结构的映射模型 进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构 包括 经验性方法 Chou Fasman 结构规律提取方法 神经网络方法 同源模型化方法 经验参数法由Chou和Fasman在70年代提出 是一种基于单个氨基酸残基统计的经验预测方法 通过统计分析 获得的每个残基出现于特定二级结构构象的倾向性因子 进而利用这些倾向性因子预测蛋白质的二级结构 经验参数法蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85 各种二级结构非均匀地分布在蛋白质中 有些蛋白质中含有大量的 螺旋如血红蛋白和肌红蛋白而一些蛋白质中则不含或者仅含很少的 螺旋如铁氧蛋白有些蛋白质的二级结构以 折叠为主如免疫球蛋白例 肽链Ala A Glu E Leu L Met M 倾向于形成 螺旋肽链Pro P Gly G Tyr Y Ser S 则不会形成 螺旋 每种氨基酸出现在各种二级结构中倾向或者频率是不同的例如 Glu主要出现在 螺旋中Asp和Gly主要分布在转角中Pro也常出现在转角中 但是绝不会出现在 螺旋中可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测 基本策略 1 相似序列 相似结构 QLMGERIRARRKKLK QLMGAERIRARRKKLK 结构 基本策略 2 分类分析 螺旋 提取样本 聚类分析 学习分类规则 预测 Gly Ala Glu Phe 蛋白质二级结构预测程序 1 nnPredict神经网络法 2 PredictProtein 3 SSPRED 序列比对 4 SOPMA几种预测方法的综合 准确率最高 利用SOPMA预测VH L L的二级结构 结果显示 二级结构中 螺旋占15 56 折叠34 95 转角12
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国晶圆清洗用光刻胶剥离剂行业市场全景分析及前景机遇研判报告
- 2025民政局离婚协议书范本
- 西路军知识竞赛题及答案
- 2025版二手车个人买卖协议书范本
- 《布衣总统孙中山》课件
- 强化全球风险管控体系确保钢铁产业稳定发展
- 高层住宅地下室防水施工的监测与验收标准
- 完善园区安全监管体系与应急响应能力
- 2024年昆明市中级人民法院招聘司法辅助人员考试真题
- 医学研究生课程体系的优化与创新路径探讨
- 斯蒂芬金英语介绍
- 集团公司石油工程专业化整合重组总体方案
- JJF 1015-2014计量器具型式评价通用规范
- GB/T 8332-2008泡沫塑料燃烧性能试验方法水平燃烧法
- GB/T 38597-2020低挥发性有机化合物含量涂料产品技术要求
- 农业科学技术政策课件
- 优秀初中语文说课课件
- DB45-T 679-2017城镇生活用水定额-(高清可复制)
- 人教精通版六年级上英语Lesson15教学课件
- 五四制青岛版2022-2023四年级科学上册第二单元第6课《测量距离和时间》课件(定稿)
- GB∕T 16762-2020 一般用途钢丝绳吊索特性和技术条件
评论
0/150
提交评论