




免费预览已结束,剩余4页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【标题】拟南芥乙醇脱氢酶蛋白质三级结构预测及其结果分析【作者】汪 华 【关键词】生物学软件蛋白质序列二级结构三级结构结构预测 【指导老师】姚 启 伦 【专业】生物科学 【正文】1引言1.1拟南芥乙醇脱氢酶简介拟南芥是一种模式植物,被称为植物中的“果蝇”1,在植物科学研究中具有其它任何植物不可代替的优点:(1)具有基因组小(125 Mbp)、生长周期短等特点,非常有利于遗传学和分子生物学的研究和操作;(2)到2000年底,拟南芥的全基因组测序工作已顺利完成。拟南芥作为数据库完整的双子叶模式植物,为研究植物功能基因组提供了蓝图2。乙醇脱氢酶,是该植物中的一种代表性酶,它是催化乙醛和乙醇间的氧化还原反应的重要还原酶,在植物无氧呼吸过程中起着重要作用3。1.2研究的目的和意义早在70年代,Anfinsen4就提出蛋白质分子的一些序列决定其空间结构的论断,成为蛋白质结构预测的理论基础。蛋白质结构预测问题就是如何从蛋白质的氨基酸序列出发预测它的功能构象问题5。蛋白质的生物学功能在很大程度上取决于其空间结构,所以弄清楚蛋白质的结构进而理解其结构与功能的关系具有重要意义。但通过实验方法获得蛋白质结构不仅成本高而且速度慢,显然无法满足人们的需要,为了缩小结构与已知序列之间的差异,通过生物学软件预测蛋白质结构的方法便应运而生6。为此,本研究以模式生物拟南芥的乙醇脱氢酶序列为实验材料,以计算机为平台,以DNAstar、SeqVerter、Cn3D、RasMol等分子生物学软件为工具,对拟南芥的乙醇脱氢酶进行蛋白质序列分析,从而预测拟南芥乙醇脱氢酶蛋白质三级结构,并通过本实验研究学习和掌握常用生物信息学软件的操作使用,进而为其他蛋白质三级结构预测提供依据。1.3国内外研究现状蛋白质空间结构预测的目的是为大多数蛋白家族提供模板结构。随着服务器数据的增加,结构基因组对结构预测的要求愈显必要7。虽然蛋白结构的预测并不能完全替代在实验中实测的蛋白质结构,但会缩小从已知核酸到蛋白质结构之间的差距。对蛋白质空间结构预测的研究将会帮助人们系统深入地理解生物信息从DNA到具有生物活性蛋白质传递的过程,使中心法则得到更完整的阐明,从而为今后设计具有新型生物功能的蛋白质打下基础8。从蛋白质的氨基酸序列预测蛋白质三维结构的方法可以分为两类9:一类是基于知识的蛋白质结构预测(knowledge-based protein structure prediction),也称为启发式的预测方法(heuristicmethod of prediction),它根据模式匹配的原则,利用蛋白质数据库中现有的蛋白质结构数据建立适当的参数,在蛋白质一级结构的基础上采用这些参数进行评价、优化和预测10;另一类是基于模拟的蛋白质结构预测(simulation-based protein structure prediction),用于研究折叠过程,即蛋白质从没有功能的、分散的、展开的蛋白质结构(denatured form)折叠成有功能的、自然态的蛋白质结构(native form)的过程,来进行蛋白质结构的预测11。这两类预测方法各有优缺点:第1类方法比较简单,速度较快,但是需要找到同源性符合要求的模板12;第2类方法运用分子物理学和分子化学的首要原则(first principles),直接从一级结构预测三级结构,该过程需要计算大量的自由能方程13,第2类方法运算量大而复杂,但在第1类方法无法搜索到合适的模板时,它是唯一的选择。因而,在蛋白质结构预测过程中,这两类方法通常一起配合使用,以突破各自的局限性而达到更高的准确度14。2实验材料与实验设计2.1实验材料网上获取拟南芥乙醇脱氢酶蛋白质序列2.2实验设备安装有DNAstar、SeqVerter、Cn3D、RasMol等生物学软件的计算机2.3实验设计3实验内容3.1蛋白质序列检索在用分子生物学软件进行序列分析之前,我们必须获得相关的序列。目前网络上有许多分子生物信息数据库,如美国国立生物技术信息中心GenBank、欧洲分子生物学实验室(EMBL)、日本的DNA数据库(DDBJ)等15。这三个数据库每天都在交换数据,从而使他们的数据保持同步,因而从理论上讲,查询其中的任何一个数据库均可得到相同的结果。这些数据库均包括核酸和蛋白质两大类,都以核苷酸碱基顺序或氨基酸顺序为基本内容,而且这些数据库里的序列内容既包括序列排列顺序,又包括注释说明,如序列名称、说明、编号、关键词、种属来源、学名、文献、特性表、碱基组成等,为人们提供了相当大的方便。3.1.1序列检索在相关数据库开发的同时,对应的检索系统也相应的发展了起来,如著名的NCBI开发的Entrez系统和EBI开发的序列检索系统SRS。一般情况下,在查找序列时,只要进入NCBI的主页/,通过在线查找关键词搜索数据库中的专业资料即可16。进入NCBI的主页/,在Database的下拉框中选择关键词Protein数据库,输入Arabidopsis thaliana alcohol dehydrogenase(拟南芥乙醇脱氢酶),点击GO进行搜索。选择 gi|22136298|gb|AAM91227.1| alcohol dehydrogenaseArabidopsis thaliana,点击Send to File保存为gb文件格式的序列,命名为AAM91227.gp,既为所搜索的拟南芥乙醇脱氢酶的蛋白质序列。3.1.2序列获取及其格式为了分析核酸和蛋白质序列中所含有的大量的生物信息,众多研究机构开发了专业性或综合性的数据库。这些数据库中最著名的有GenBank、EMBL、DDBJ、SWISS-PROT等,同时,各研究机构也开发了众多的分子生物学软件来分析这些核酸和蛋白质序列中的信息,这样就出现了多种序列的记录格式,造成了核酸序列与蛋白质序列格式的千变万化。所有必须对所保存的序列进行格式分析,为以后的生物信息学分析打下基础。GenBank17是有NCBI维护的DNA和RNA序列数据库,是国家核酸序列数据库合作项目的一部分,它与EMBL和DDBJ一起构成了当今世界上最权威最广泛的数据库,现对AAM91227.gp序列的信息及字段含义分析如下:LOCUS AAM91227 390 aa linear PLN 07-AUG-2002序列的座位名称(序列性质:名称、长度等)DEFINITION alcohol dehydrogenaseArabidopsis thaliana.序列定义、简短描述ACCESSION AAM91227GenBank登录号VERSION AAM91227.1 GI:22136298序列版本号SOURCE Arabidopsis thaliana(thale cress)序列来源ORGANISM Arabidopsis thaliana序列来源物种Eukaryota; Viridiplantae.REFERENCE 1(residues 1 to 390)参考文献AUTHORS Tripp,M., Southwick.作者TITLE Direct Submission题目JOURNAL Submitted(01-JUL-2002) DNA杂志、年卷期FEATURES Location/Qualifiers序列特征描述ORIGIN后接序列 AAM91227.gp1 mengnsssdn ksshkpirck aavsrkagep lvmeeimvap pqpfevriri ictalchsdv61 tfwklqvppa cfprilghea igvvesvgen vkevvegdtv lptfmpdcgd cvdckshksn121 lcskfpfkvs pwmprydnss rftdlngetl fhflnvssfs eytvldvanv vkidssipps181 racllscgvs tgvgaaweta kvekgstvvi fglgsiglav aegarlcgas riigvdinpt241 kfqvgqkfgv tefvnsmtce knrvsevine mtdggadycf ecvgssslvq eayaccrqgw301 gktitlgvdk pgsqicldsf dvlhhgkilm gslfgglkak thipillkry lsneleldkf361 vthemkfeei ndafqllleg kcircvlwmg3.2蛋白质序列分析3.2.1基于一级结构的预测蛋白质一级结构是指多肽链的氨基酸残基排列顺序,也是蛋白质最基本的结构。它是由基因上遗传密码的排列顺序所决定的,各种氨基酸按遗传密码的顺序通过肽键连接起来18。对蛋白质的物理化学性质的预测是目前了解未知蛋白质的一个重要手段,这对实验工作具有一定的参考价值。人们已经充分了解了组成蛋白质的20个氨基酸的物理化学性质,并由此产生许多预测工具来预测未知蛋白质的性质以及通过已知性质来预测蛋白质,这些工具可以在ExPASy的服务器上获得。蛋白质性质的预测蛋白质的基本性质包括蛋白质的相对分子质量、氨基酸组成、等电点、消光系数等。PorParm工具(www.expasy.ch/tools/proparam.html)这是用于计算蛋白质的各种物理化学性质的工具,包括蛋白质的相对分子质量、理论pI值、氨基酸组成、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等。在进行蛋白质性质预测之前,需对序列用DNAstar软件进行格式转换。DNAstar中的EditSeq是一个序列格式软件,启动DNAstar中的EditSeq,在出现的窗口中点击引入aam91227.gp将其保存为即可。进入www.expasy.ch/tools/proparam.html,将序列粘贴到对话框之后可以单击Compute parameters按钮,可以得到蛋白质的基本理化性质。结果如下:Number of amino acids: 390Molecular weight: 42568.1Theoretical pI: 5.90Amino acid composition:Arg(R) 14 3.6%Asn(N) 15 3.8%Asp(D) 18 4.6%Total number of negatively charged residues(Asp+ Glu): 45Total number of positively charged residues(Arg+ Lys): 39Atomic composition:Carbon C 1883 Hydrogen H 2977 Nitrogen N 503Oxygen O 561 Sulfur S 29Formula: C1883H2977N503O561S29Total number of atoms: 5953Estimated half-life:The N-terminal of the sequence considered is M(Met).The estimated half-life is: 30 hours(mammalian reticulocytes, in vitro).20 hours(yeast, in vivo).10 hours(Escherichia coli, in vivo).Instability index:The instability index(II) is computed to be 39.75This classifies the protein as stable.上述结果表明,拟南芥乙醇脱氢酶蛋白质序列由390个氨基酸组成,相对分子质量是42568.1,等电点为5.90,半衰期是30个小时,不稳定系数为39.75,由此确认该蛋白质是一个稳定的蛋白质。3.3二级结构预测二级结构是指螺旋与折叠等规则的蛋白质局部结构元件19。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白质分为全蛋白质、全蛋白质、+蛋白质和/蛋白质等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,通过人工神经网络、遗传算法等技术构建预测方法。3.3.1 DNAstarDNAstar是跨平台的核弹级的序列分析软件,其中的Protean模块可用来预测蛋白质的二级结构20。启动DNAstar中的Protean,打开,选择Analysis/Show Available Methods,从而显示出More Methods,点击下拉菜单中选择Secondary Structure/Deleage&Roux,对蛋白质的二级结构类型进行预测。这样,Deleage&Roux就进入了方法帘中,单击名称左面的+号使之展开,选择其中一个方法:Alpha,Regions、Beta,Regions、Turn,Regions、Coil,Regions,将其拖入到分析窗口,预测的蛋白质螺旋区域即展示在分析窗口中。如图3.3.1图 3.3.1二级结构预测图中显示了序列的-螺旋(-helix)、-折叠(-sheet)、转角(turn)以及卷曲(coil)的分布情况。A代表-螺旋,图中用红色表示;B代表-折叠,图中用绿色表示;T代表转角(turn),图中用蓝色表示;C代表卷曲(coil),图中用橙色表示。3.3.2 Nnpredict(/nomi/nnpredict.html)Nnpredict21是用于预测氨基酸序列中各个氨基酸对应的二级结构的程序。它以双层反馈人工神经网络为运算基础,预测结构中用H表示-螺旋,E表示-折叠,表示转角结构。为了预测准确,Nnpredict还使用了三级结构参数,就是选择蛋白质三级结构分类簇,即是全型、全型、/型。进入/nomi/nnpredict.html网站,粘贴序列,点击submit结果如下:Tertiary structure class:nonetructure prediction(H= helix, E= strand,-= no prediction):-EHHHHH-HHHHH-EEEEEEEEH-E-EEEE-H-HHEEE-HHHEEEE-EEEHHH-EEEE-EEE-E-HHHHHHHH-EEEEEE-EEHHHHHHHH-EEEE-E-EEE-H-EHHHHH-EEEEE-HHHHHHHH-EEEE-EEE-HHHHH-HEE-HH-HHHHHH-HHHHHHHHHHHH-HHHHHHHHHHHH-HHHHHH-在预测中我们选择了未知三级结构簇(none)作为参数,这样对未知蛋白质的预测不会过于偏激。预测的结果中,其位置和氨基酸的位置是一一对应的。从显示结果可知,这个蛋白质有94个-螺旋,63个-折叠,133个转角结构。对于单个氨基酸序列预测为-螺旋的构象,可以不考虑为真正的螺旋,可以说这是一个富含-螺旋的蛋白质。如果选择全或者全,则程序将会出现全是-螺旋或者全是-折叠的二级结构,如下:Tertiary structure class:全型Secondary structure prediction(H= helix, E= strand,-= no prediction):-H-HHHHHHHHH-HHHHHHHHHHHH-HHHHHHHHHHHHH-HHHHH-H-H-HHHHHHHHHHHHHHHHHHHH-HH-H-HH-HHHHHH-HHHHHHHHHHHHHH-HHHHHHH-HHHHHHHHHHH-HHHHHHHHH-HHHHHHHHHHHHHHHHHHHH-HHHH-HHH-HHHHHHHHHHHHHHHH-HHHHH-HHHHHHHHHHHH-HHH-H-H-HHH-H-HHHHHHHHHHHH-H-HHHHHHHHHH-HHHHHHHHHHHHHH-HHHHHHHHHHHHHHHHHHHHHHTertiary structure class:全型Secondary structure prediction(H= helix, E= strand,-= no prediction):-EEEEEE-EEEEEE-EEEEEEEEEEE-EEEEE-EE-EEEEEEE-EEE-E-E-E-E-EEEEEEE-EEEEEE-EEEEE-EEEEEE-EE-EEE-EE-EEEEEEE-EEEEEE-EE-EEEEEEE-EEE-EEE-EEEEE-EE-E-EEEEEE-EEE-EEEEE-EEEEE-EEEE-EE-EEEEEEE-EE-E-EEEEEE-E-EE-EEEEE-EEEEE-上述结果表明,预测含有二级结构的区域基本没有很大的变化,只是在细节里有很多不同,但是在全型和全型区域的二级结构则发生了根本性的变化。3.3.3 RasMolRasMol22是一个观看分子三维立体结构的软件,其最大的特点是界面简单,基本操作简单,运行非常迅速。双击Raswin图标,运行RasMol,选择file/open,打开一个描述分子立体结构的原子坐标文件2CF6.pdb,选择colours/structure,此时将用不同的颜色来表示蛋白质二级结构,结果如图3.3.2图 3.3.2蛋白质二级结构图为拟南芥乙醇脱氢酶二级结构的空间结构,在图中-螺旋用深红色表示,-折叠用黄色表示,转角用淡蓝色表示,其他残基用白色表示。总的来说,二级结构预测仍是未能完全解决的问题,一般对于螺旋预测精度较好,对折叠差些,对除螺旋和折叠等之外的无规则二级结构则效果很差。这是因为单一的序列信息只能提供每个氨基酸残基周围的残基信息而不能提供空间结构信息。局部的二级结构往往是蛋白质的自身折叠信息,而这些无法从单一的序列信息中获得。目前已有这样一个共识,即在有大量、高质量的多序列结果的情况下,蛋白质二级结构的预测将非常精确。3.4三级结构预测蛋白质的三级结构23(tertiary structure)是指多肽链借助各种相互作用力盘绕成具有特定肽链走向的紧密球状构象。维持蛋白质三级结构的作用力主要是氢键、疏水相互作用、离子键(即盐键)、范德华力以及共价二硫键。某些分子量较大的球状蛋白质在空间上可明显分出两个或多个相对独立的区域,这些区域称为结构域(structure domain),结构域的缔合形成具有一定空间结构的蛋白质。结构域也是功能单位,通常多结构域蛋白质中不同的结构域是与不同的功能相关联的。常见的结构域约含100至200个氨基酸残基,具有三维构象,可独立行使生物学功能。同一蛋白质的结构域之间,或以一段柔性肽链连接,或相互紧密接触。三级结构是蛋白质结构预测的最终目的。由于蛋白质结构尤其是高级结构决定蛋白质的功能,因此要充分研究蛋白质的功能,就要把结构研究清楚。生物信息学发展到现在已经有能力对一个未知结构的蛋白质序列做出一系列分析最终得出一个三级结构模型,这样就可以大大减少研究人员的工作量,而且对于一个可信度比较高的预测,如同源建模,对研究蛋白质的生物学活性中心有很好的指导作用24。3.4.1 Cn3DCn3D25,see in 3D的缩写,是一个生物分子的三维结构、序列以及序列比对结果的可视化工具。它可以将结构与序列的信息紧密联系起来,允许你在线作为客户断可视并交互的贯彻NCBI Entrez数据库的立体蛋白质序列,也可用来离线贯彻蛋白质序列与序列排序。Cn3D读取MMDB格式文件,不能读取PDB格式文件,取而代之使用NCBI的MMDB数据库,这就是与RasMol的最大不同。通过访问/,选取关键词structure,输入Arabidopsis thaliana alcohol dehydrogenase,进行搜索,在搜索结果中点击2CF6,得到MMDB 44315,PDB 2CF6,分别下载MMDB和PDB格式的文件并保存。启动Cn3D4.1,选择file/open,在出现的窗口中选择文件3,此时出现两个窗体:主窗体是Cn3D结构窗体,其中显示蛋白质的三维结构如图3.4.1。选择style/rendering shortcuts/space fill,选择style/coloring shortcuts/domain,此功能将影响结果中不同部分的形状和颜色,以空间填充的形式显示结构域,如图3.4.2在图3.4.1中表示-螺旋,表示-折叠。图3.4.2为图3.4.1的填充图,均表示了拟南芥乙醇脱氢酶蛋白质的三维结构。图3.4.2更直观的显示出蛋白质的三维结构模型,由图中可明显看出蛋白质是由相互紧密接触的结构域缔合而成的空间结构。3.4.2 RasMolRasMol26是一个观看分子三维立体结构的软件,其最大的特点是界面简单,基本操作简单,运行非常迅速。双击Raswin图标,运行RasMol,选择file/open,打开一个描述分子立体结构的原子坐标文件2CF6.pdb,当鼠标移动到图象区,鼠标的形状便成为白色的十字,以方便选择所要显示的对象,如图3.4.3。用鼠标的十字移动到想要选取的对象上,按下左键,程序便识别出鼠标所指的对象,同时在命令行窗口中,显示原子名、序号、残基名与残基号。按下鼠标左键可以任意旋转分子,按住鼠标右键,移动鼠标可以改变分子X、Y轴的位置。按住键盘上的shift键,同时按住鼠标左键,移动鼠标可以对图象进行放大、缩小操作。选择display/ball/stick,程序将用球棒模式表示,如图3.4.4。在图3.4.3中-螺旋用深红色表示,-折叠用黄色表示,转角用淡蓝色表示,其他残基用白色表示。图3.4.4为图3.4.3的球棒模式填充图,均表示了拟南芥乙醇脱氢酶蛋白质的三维结构,图3.4.4更直观的显示出蛋白质的三维结构模型。3.4.3 SWISS-MODELSWISS-MODEL27:http:/www.expasy.ch/swissmod/swiss-model.html自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。进入http:/www.expasy.ch/swissmod/swiss-model.html,搜索结果如图3.4.5G图3.4.5蛋白质的三维结构图3.4.5中表示-螺旋,表示-折叠。从3D图上可以明显看出,蛋白质明显分为中段的Sheet片层结构富集区和靠近C末端Helix螺旋富集区两个部分。其中片层富集区又分为两个部分,其间由一个带转角(turn/loop)的长链(coil)连接。而连接片层区与螺旋区的,是一个仅有两个转角的长coil。在片层区的前端(靠近N端),还有一个带有一个小螺旋的长链。4.讨论蛋白质结构预测是后基因组时代的一项重要任务,随着人类基因组计划的顺利实施,已完成测试的蛋白质序列急速增加,理论预测蛋白质结构势在必行。尽管上世纪50年代初Anfinse就提出了蛋白质特定的空间结构是由其氨基酸排列顺序所决定的假说,即蛋白质的一级结构决定其空间结构,但是目前人们试图从蛋白质一级序列直接预测其空间结构时,仍遇到了种种困难,预测准确率一直不高。在这种情况下,蛋白质三级结构预测就显得尤为重要,它不仅成为联系蛋白质一、二级结构和四级结构的纽带,而且也是从一级结构出发进而预测其空间结构的关键步骤。目前蛋白质三级结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省九江市少年宫科学动力机械课程(教学设计)-飞轮车
- 本章综合与测试教学设计-2025-2026学年高中信息技术粤教版2019选修4 人工智能初步-粤教版2019
- 2025年中考物理试题分类汇编(全国)声现象(第1期)原卷版
- 第二课 蒸茄子教学设计-2025-2026学年小学劳动粤教版劳动技术五年级上册-粤教版(劳动技术)
- 蓄电池讲解课件
- 蓄电池知识培训收获总结
- 2025年招聘洗碗工面试题及答案
- 2025年汽车驾驶员(技师)职业技能考试题及答案
- 2025年新疆社工考试题库及答案
- 葡萄酒类科普知识培训课件
- 财务共享模式下中储粮财务集中管理研究
- 2024-2025学年四川省成都市蒲江县蒲江中学高三上学期调研摸底考试数学试卷
- 【公开课】人体对外界环境的感知第1课时课件-2025-2026学年人教版八年级生物上册
- 山东省环境卫生作业计价定额编制说明
- 神经退行性疾病治疗药物讲课件
- (干货)虚拟股权激励方案设计及协议
- YC/T 593-2023打叶复烤加工服务能力评价办法
- 医美员工制度管理制度
- 大棚搭建用工合同范本
- T/CCS 059-2023智能化煤矿运维技术架构与流程
- T/CAQI 96-2019产品质量鉴定程序规范总则
评论
0/150
提交评论