生物信息论文.doc_第1页
生物信息论文.doc_第2页
生物信息论文.doc_第3页
生物信息论文.doc_第4页
生物信息论文.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学课程论文题目:应用生物信息学方法对未知序列R-2的性质和结构分析综述院(系)专 业生物科学年 级姓 名学 号2013年 7 月 9 日 第一章 生物信息学简介及实验研究内容1.1生物信息学定义生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。1.2实验研究内容现有一段编码未知蛋白的cDNA序列,利用生物信息学数据库和相关软件进行处理分析,内容包括其可能表达蛋白质的理化性质,所属蛋白质家族类型,蛋白质二级结构,亲疏水性及结构域的初步分析。第二章 序列分析的主要方法流程2.1找出开放阅读框和蛋白质序列应用DNAStar的Editseq查找R-2未知序列的开放阅读框(ORF)的位置、编码氨基酸个数。下图为基本操作流程:原始序列Goodies-reverse completereverse complete DNAORFSearch-findORFGoodies-translate DNA 氨基酸序列2.2 理化性质的分析ProtParam在线分析R-2未知序列翻译的蛋白的分子量及等电点。网址http:/www.expasy.ch/tools/protparam.html。应用signalP4.1在线,分析N端信号肽的切点位置,并判断是否为分泌蛋白。网址为http:/www.cbs.dtu.dk/services/SignalP/。2.3蛋白质家族及同源序列首先应用NCBI的ORF finder确定所属的蛋白质家族类型.应用NCBI Blast 在线查找R-2未知序列翻译的蛋白的同源序列。并选择感兴趣的若干序列用于同源比对。2.4 蛋白质二级结构预测及分析应用DNAStar的protean子软件包预测R-2未知序列翻译的蛋白的结构包括:螺旋、折叠、无规卷曲及转角。应用expasy的protscale预测R-2未知序列翻译的蛋白的亲水区及疏水区分布。网址为/tmp/scores2025.txt使用ExPaSy的SMART服务器分析R-2未知序列翻译的蛋白质的结构功能域。网址为http:/smart.embl-heidelberg.de/第三章 结果分析3.1原始序列、开放阅读框及蛋白质序列3.1.1原始序列(R-2序列)ggtatttttgtaccaacacgatgtcgcgccaagcttggatcgagactagtgcactgattgaatgcatttcggagtatgggaccaaatgttcctttgatactttccaaggactaacaattaatgacatttctactttatctaatttaatgaaccaaatttccgtggcgtcagtgggattcctgaatgacccaagaaccccgcttcaggctatgtcatgtgaatttgttaattttatttcaacggctgaccggcatgcgtacatgctgcaaaagaattggtttgactcagatgtagcgccaaacgttacaacagataatttcatagctacatacattaaacctcggttttcaagaacagtgtctgatgtactgcgccaggttaataattttgccttgcagccaatggaaaatccaaaactgatctccagacaacttggggttctgaaggcttatgatataccgtattcgacaccaattaatccaatggatgtggctagatcgtcagccaacgtagttggaaacgtgtcacagagaagggctctgtctacacccttgatccaaggggcacagaacgtaactttcatcgtttctgagtccgataaaatcatttttggaactagatcattaaatcctattgctccgggcaattttcagattaatgtaccaccatggtactcagacctgaacgtagttgacgctaggatttatttcactaatagcttcttaggatgtacaattcaaaatgttcaggtgaacgcggtcaacggtaacgacccagtcgcaaccattactgtgccgaccgacaacaacccctttatcgtcgatagtgactcagtcgtctcactgtcgctatcgggtggagccattaacgtaactaccgcagttaatttaactgggtatgcgatcgctattgagggtaagtttaacatgcaaatgaacgctagcccatcttactataccttgagttcactaacaattcagacaagcgtaatcgatgatttcggattatccgcatttttggaaccattccgaatcaggttgcgcgcttcaggacagactgaaatttttagtcagtcgatgaacactttgacagagaatttgattaggcaatatatgccagctaatcaggcggtaaatattgcttttgtatcaccctggtacaggttctcggagcgcgccagaactattctgacgtttaaccaacccctgctaccatttgcatcccgaaaattgattattagacatttgtgggtcataatgtcttttattgctgtttttggtaggtattacacagtaaactaaatctggtaatgagtgtgaatgccgacgcactaaccaccagcagtagaccatctttatatgttagattagtatagcgacgggtgatgacggcaatcaactcaagagttgaggagtatctcaacgtgctgactcacatgccatatactttgcgataatttcatcagtggactgtcgaaattcgaacgaggtacgcttcgcgctggattgaagggagtaggaggaaatgctgaaaccggagtgccagtaacaggcgggtcgtgtggtcacaaaaaatgat3.1.2开放阅读框对原始序列,通过DNAstar查找开放阅读框,并翻译成蛋白质。该基因cDNA全长1578bp,其中开放阅读框为1281bp,位置是从21-1301,共编码426个氨基酸。找到开放阅读框如下:atgtcgcgccaagcttggatcgagactagtgcactgattgaatgcatttcggagtatgggaccaaatgttcctttgatactttccaaggactaacaattaatgacatttctactttatctaatttaatgaaccaaatttccgtggcgtcagtgggattcctgaatgacccaagaaccccgcttcaggctatgtcatgtgaatttgttaattttatttcaacggctgaccggcatgcgtacatgctgcaaaagaattggtttgactcagatgtagcgccaaacgttacaacagataatttcatagctacatacattaaacctcggttttcaagaacagtgtctgatgtactgcgccaggttaataattttgccttgcagccaatggaaaatccaaaactgatctccagacaacttggggttctgaaggcttatgatataccgtattcgacaccaattaatccaatggatgtggctagatcgtcagccaacgtagttggaaacgtgtcacagagaagggctctgtctacacccttgatccaaggggcacagaacgtaactttcatcgtttctgagtccgataaaatcatttttggaactagatcattaaatcctattgctccgggcaattttcagattaatgtaccaccatggtactcagacctgaacgtagttgacgctaggatttatttcactaatagcttcttaggatgtacaattcaaaatgttcaggtgaacgcggtcaacggtaacgacccagtcgcaaccattactgtgccgaccgacaacaacccctttatcgtcgatagtgactcagtcgtctcactgtcgctatcgggtggagccattaacgtaactaccgcagttaatttaactgggtatgcgatcgctattgagggtaagtttaacatgcaaatgaacgctagcccatcttactataccttgagttcactaacaattcagacaagcgtaatcgatgatttcggattatccgcatttttggaaccattccgaatcaggttgcgcgcttcaggacagactgaaatttttagtcagtcgatgaacactttgacagagaatttgattaggcaatatatgccagctaatcaggcggtaaatattgcttttgtatcaccctggtacaggttctcggagcgcgccagaactattctgacgtttaaccaacccctgctaccatttgcatcccgaaaattgattattagacatttgtgggtcataatgtcttttattgctgtttttggtaggtattacacagtaaactaa3.1.3蛋白质序列下面是将上述查找到的开放阅读框翻译成蛋白质的结果。MSRQAWIETSALIECISEYGTKCSFDTFQGLTINDISTLSNLMNQISVASVGFLNDPRTPLQAMSCEFVNFISTADRHAYMLQKNWFDSDVAPNVTTDNFIATYIKPRFSRTVSDVLRQVNNFALQPMENPKLISRQLGVLKAYDIPYSTPINPMDVARSSANVVGNVSQRRALSTPLIQGAQNVTFIVSESDKIIFGTRSLNPIAPGNFQINVPPWYSDLNVVDARIYFTNSFLGCTIQNVQVNAVNGNDPVATITVPTDNNPFIVDSDSVVSLSLSGGAINVTTAVNLTGYAIAIEGKFNMQMNASPSYYTLSSLTIQTSVIDDFGLSAFLEPFRIRLRASGQTEIFSQSMNTLTENLIRQYMPANQAVNIAFVSPWYRFSERARTILTFNQPLLPFASRKLIIRHLWVIMSFIAVFGRYYTVN.3.2蛋白质的理化性质经过ProtParam计算蛋白的分子量为47422.0Da,氨基酸数为426,理论等电点pI为6.74。该蛋白的不稳定系数为41.9040,证明这类蛋白不稳定。亲疏水性为0.053,说明该蛋白疏水。氨基酸数: 426分子量: 47422.0等电点: 6.74总人数的带负电荷的残基(ASP +谷氨酸): 30总数量的正电荷残基(Arg +赖氨酸): 30原子组成:Carbon C 2128Hydrogen H 3316Nitrogen N 566Oxygen O 632Sulfur S 15分子式: C2128H3316N566O632S15原子总数: 6657消光系数:Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 48610Abs 0.1% (=1 g/l) 1.025, assuming all pairs of Cys residues form cystinesExt. coefficient 48360Abs 0.1% (=1 g/l) 1.020, assuming all Cys residues are reduced半衰期估计:The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro). 20 hours (yeast, in vivo). 10 hours (Escherichia coli, in vivo).不稳定系数:The instability index (II) is computed to be 41.90This classifies the protein as unstable.脂肪系数: 92.68亲疏水性: 0.0533.3信号肽预测经过signalP4.1 SignalP-HMM result预测该蛋白没有信号肽切割位点,因此可判断为非分泌蛋白(如图1).图1信号肽预测结果3.4所属蛋白质家族类型图2六框阅读图3蛋白质家族类型植物呼肠孤病毒外壳蛋白P8;这个家族是由几种植物呼肠孤病毒外壳蛋白P8序列。CD长度:426位得分:705.09 E值:0E + 00表1 与R-2基因序列同源的几个序列特征比较序列号同源性特征YP_001111366100%水稻瘤矮病毒衣壳蛋白AAO6425399%水稻瘤矮病毒衣壳蛋白ABC7553799%外壳蛋白P8 RGDV AAY1457899%外壳蛋白 RGDV AAY1458099%外壳蛋白 RGDV AAT9706555%未知的烟叶突缩病毒NP_62053451%水稻矮缩病毒外壳蛋白1UF2_P51%链P,水稻矮病毒(RDV)的原子结构YP_00279089149%外壳蛋白 Homalodisca丽蝇蛹集金小蜂呼肠孤病毒ADN6475849%外壳蛋白 Homalodisca丽蝇蛹集金小蜂呼肠孤病毒3.5蛋白质二级结构本实验应用DNAStar的protean子软件包的 Chou-Fasman算法预测该蛋白的二级结构,如(图3)所示:其中有8个螺旋,其中2个主要的螺旋分布在第1-15氨基酸之间和第293-307氨基酸之间;2个主要的折叠位于第154-159氨基酸,第397-420氨基酸;3个主要的转角分别位于第15-23氨基酸,第87-99氨基酸和第259-266氨基酸处(图3)。图3 DNAStar protean Chou-Fasman预测结果3.6蛋白质的亲水区及疏水区分布应用ExPaSy的protscale预测R-2未知序列蛋白的亲疏水性分布,如(图4)所示亲水区主要存在于第54-63氨基酸间和第379-391氨基酸之间的区域。疏水区主要位于第64-73氨基酸间,第268-299氨基酸间和第407-421氨基酸间。图4亲疏水性分析结果3.7蛋白的结构域分析应用ExPaSy的SMART结构域数据库分析,本实验分析的蛋白基因属于phytoreo p8超家族。下面是对该未知蛋白的结构域分析名称和来源蛋白质名称建议的名称:外壳蛋白P8备用名称(S):结构蛋白P8生物体水稻矮缩病毒(RGDV) 参考蛋白质组分类标识符10986 NCBI谱系分类病毒 dsRNA病毒 Reoviridae Sedoreovirinae Phytoreovirus病毒的宿主黑尾叶蝉(绿叶蝉)(selenocephalus尾)动物标本剥制术: 94400 水稻TaxID: 4530蛋白质的属性序列长度; 426 AA.序列的状态完整的蛋白质的存在在蛋白质水平上的证据一般注释(评论)功能衣壳蛋白自我组装形成一个T = 13衣壳对称外二十面体,直径约70 nm和260 P8三聚体组成的。在组装的病毒一样从寄主细胞分泌颗粒。亚基结构Homotrimer通过相似性. Homomultimer通过相似性亚细胞定位病毒的潜力。寄主细胞质的相似性。注意:在球形细胞质结构的周边地区,被称为病毒感染后的早期出现的工厂,并通过相似的病毒复制和包装网站。序列相似性. 属于植物呼肠孤病毒外壳蛋白P8家族本体关键字细胞成分寄主细胞质病毒粒子分子功能衣壳蛋白术语完整的蛋白质组蛋白质直接测序参考蛋白质组基因本体论生化过程病毒进入宿主细胞通过细胞膜的膜融合电子注释推断。来源:InterPro细胞成分宿主细胞的细胞质电子注释推断。来源:UniProtKB亚病毒衣壳电子注释推断。来源:UniProtKB千瓦病毒包膜电子注释推断。来源:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论