




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、蛋白质序列分析 蛋白质序列分析与结构预测主要内容一、蛋白质性质预测二、蛋白质结构预测三、蛋白质结构3D视图观察/tools/#proteome 一、蛋白质性质预测在蛋白质的研究领域,蛋白质性质的研究是必要的,而且是非常基础的。以往都需要针对未知蛋白质进行一系列的实验摸索,比如pI,Mw等的测定,然后才有可能得到比较精确的结果,这样的摸索往往费时耗资。pI:等电位点,Mw:分子量现在人们已经充分地了解了组成蛋白质的20个氨基酸的物理化学性质,并由此产生许多基于序列以及结构的预测工具来预测未知蛋白质的性质以及通过已知性质来预测蛋白质。1,Compute pI
2、/Mw /tools/pi_tool.html Compute pI/Mw is a tool which allows the computation of the theoretical pI (isoelectric point) and Mw (molecular weight) for a list of UniProt Knowledgebase (Swiss-Prot or TrEMBL) entries or for user entered sequences 。序列gi|4506183|ref|NP_002779.1| proteas
3、ome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGSYSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEVKDKAFELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM结果
4、2,ProtParam tool ProtParam computes various physico-chemical properties that can be deduced from a protein sequence. No additional information is required about the protein under consideration。/tools/protparam.html 理化性质预测软件可预测参数ProtParam is a tool which allows the computation of
5、various physical and chemical parameters for a given protein stored in Swiss-Prot or TrEMBL or for a user entered sequence. The computed parameters include the molecular weight, theoretical pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index
6、, aliphatic index and grand average of hydropathicity (GRAVY) 。分子量、等电位点、氨基酸组成、原子组成、消光系数、估计半衰期、不稳定指数、脂肪指数、总平均亲水性 输入序列:NP_002779结果结果结果蛋白质的鉴定在对未知蛋白质进行理化性质分析之后,一般就可以对它进行一般性的鉴定,这样可以从性质上对蛋白质属于什么蛋白质作出一个判断。相应的工具软件通过输入未知蛋白质的氨基酸组成测量值与数据库中蛋白质的氨基酸组成的理论值相比较预测蛋白质。通过比较每个蛋白质会得到一个分值,这个分值表示未知蛋白质与已知蛋白质之间的差异程度。同时鉴定中还可以
7、掺入pI、相对分子质量、物种以及关键词等因素以获得更好的结果。3,AACompIdent tool /tools/aacomp/蛋白质鉴定软件About AACompIdent is a tool which allows the identification of a protein from its amino acid composition . It searches the Swiss-Prot and / or TrEMBL databases for proteins, whose amino acid compositions are c
8、losest to the amino acid composition given. AACompIdent是一种工具,它可以从蛋白质的氨基酸组成来鉴定蛋白质 。它搜索Swiss-Prot 和/或 TrEMBL,找到与给定蛋白质具有最接近氨基酸组成的蛋白质。 AAComIdent是通过氨基酸组成来鉴定未知蛋白质的工具。这个程序是通过将未知蛋白质的氨基酸组成测量值与数据库中蛋白质的氨基酸组成的理论值相比较预测蛋白质。通过比较每个蛋白质会得到一个分值,这个分值表示未知蛋白质与已知蛋白质之间的差异程度。然后击中的蛋白质通过分数的高低进行排列显示,同时鉴定中还可以掺入pI、相对分子量、物种以及关键词
9、等因素以获得更好的结果。输入的数据1,Amino acid composition of the protein to identify. 2,A name for this protein, so that you can recognize it later in the results. 3,The pI and Mw of that protein, if known, as well as error ranges that reflect the accuracy of these estimates. 4,The species or group of species for w
10、hich you would like to perform the search (example: HOMO SAPIENS or MAMMALIA). This will produce the list of proteins from this species, as well as a list of proteins independently of species. You may also just specify ALL for all Swiss-Prot / TrEMBL entries; If in doubt about the search term to use
11、, consult the Swiss-Prot list of species. 5,For scan in Swiss-Prot only: the keyword for which you would like to perform the search (example: ZINC-FINGER). This will produce the list of proteins matching this keyword. You may also just specify ALL for all Swiss-Prot entries; If in doubt about the ex
12、act keyword to use, consult the list of keywords used in Swiss-Prot. 6,Amino acid composition of a known protein, obtained in the same run as the amino acid composition of the unknown protein. This is for calibration; if you do not have a calibration protein, leave NULL. 7,The Swiss-Prot identifier
13、(ID) of the calibration protein (example: ALBU_HUMAN). 8,Your e-mail address. The search results will be mailed back to you automatically (this should take about 15 minutes). AACompIdent tool 输入界面结果4,信号肽预测工具线粒体蛋白质的定向转运 引自Molecular Biology of the Cell. 4th ed. 2002 信号肽(signal peptide),是引导新合成肽链转移到内质网上
14、的一段多肽,位于新合成肽链的N端,一般1630个氨基酸残基,含有6-15个带正电荷的非极性氨基酸,由于信号肽又是引导肽链进入内质网腔的一段序列,又称开始转移序列(start transfer sequence)。 真核生物基因的一般结构示意图Signal lP信号肽预测工具 http:/www.cbs.dtu.dk/services/SignalP/序列数据 /uniprot/Q9BS26.fasta Q9BS26|TXND4_HUMAN Thioredoxin domain-containing protein 4 - Homo sapiens (H
15、uman).MHPAVFLSLPDLRCSLLLLVTWVFTPVTTEITSLDTENIDEILNNADVALVNFYADWCRFSQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMKREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDMVYLGAMTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTI
16、NFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRHMYVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL图形显示 data序列NP_002779NP_002779gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiensMSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGLL
17、ADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGSYSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEVKDKAFELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM无信号肽5 5,跨模结构分析 跨膜结构一般在蛋白质结构中序列的相似性不大,但结构却极其相似,因此在序列搜索中可能没有很显著的结果,所以常用的BLAST之类的相似性或者同源性搜索就无效。G蛋白耦联型受体为蛋白耦联型受体为7次跨膜蛋白次跨膜蛋白 TMpred
18、TMpred /software/TMPRED_form.html算法简介 The TMpred program makes a prediction of membrane-spanning regions and their orientation. The algorithm is based on the statistical analysis of TMbase, a database of naturally occuring transmembrane proteins. The prediction is made using a
19、 combination of several weight-matrices for scoring 。 TMpred程序预测跨膜区和它们的方向。该算法是基于对TMbase的统计分析, TMbase是一个自然发生的跨膜蛋白数据库。作出的预测是通过几个权重计分矩阵的结合得到的。 序列gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiensMSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGL
20、LADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGSYSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEVKDKAFELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM结果6 6,卷曲螺旋预测 卷曲螺旋是控制蛋白质寡聚化的元件 这种结构中的两个螺旋通过其疏水性界面相互缠绕在一起形成一个十分稳定的结构 /software/COILS_form.html7 7,糖基化位点预测
21、 http:/www.cbs.dtu.dk/services/NetNGlyc/ The NetNglyc server predicts N-Glycosylation sites in human proteins using artificial neural networks that examine the sequence context of Asn-Xaa-Ser/Thr sequons. 二、蛋白质结构预测 蛋白质结构预测问题 序列结构功能.-Gly-Ala-Glu-Phe-.FUNCTION结构预测问题.-Gly-Ala-Glu-Phe-.FUNCTION?解决方法.-Gl
22、y-Ala-Glu-Phe-.FUNCTION! 寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射 蛋白质序列: 二级结构二级结构预测二级结构预测 1)二级结构预测概述 2)蛋白质二级结构预测方法(1)经验参数法(2) GOR方法(3) Lim方法(4) 同源分析法(5) 人工神经网络方法 3)利用进化信息预测蛋白质的二级结构1 1)二级结构预测概述蛋白质 序列:二级结构:QLMGERIRARRKKLK STHHHHHHHHHHHHT1)蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。2)二级结构预测问题是模式分类问题模式分类问题。3)二级
23、结构预测的目标:判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态,即三态。预测方法预测主要有两大类方法: (1)理论分析方法通过理论计算(如分子力学、分子动力学计算)进行结构预测。 (2)统计的方法(模式识别模式识别或模式分类模式分类)对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。预测方法发展 二级结构预测的方法大体分为三代:第一代是基于单个氨基酸残基统计分析:从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析:统计的对象是氨基
24、酸片段;片段的长度通常为11-21;片段体现了中心残基所处的环境;在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据 。预测方法发展 第一代和第二代预测方法对三态预测的准确率都小于70%,而对折叠预测的准确率仅为2848%,主要原因是只利用了局部信息。 第三代方法(考虑多条序列):运用长程信息和蛋白质序列的进化信息;准确度有了比较大的提高。2 2)蛋白质二级结构预测方法 (1)经验参数法蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85%各种二级结构非均匀地分布在蛋白质中可供参考的一些原则 有些蛋白质中含有大量的螺旋:如血红蛋白和肌红蛋白 而一些
25、蛋白质中则不含或者仅含很少的螺旋:如铁氧蛋白 有些蛋白质的二级结构以折叠为主:如免疫球蛋白可供参考的一些原则 每种氨基酸出现在各种二级结构中倾向或者频率是不同的,例如:Glu主要出现在螺旋中Asp和Gly主要分布在转角中Pro也常出现在转角中,但是绝不会出现在螺旋中。 可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。ChouChouFasmanFasman方法 介绍一种Chou 和Fasman在70年代提出来一种基于单个氨基酸残基统计的经验预测方法。 通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。公式 一个氨基
26、酸残基的构象倾向性因子定义为Pi = Ai / Ti (i= ,c, t)式中下标i表示构象态:如螺旋、折叠、无规卷曲、转角等;Ti是所有被统计残基处于构象态i的比例;Ai是A残基处于构象态i 的比例;Pi大于1.0表示该残基倾向于形成二级结构构象i,小于1.0则表示倾向于形成其它构象。例 数据库1000个残基,300个处于,其中残基A有100个,这100个残基中处于的有75个,则A对的倾向性因子5 . 2100030010075p课堂练习 假定数据库中有1830个残基, 780个处于螺旋态,1050个处于非螺旋态,库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150个 A 处于非
27、螺旋态。计算丙氨酸的的P值。1.448301780390240p倾向性因子乘以100。发现关于二级结构的经验规则延伸 成核区 延伸基本思想是在序列中寻找规则二级结构的成核位点和终止位点。扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止。(i i)螺旋规则延伸 螺旋核 延伸pp1,沿蛋白质序列寻找螺旋核。相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。2,从螺旋核向两端延伸直至四肽片段的螺旋倾向性因子的平均值 1.03,则预测为螺旋。(iiii)折叠规则相邻6个残基中若有4个倾向
28、于形成折叠,则认为是折叠核。折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05,则预测为折叠。延伸 折叠核 延伸(iii iii)转角规则。)转角规则。(2) GOR(2) GOR方法 是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响序列窗口序列窗口 中心残基中心残基窗口中各个残基对中心残基二级结构的支持程度(3 3)LimLim方法立体化学方法氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等,可根
29、据残基各方面的性质及残基之间的组合预测可能形成的二级结构“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。螺旋的形成规律 在一段序列中发现第i、i+3、i+4位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋。 当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。对于折叠的形成规律: 对于折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的折叠通常由连续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式。 原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠。(4) (4) 同源分
30、析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。(5) (5) 人工神经网络方法(6) 综合方法 综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程
31、序同时预测,综合评判得出一致结果序列比对与二级结构预测双重预测 首先预测蛋白质的结构类型 然后再预测二级结构3 3)利用进化信息预测蛋白质的二级结构 蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。 蛋白质二级结构预测软件系统PHD 第一步工作是形成同源序列的多重对比排列 第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。二级结构预测软件/tools/ gi|55743122|ref|NP_006735.2| retinol-binding protein 4, plasma precursor Ho
32、mo sapiens MKWVWALLLLAALGSGRAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQ MSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRL LNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 从校园网 “生物信息中心”进入NCBI, 在主 页横栏上选择:Structure,再在其栏中输入: “odorant binding protein” (1).在出现的蛋
33、白PDB-NO中选中、并点击:1OBP, 下载Cn3D后,显视OBP的三维图 (2).最后将OBP(PDB-NO:1OBP)与BETA乳蛋白(PDB- NO:1Bsq)用VAST做结构比对.三、蛋白质机构3D视图观察寻找寻找OBPOBP蛋白的蛋白的PDB-NOPDB-NO并显视并显视OBPOBP的三维图的三维图Find the PDB-NO of odorant binding protein (BOVINE)点击用鼠标拖动选择序列将将OBP(PDB-NO:1OBP)OBP(PDB-NO:1OBP)与与BETABETA乳蛋白乳蛋白(PDB-NO:1Bsq) (PDB-NO:1Bsq) 用用VASTVAST做结构比对!做结构比对!用鼠标拖动选择序列用用Cn3DCn3D的不同选项观察蛋白结构的不同选项观察蛋白结构 保存并独立显示各Cn3D图!复习思考题 1、 Compute pI/Mw 、 ProtParam tool 、 AACompIdent tool 、 SignalP 、 TMpred 这些软
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025上海租房合同自由交易版
- 邵阳市毕业考试卷及答案
- 水运市场营销策略研究考核试卷
- 木地板品牌形象与公关策略考核试卷
- 粮食仓储品种改良技术考核试卷
- 纺织品标准与法规考核试卷
- 组织学习与知识管理策略考核试卷
- 电气设备绝缘与接地知识考核试卷
- 粮食加工副产物综合利用考核试卷
- 焊接设备在金属建筑模板制造中的应用考核试卷
- 搬迁服务项目 投标方案(技术标)
- 2005室外给水管道附属构筑物阀门井05S502
- 浙江省宁波市镇海中学2025届高三数学下学期适应性考试试题含解析
- “双新”背景下高中信息技术单元整合教学实践
- 广东省佛山2024年中考一模数学试卷(含答案)
- 新能源发电技术 课件 第一章-新能源发电概述
- 心理健康《欣赏我自己》课件
- 上海市存志中学2024-2025学年中考一模英语试题含答案
- MTT 1114-2011 煤矿供电监控系统通.用技术条件
- 贵州省遵义市2019年中考数学试卷【含答案】
- 大学生心理素质训练智慧树知到期末考试答案章节答案2024年九江职业技术学院
评论
0/150
提交评论