蛋白质序列分析.ppt_第1页
蛋白质序列分析.ppt_第2页
蛋白质序列分析.ppt_第3页
蛋白质序列分析.ppt_第4页
蛋白质序列分析.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质序列分析 王兴平 n3 .1 蛋白质数据库介绍 n3 .2 蛋白质序列分析 n3 .3 蛋白质序列分析及结构预测策略 n3 .4 一级结构的预测 n3 .5 二级结构预测方法 n3 .6 其他序列分析工具 n3 .7 三级结构预测 n3 .8 蛋白质家族分析 内 容 3 .1 蛋白质数据库介绍 n蛋白质的结构主要分为四级, 一级结构、二级结构、三级结 构以及四级结构。依据这种结构层次, 将蛋白质数据库分为 : 蛋白质序列数据库:蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些 数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释 ; 蛋白质模体及结构域数据库:蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数 据库主要收集了蛋白质的保守结构域和功能域的特征序列; 蛋白质结构数据库:蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质 的结构测量数据为主; 蛋白质分类数据库:蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中 又有以序列比较为基础的序列分类数据库以及以结构比较 为基础的结构分类数据库之分。 特征:特征: 这些数据库种类有差别, 但内部是相互联系的, 每个 数据库都有指针指向其他数据库, 而且数据库之间的序列 以及相应的结构是共享的, 同一种蛋白质依次会出现在不 同的数据库, 这样的数据沟通有助于更深层地挖掘蛋白质 的内在生物信息, 这些数据库是融序列信息的索取、处理 、存储、输出于一身的。 3 .1 蛋白质数据库介绍 功能:功能: 随着网络资源的日益丰富, 蛋白质数据库不论其数 据为何种形式, 都具备3 种功能: n n 第一、对数据的注释功能。第一、对数据的注释功能。所有提交到数据库的数据都 要由作者或数据库管理人员进行注释方能发布。 n n 第二、对数据的检索功能。第二、对数据的检索功能。数据经注释之后, 访问者就可 以通过数据库网页上提供的搜索引擎进行搜索, 找到自己 所需的蛋白质信息。 n n 第三、对数据的生物信息分析功能。第三、对数据的生物信息分析功能。访问者一旦找到感 兴趣的蛋白质, 就可以运用数据库提供的生物信息分析工 具对蛋白质序列的未知数据进行预测, 如预测蛋白质的理 化性质, 预测蛋白质的二级结构, 多重序列比对, 等等, 因 此通过网上资源对蛋白质的生物信息做出比较完整的分 析是可以做到的。 3.1.1 3.1.1 蛋白质序列数据库蛋白质序列数据库 1. PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) nPIR 的建立源于20 世纪60 年代Margaret O . Dayhoff 从 事的蛋白质进化关系的研究工作, 起初的想法是通过对蛋 白质序列信息资源全面、高质、合理的编制来协助计算生 物学以及基因组学的研究。 n现在PIR 由美国国家生物医学研究基金支助, 隶属于 Georgetown 大学医学中心。由PIR、MIPS ( Munich Information Center for Protein Sequence,MIPS) 以及 JIPSD( Japan International protein Sequence Database , JIPSD) 协作建立并维护的PIR 国际蛋白质序 列数据库( PSD) , 它是目前国际上最大的公共蛋白质序列 数据库。 3.1.1 3.1.1 蛋白质序列数据库蛋白质序列数据库 nPIR-PSD 是一个综合全面的、非冗余的、专业注释的、 分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于 将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻 译而成的蛋白质序列、发表的文献中的序列和用户直接提 交的序列。 n以PIR-PSD 为基础, PIR 还衍生出PIRNREF、 iPROClass 以及其他PIR 辅助数据库, 为基因组学和蛋白 质组学提供了从序列到结构直至功能的完整分析工具。 n网址:/pirwww 课堂演示,网 页及认识数据库内容。 3.1.1 3.1.1 蛋白质序列数据库蛋白质序列数据库 2. SWISS-PROT/ TrEMBL数据库( /swissprot ) nSWISS-PROT 数据库是经注释的蛋白质数据库, 始建于 1986 年, 现在由瑞士生物信息研究所(Swiss Institute of Bioinformatics, SIB) 和欧洲生物信息研究所( European Bioinformatics Institute, EBI) 共同维护。 n它是ExPASy 网站的一部分, 数据库由蛋白质序列条目构成 , 每个条目包含蛋白质序列、引用文献信息、分类学信息、 注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊 位点和区域、二级结构、四级结构、与其他序列的相似性 、序列残缺与疾病的关系、序列变异体等信息。 3.1.2 3.1.2 模体以及结构域数据库模体以及结构域数据库 1. 模体数据库 (1)PROSITE 蛋白质家族及结构域数据库( /prosite/ ) nPROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征 属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋 白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通 过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序 列分析数据库。 nPROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。 3.1.2 3.1.2 模体以及结构域数据库模体以及结构域数据库 (1)PROSITE 蛋白质家族及结构域数据库( /prosite/ ) 同时数据库提供了序列分析工具: n ScanProsite 是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中 已提交的序列模式; n MotifScan 用于查找未知序列中所有可能的已知结构组件 , 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收 集的隐马尔可夫模式( HMM)。 3.1.2 3.1.2 模体以及结构域数据库模体以及结构域数据库 (2) PRINTS Fingerprint Database (www.bioinf.man.ac.uk/dbrowser/PRINTS/ ) n这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个 单一模体。 (3) BLOCKS ( / ) nBLOCKS 是通过一些高度保守的蛋白质区域比对出来的 无空位的片段。 3.1.2 3.1.2 模体以及结构域数据库模体以及结构域数据库 2. 蛋白质结构域数据库 (1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs) nPfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库, 其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。 (2) 蛋白质结构域数据库ProDom 网址是: http:/prodes.toulouse.inra.fr/prodom/doc/prodom.html (3) SMART nSMART 是一个简单的结构研究工具, 可对可转移的遗传因 子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家 族, 对这些结构域又在系统进化树分布、功能分类、三级结 构和重要的功能残基方面做了注解。 其网址是: http:/smart.embl-heidelberg.de/。 3.1.3 3.1.3 蛋白质结构数据库和结构分类数据库蛋白质结构数据库和结构分类数据库 1. PDB( protein data bank , PDB) /pdb/ nPDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒 等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据 来源于几乎全世界所有从事生物大分子结构研究的研究机 构, 并由RCSB 维护和注释。 2. CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html。 3. SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html 3.2 蛋白质序列分析 3.2.1 3.2.1 蛋白质序列信息的获取蛋白质序列信息的获取 1) 直接测序 2) 翻译编码的DNA序列 ORF Finder 3) 在数据库中搜索 n运用ID 号、入口号、条目号等搜索。 n运用关键词搜索 n其他方式搜索。如可以通过引用序列的文献、序列的 作者、序列提交的日期等进行搜索。 3.2 蛋白质序列分析 4) 蛋白质序列检索实例 n以PIR为例: /pirwww .2蛋白质序列的格式化蛋白质序列的格式化 n1) FASTA格式 n2) 序列文件格式 3.2 蛋白质序列分析 3.2.3 序列分析 1) 序列比对的打分系统( scoring system): 空位罚分 2) 序列数据库搜索 (1) BLAST ( basic local alignment search tool) (/BLAST/ ) BLASTp (2) FASTA (www.ebi.ac.uk/fasta33/ ) 3) 模体搜索 (1) PROSITE ( www.expasy.ch/prosite/) (2) ScanProsite 搜索 (/tools/scanprosite/) 4) 点矩阵 3.3 蛋白质序列分析及结构预测策略 3.3.1 实验数据 图3 .49 蛋白质序列分 析及结构预测流程图 3.3 蛋白质序列分析及结构预测策略 3.3.2 蛋白质序列数据 n目前大部分蛋白质序列是通过DNA 人工翻译过来的, 实 际上很少有人能获得真正的蛋白质, 因而实验证据就很难 直接获得, 因此对蛋白质序列初始分析是很有价值的。比 如通过一些序列分析工具进行蛋白质理化特性的预测、 修饰位点的预测等。 3.3 蛋白质序列分析及结构预测策略 3.3.2 蛋白质序列数据 蛋白质是否为跨膜蛋白质, 是否有跨膜片段。 n预测方法有:TMAP ( www.mbb.ki.se/tmap/index.html)、 TMHMM(CBS, Denmark, www.cbs.dtu.dk/services/TMHMM-1.0/)。 蛋白质是否包含“coiled-coils”结构。 n螺旋卷曲结构可以在“COILS server” ( /software/COILS form.html)上预测, 螺旋卷曲结 构在蛋白质结构中属于一种结构模体, 是一种两条蛋白质螺 旋链相互缠绕的结构, 常常出现在球蛋白以及螺旋卷曲蛋白 中。 蛋白质中是否含有低复杂度序列。 n蛋白质中经常含有多聚谷氨酸, 或者多聚丝氨酸等结构, 可以 用SEG 程序预测。 3.3 蛋白质序列分析及结构预测策略 3.3.3 序列数据库搜索 1) 相似性搜索 最常见的程序就是BLAST 2) 模体的搜索 n这是另一种序列搜索方法, 其目的是寻找蛋白质中结构域或者功能域。这 个方法不是给每个位置的氨基酸打分, 然后得到一个相似程度, 而是直接 描述关键的几个保守残基, 同时忽略其他位置的氨基酸多态性, 这些保守 的序列有时会称为“标志”( signature) ,就是所谓的模式序列( pattern ) 。 n例如有序列表示为“ H- FW-x- LIVM -x-G-x ( 5 )- LV-H- x( 3)-DE”, 这是描述一个DNA 结合蛋白质家族的, 可以理解为组氨酸, 接着是苯丙氨 酸或者色氨酸, 紧接一个氨基酸x, 然后可以是亮氨酸、异亮氨酸、缬氨酸 、或者甲硫氨酸 , 这样一段序列由于处于活性区域或者蛋白质的重要 结构区, 所以特别保守, 因此也是序列搜索的目标之一。 3.3 蛋白质序列分析及结构预测策略 3.3.4 结构域定位 鉴定蛋白质的结构域一般都要做以下几种分析: n(1) 探测序列与其他全序列之间有无同源性, 如果有, 那么这 是该段序列为域结构的很好证据, 然后进行结构数据库的搜 索, 也可以搜索注释好的数据库, 从而得到一些有关结构域 的说明。 n(2) 分析低复杂度的区域。 n(3) 跨膜区域 www.cbs.dtu.dk/services/TMHMM n(4) 卷曲螺旋结构( coiled-coil )。 n(5) 二级结构预测。 3.3 蛋白质序列分析及结构预测策略 3.3.5 多重序列比对 nEBI Clustalw Server (www.ebi.ac.uk/clustalw/index.html) nDNAMAN 软件 n系统聚类树构建 3.3.6 同源模建 3.4 基于一级结构的预测 n这些工具可以在ExPASy 的服务器上获得, 数据可以通过序 列文本、电泳图谱或者质谱图等形式输入。 3.4.1 蛋白质性质的预测 n蛋白质的基本性质包括蛋白质的相对分子质量、氨基酸组 成、等电点( pI )、消光系数等。 1) ProtParam工具(www.expasy.ch/tools/protparam.html) 这是用于计算蛋白质的各种物理化学性质的工具, 包括蛋白 质的相对分子质量、理论pI 值、氨基酸组成、原子组成、 消光系数、半衰期、不稳定系数以及总平均亲水性等。 2) Compute pI/Mw工具(www.expasy.ch/tools/pi_tool.html 3.4 基于一级结构的预测 3.4.2 蛋白质的鉴定 1) AAComIdent (www.expasy.ch/tools/aacomp/ ) n这是通过氨基酸组成来鉴定未知蛋白质的工具,这个程序 是通过将未知蛋白质的氨基酸组成测量值与数据库中蛋白 质的氨基酸组成的理论值相比较预测蛋白质。通过比较每 个蛋白质会得到一个分值, 这个分值表示未知蛋白质与已知 蛋白质之间的差异程度。 n输入使用者的E-mail 地址以便收到结果。 2) Pept ideMass工具 (www.expasy.ch/tools/peptide- mass.html ) n该工具是用于设计多肽图谱实验使用的, 3.5 二级结构预测方法 3.5.1 3.5.1 基于统计的预测方法基于统计的预测方法 1) Chou- Fasman法 n这个算法是一个应用比较普遍的蛋白质二级结构预测方法, 是从氨基酸序列预测二级结构, 简单而且精确度比较高 2) GOR法( /gor/ ) 3) 最小邻近法 4) 马尔可夫模型(Markov models ) 隐马尔可夫模型( HMM) 5) 人工神经网络法 3.5 二级结构预测方法 3.5.1 3.5.1 基于统计的预测方法基于统计的预测方法 .2 基于知识的预测方法基于知识的预测方法 1) Lim方法 nLim 方法是一种物理化学方法。这一方法考虑了氨基酸残基 的物理和化学性质, 如残基的亲水性、疏水性、带电性以及 体积的大小, 同时考虑与邻近残基间的相互作用, 从而制定 出一套预测规则。 2) Cohen方法 这个方法主要用于/ -蛋白质的预测, 3.5.3 3.5.3 混合方法混合方法 3.5 二级结构预测方法 3.5.4 3.5.4 蛋白质二级结构预测网站蛋白质二级结构预测网站 1) nnpredict (/nomi/nnpredict.html ) n预测结构中用“ H”表示螺旋, 用“ E”表示折叠, 用“ - ”表示转 角结构, 如果序列中含有非标准氨基酸代号, 程序将用“ ?”表 示, 以表明没有预测。 n同时, 为了预测准确, nnpredict 还使用了三级结构参数, 就 是选择蛋白质三级结构分类簇, 即全型、全型、/型。 2) predictProtein http:/www.embl-heidelberg.de/predictprotein/predictprotein.html 3.5.5 3.5.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论