




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于图形表示的蛋白质二级结构的比较作者: 单位:大连交通大学摘要:蛋白质结构的比较已经成为当前生命科学研究的重要内容。本文给出了蛋白质二级结构的一种新的2-D图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用-螺旋、-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对1ayd等12个蛋白质二级结构进行相似性比较,得到了较好的结果。本方法简单快速,为蛋白质二级结构比较提供了新的手段。关键词:蛋白质二级结构;图形表示;特征序列频率;曲线拟合1 引言蛋白质是生物体内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命活动的重要物质基础,几乎一切生命现象都要通过蛋白质的结构和功能而体现出来。因此,在分子生物学中,深刻阐明蛋白质的结构和功能,是探索生命奥秘的最基本任务。具有相似结构的两个蛋白质,其氨基酸序列可能相差很大,甚至完全不同。原因在于,趋同进化作用使得两个不同进化源点出发的蛋白质可以折叠得到相似的空间结构。所以,需要在结构上对蛋白质进行比较以发现具有相似结构的蛋白质。蛋白质结构的比较已经成为当前生命科学研究的重要内容。通过比较蛋白质结构,可以发现蛋白质的共性,发现属于同一家族蛋白质的保守结构,发现与蛋白质功能密切相关的结构域。目前为止,蛋白质结构的比较有多种方法:球体法(球壳法)(BALL)、三维网格法(GRID)、球面映射法(SPH)和扇形法(SPH)1;蛋白质结构的拓扑比较可以较好地解决几何比较方法中由于蛋白质结构内部频繁的原子动态性而引起的问题2。Gilbert等采用模式匹配技术从TOPS图获得超二级结构的模式,从而获得结构域信息3。在分析点集的空间分布时,Voronoi图起着重要的作用,Poupon Anne利用Voronoi图来分析蛋白质结构问题4,5。张任给出了一种蛋白质二级结构序列的图形表示6,该方法追踪每一时刻之前的三种蛋白质二级结构单元的频率,然后将这三个频率按照一定的法则对应到平面上的一个点,再将这些点顺次连接起来,得到一个曲线,命名为S曲线。接着,他们利用S曲线来研究划分蛋白质结构。以上这些方法往往计算比较简单,空间占用大,虽然得到的比较结果不是很精确,但是有助于快速地剔除差异性较大的对象7。针对这些问题,本文提出了蛋白质二级结构的一种新的2-D图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用-螺旋、-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对1ayd等12个蛋白质二级结构进行相似性比较。2 蛋白质二级结构序列的2-D图形表示2.1蛋白质二级结构的特征序列 DSSP是一个二级结构标准化定义系统。DSSP根据蛋白数据库(PDB)中的原子坐标定义蛋白质二级结构、几何特征等,它将每一个氨基酸残基的二级结构定义为-螺旋、-折叠和无规则卷曲等结构。 图1 蛋白质1ayd的二级结构 图1给出了蛋白数据库(PDB)代码为1ayd的蛋白质二级结构,该蛋白质属于+结构类。在这个图中,波浪部分代表-螺旋,粗箭头部分代表-折叠,分别用H和E来描述,其余的无规则卷曲部分用C来描述。这样,一个蛋白质二级结构序列由3个抽象字符构成。以蛋白质1ayd为例说明,位置处在84至93这段部分的子序列和子结构如图2所示。图2 蛋白质1ayd的二级结构特征序列由DSSP方法得到12个蛋白质的二级结构序列,见表17。表1 12个蛋白质的二级结构特征序列PDB代码 二级结构序列1mbaCCCCHHHHHHHHHHHHHHHHCHHHHHHHHHHHHHHHCHHHHHHCCCCCCCCHHHHHCCCCHHHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHCCCCHHHHHHHHHHHHHHHHCCCCCCCCHHHHHHHHHHHHHHHHHHCCC1rcbCCCCCHHHHHHHHHHHHHHCCCCCCCCEEECHHHCCCCCCHHHHHHHHHHHHHHHHHHHCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCCCEEEHHHHHHHHHHHHHHHHHHHHC2hmqaCCCCCCCCCCCHHHCCCCCCCCHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHCCHHHCCCC1plcCEEEECCCCCCCCEECCEEEECCCCEEEEEECCCCCCCCEECCCCCCCCCCHHHHCCCCCCCCCCCCCEEEEECCCCEEEEEECHHHCCCCCEEEEEEC4fgfCCEEEECCCCEEEEECCCCCEEEECCCCCHHHCEEEEEEECCEEEEEECCCCEEEEECCCCCEEEECCCCHHHCEEEEECCCCCEEEEECCCCCCCCCCCCCCCCCCHHHCCCCCHHHCEEEEC1noaCCCEEEEECCCCCCCCCEEEEEEECCCCCCEEEEEEEEEEECCEEEECHHHCEEEECCCCCCEEEEEECCCEEEEECCCCCEEEEEECCCCCEEEEEECCCCCCCCCEECCCC1shaCCCCEEECCCHHHHHHHHCCCCCCCCCEEEEECCCCCCCEEEEEEEEECCCEEEEEEEEEEECCCCCEECCCCCEECCHHHHHHHHCCCCCCCCCCCCCCCCC1ubqCEEEEEECCCCEEEEECCCCCCHHHHHHHHHHHHCCCHHHEEEEECCEECCCCCCCHHHCCCCCCEEEEEECCCCC1aydCCCCCCCCCCHHHHHHHHHHHCCCCEEEEEECCCCCCCEEEEEEECCEEEEEEEEECCCCEECCCCCCCCCHHHHHHHHHHCHHHCEECCCEECCCCEECC1wsyaCHHHHHHHHHHCCCCCCEEEEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCC2pgdICCCCEEEECCCHHHHHHHHHHHHCCCCEEEECCCCHHHHHHHHCCCCCCCCEECCCHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCEEEEEEEECHHHHHHHCCEEEEEECCCCHHHHHHHHHHHCCCCCCCCCCCCCCCCCC CCCCCCEECCHHH2trxaCCCEEECCCCCHHHHCCCCCCEEEEEEECCCCHHHHHHHHHHHHHHHHCCCCEEEEEEECCCCCCHHHHCCCCCCCEEEEEECCEEEEEEECCCCHHHHHHHHHHHHC2.2蛋白质二级结构的2-D图形表示设是蛋白质二级结构序列的特征序列,我们给出一种蛋白质二级结构序列的“正方形”图形表示,首先定义一个映射,将G映射为一个点列,。其中: . (1)这种映射方式我们称之为HCE正方形模式。例如,利用(1)式可得到蛋白质1ayd二级结构特征序列的子序列CHHHCEECCC对应的点列:(0.5000,0.5000),(0.2500,0.7500),(0.1250,0.8750),(0.0625,0.9375),(0.5313,0.9688),(0.7656,0.4844),(0.8828,0.2422),(0.9414,0.6211),(0.9707,0.8105),(0.9854,0.9053),及平面上的2-D图,如图3所示。图3 蛋白质1ayd二级结构特征序列的子序列CHHHCEECCC的2-D图形表示(HCE正方形模式)利用(1)式得到表1中12个蛋白质的二级结构的2-D图形表示,见图4。图4 12个蛋白质的2-D图形表示(HCE正方形模式) H、C、E的全排列共有6种,所以可得到6种正方形模式,本文主要讨论HCE正方形模式,其它模式类似。从图4中,可以知道H落在图像的第一部分,C落在第二部分,E落在第四部分,这些点不会落在正方形以外,这样可以节省表示空间。3 2-D图形表示的应用3.1 二次曲线拟合 根据蛋白质二级结构特征序列的2-D表示,可得到表1中12个蛋白质二级结构特征序列的12个特征点列,利用对特征点列进行二次曲线拟合,得到了二次曲线的系数,见表2。表2 12条拟合曲线的系数PDB代码a b c1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0.1108 -0.1195 1.0024-0.0417 -0.0983 0.99510.1259 -0.1357 1.0029-0.2925 -0.0843 0.97860.0336 -0.6424 1.14700.1781 -0.7536 1.0540-0.9166 0.5495 0.9566-0.0969 -0.3897 1.0311-0.6673 0.2397 0.9909-0.8689 0.4687 0.9663-1.1844 0.7073 0.9694-0.6689 0.3363 0.98183.2蛋白质特征序列的频率描述蛋白质特征序列中H、C、E出现频率: (2)其中为在蛋白质序列中出现的个数,为序列的长度,通过(2)式,计算了12个蛋白质二级结构特征序列H、C、E出现频率,见表3。表3 12个蛋白质二级结构特征序列H、C、E出现频率PDB代码 1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0.7551 0.2449 00.6279 0.3256 0.04650.6667 0.3333 00.0707 0.5758 0.35350.0968 0.5081 0.39520.0265 0.4779 0.49560.1553 0.5340 0.31070.2368 0.4474 0.31580.2376 0.4653 0.29700.4182 0.3818 0.20000.3333 0.3889 0.27780.3927 0.4293 0.17803.3相似性分析利用特征序列中频率,及拟合曲线特征,构造蛋白质二级结构的特征向量,这样每一个蛋白质二级结构都对应一个特征向量v。要比较蛋白质二级结构之间的相似性,只要比较其对应的特征向量之间相似性即可。为说明此方法的适应性,以表1中12个蛋白质二级结构为例,利用表2、表3可得到12个蛋白质二级结构对应的特征向量。再通过计算特征向量之间的欧式距离来比较它们的相似性,即。 距离越小说明蛋白质二级结构相似性越高,否则,相似性不高。表1中12个蛋白质二级结构的相似性见表4。 表4 12个蛋白质二级结构的相似性表1mba 1rcb 2hmqa 1plc 4fgf 1noa 1sha 1ubq 1ayd 1wsya 2pgdI 2trxa1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0 0.2204 0.1270 0.9313 0.9793 1.1135 1.4301 0.7254 1.0673 1.2162 1.6242 1.00650 0.1824 0.7285 0.8728 1.0332 1.2342 0.5740 0.8604 1.0379 1.4490 0.81600 0.8469 0.8930 1.0312 1.3989 0.6422 1.0296 1.2084 1.6187 0.98530 0.6732 0.8407 0.8958 0.4240 0.5374 0.9056 1.2377 0.68880 0.2404 1.5399 0.3520 1.1511 1.4963 1.8495 1.27260 1.7204 0.5348 1.3377 1.6875 2.0364 1.46550 1.2545 0.4135 0.3368 0.3880 0.43860 0.8508 1.1779 1.5505 0.94880 0.3777 0.7084 0.22120 0.4121 0.24730 0.64700由表4可知,1mba和2hmqa最相似,2hmqa和1rcb比较相似,1rcb 和1mba比较相似,2trxa和1ayd比较相似,2trxa和1wsya比较相似性,1sha和1noa相似性不高,2pgdI和1mba相似性不高,2pgdI和2hmqa相似性不高,2pgdI和4fgf相似性不高,1sha和1noa相似性不高,2pgdI和1noa相似性不高。这些结果与图形表示一致,与文献7得到的结果基本一致。4 总结本文把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用-螺旋、-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对1ayd等12个蛋白质二级结构进行相似性比较,得到了较好的结果。本方法较其他方法的优点是充分利用空间,减少空间的浪费,简单快速,为蛋白质二级结构比较提供了新的手段。本文使用的方法只提取了部分特征量,丢失了一些信息,如,在图形表示中没有体现特征序列的顺序。对蛋白质结构比较的理论研究中将全面考虑能够表达其生物学意义的特征信息,将是我们以后继续研究的内容。5参考文献1 Akbar S, Kung J, Wagner R. Exploiting Geometrical Properties on Protein Similarity SearchC.In: Proceedings of 17th International Conference on Database and Expert Systems Applications(DEXA06),2006.228-234.2 Gilbert David, Westhead David, Viksna Juris, et a1.A computer system to per
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 优化评标专家管理制度
- 企业安装人员管理制度
- 企业防暴器材管理制度
- 中铁海外薪酬管理制度
- 企业风险责任管理制度
- 毕业论文论文提纲怎么写
- 有关健康的心理素质论文
- 产后修复店长管理制度
- 乡镇肿瘤报告管理制度
- 企业人员进场管理制度
- 【企业薪酬管理研究国内外文献综述4400字】
- 市政公用工程设计文件编制深度规定(2013年高清版)
- GB/T 19139-2012油井水泥试验方法
- GB/T 18314-2001全球定位系统(GPS)测量规范
- 工贸行业重点可燃性粉尘目录(2022版)
- 铁道概论试题及答案重要
- 空间几何中的平行与垂直 新高考 数学 一轮复习专项提升 精讲精练
- 近代史期末复习试题
- 教学设计 完整版:Summer holiday plans
- 2022年武汉市法院书记员招聘考试题库及答案解析
- DB34-T 4010-2021 水利工程外观质量评定规程-高清现行
评论
0/150
提交评论