蛋白质Cα原子接触数理论分析及_第1页
蛋白质Cα原子接触数理论分析及_第2页
蛋白质Cα原子接触数理论分析及_第3页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蛋白质 Ca 原子接触数理论分析及mod i 总 1 3 页- 本页仅作为文档封面,使用时请直接删除即可- 内页可以根据需求调整适宜字体及大小 -蛋白质 Ca 原子接触数统计分析及应用章社生,范宁,何康,王星武汉理工大学统计系,武汉430070 数字技术与应用*武汉理工大学自主创新研究基金资助批准号001 资助工程,*国家自然科学基金批准号资助工程作者简介:章社生,男 ,1955 岀生年,教授,博士, email: ; :余家头联盟小区 9-3-402, :摘要Ca 是蛋白质分子中重要原子,是蛋白质折叠和设计中重要研究对象。根据 a- 氨基酸 和Ca原子的理化特性,本文研究蛋白质中Ca原子空间

2、拓扑结构,引 入Ca原子接触数的概念,讨论了蛋白中 Ca原子数目比重、平均接触数以及平均接触数变化率。发现在蛋白质中,多于 65%C a 原子间距大于 3个原子单 位,间距在 4T0 之间 时,平均接触数变化率波动大,且 Ca 原子分布不均匀。关键字蛋白质; Ca 原子;接触数;数字特征;The statistical analysis and application of the contact number of Ca atomsZhang She-sheng 、 He Kang 、 Wang Xing 、 Fan Ning Department of Stat istics, Wuhan

3、 Uni versity of Techno logy, Financia I Iy supported by self-determined and innovative research funds of WUT(Grant No. 001)The granted project of the National Natural Science Foundation of Ch i na (Grant No.) Ema iI:AbstractC a p I ays an impor tant ro I e i n pro tein. as well as i n the study of p

4、rotein folding and design ? According to the physicaI and chemicaI properties of a-amino ac i d and C a atoms. the study of Protein topoIogy i n C a atoms i s concerned i n detail. With the introduction of the concept of contact number of C a atoms, the atomic number proportion of C a atoms i n prot

5、ein ? The average contact number and average rate of change of contact number are d i scussed respectively. Consequently. the interatomic d i stance of more than 65% of C a atomsoi s greater than 3 A ; a I so the average rate of change of contactnumber fluctuates dras ti ca I I y wit h i n the d i s

6、 tance bet ween 4 to10A? Add itionally. the d i stribution of C a atoms i s fairly uneven?KeywordProtein; C a atoms;contact number; digital features;1v 引言虽然基因组规定了蛋白质的氨基酸序列,但是,蛋白质只有折叠成特定的 空间 构象才能具有相应的活性和相应的生物学功能,蛋白质结构构象多样性导 致了不同 的生物学功能。研究蛋白质的结构,有助于了解蛋白质的作用,了解 蛋白质如何行 使其生物功能,认识蛋白质与蛋白之间的相互作用,这无论是对 于生物学还

7、是对于 医学和药学,都是非常重要的。目前,研究蛋白质结构普遍 使用的是实验,理论分 析和计算。学者江凡 1介绍了 X 射线晶体学、二维核磁 共振 (2D-NMR) 和低温冷 冻电镜等蛋白质空间结构的实验测定方法。应用这些方 法,已测定大量蛋白质空间 结构,并以 PBD 等文件形式贮存在公共数据库中,免 费供世界各地研究者使用。文 献 2应用统计分析方法,利用数据挖掘中的数据 分布拟合理论对生物科学领域中 的蛋白质侧链空间结构进行统计分析。以世界 上广泛使用的生物分子三维结构数据 库 PDB 为根底,利用残基侧链碳原子间距离 的统计分析方法,通过正交试验设计和 信息论中的嫡函数等相关知识 ?给出

8、了不 同位置、不同氨基酸残基种类对侧链结构的 影响. 文献 3-4 用统计和几何方法 给出了氨基酸在蛋白质空间结构中的深度计算 , 并利用 PDB 数据库得到了不同氨 基酸在蛋白质中的深度倾向性因子,并得到了这些 倾向性因子与氨基酸的物理、 化学综合特性的相关性质。文献 5就蛋白质结构预 测的方法和应用进行了综述 , 介绍了比拟建模、折叠识别、从头计算等 3 种方法及其 在结构基因组学研究、药 物设计、蛋白质设计中的应用,并且对蛋白质结构预测存 在的主要问题进行了讨 论指出了今后蛋白质结构预测研究重点在于优化比对算法 和计分函数以及膜蛋 白的结构预测 . 文献6以'' 相对嬌“

9、作为优化函数 . 仅用蛋白 质主链上的两两 连续的 C a 原子间的距离信息以及 20种氨基酸的接触势的一个扩展 形式,提出 了一个有效快速的折叠预测优化算法,对几个真实蛋白质做了算法测试? 预测构 象相对于它们天然结构的均方根偏差 (RMSD)为5?.为原子单位,本文坐标和 距离所用单位皆为原子单位,且省略书写单位符号。文献 6的工作说明 C a 原 子 在a-氨基酸中的重要作用决定着整体分子的性质与物理形态。但文献:6:没 有计算C a 原子的接触数及其数学特征。文献 7-9讨论了蛋白质的结构和性 质,认为 C a 是研究蛋白质的一个生不可缺少的原子,有必要进一步研究。因 而,应用数理统计

10、方法,研究蛋白质中Ca构成的空间拓扑结构及其数字特征有助于蛋白质的折叠预测和设计。本文将研究蛋白质中Ca原子,文中第二节在简述 Ca原子在蛋白质中的化 学 性质的根底上,给出C a接触数的定义;第三节讨论接触数的计算;第四节对 接触 数的计算结果进行分析。2、C a原子接触数理论分析蛋白质二级结构指蛋白质分子中某一段肽链的局部空间结构,即该段肽链主链骨架原子的相对空间位置,并不涉及氨基酸残基侧链的构象。而肽键平面是二级结构的根底,这些肽键存在于氨基酸之间。因此我们深入分析Q-氨基 酸,并且对其组成成分c a进行讨论。、a-氨基酸的分析a-氨基酸是蛋白质的主要组分,是生物体中最重要的氨基酸。蛋白

11、质分子是由上百或更多的作为单体缩合而成的由 20种a-氨基酸构成的多肽链组成 的。所谓a- 氨基酸是指氨基连在竣酸的 a位,-COOH和-NH2连接在同一个C原子上。a-氨基酸的立体结构除甘氨酸外, Ca原子上所连结的4个基团都不相 同,因此 存在立体异构体,其绝对构型见图 1。每个氨基酸或其残基中竣酸根 a位上的Ca原 子直接与氢原子、氨基和侧链 R基相连。图仁a-氨基酸结构通式图对于蛋白质分子的结构层次,蛋白多肽链往往不是一个完全伸展的链。肽键因具双键成分而无旋转的自由,但它周围的每个Ca原子与相邻两个肽键中 的氮和碳原子所形成的Ca-N和Ca-Ca单键都具有较大的盘旋余地,从而一个多肽键

12、可能存在于不计其数的构象或立体结构中,其中有些构象使未成键原子间形成较多较强的氢键并产生其他能使整个分子趋于稳定的相互作用。、Ca原子分析Ca原子指的是对应残基上最接近談基的碳原子,是主链骨架的组成原子。在Q-氨基酸中,如图2所示,Sa原子连接着4个不同类别的原子或 基团:一个氨基、 一个竣基、一个氢原子略去氢原子和一个条侧链。图2、Q-氨基酸结构示意图.Ca原子接触数概念在一个蛋白质分子中,Ca原子被视为主链的关节,起到了"桥梁的作用。然而Ca原子分布散布于整个分子空间如图 3。假设想对化学键、转角等进行深入分析之前,必须先初步掌握该原子的分布情况、转角特点等。为了方便问题研究,我

13、们引入接触数的概念。图3、肽键平面和C a示意假设: 某个蛋白质分子包括N个原子,其中有n个Ca原子,记为CA1. CA2,,CAn。 所有的原子散布在蛋白质分子空间。简化处理分子结构,选择以原子为基准的立体空间结构不考虑其他的基团。接触数的定义:对于第i个Ca原子CAJ坐标以CAi为球心,为半径作一个球Q,统计Q内部包含的C a原子的个数不包括 CAi,记为K,即球Q内部除CAi外包含 有K,个Ca原子。那么我们称 K,为CAi原子的接触数contact number 。令 1 HK 七 K,那么丘为该蛋白质分子 Ca原子的平均接触数。显然,K,及斤是关于r的增函数不是严格递增,表示为:K

14、产 KO K = Kr3、接触数计算方法、数据预处理1导入目标数据。即翻开已有的 1653 个蛋白质分子 PDB 文件,选择每个分 子中所有 ATOM 的相应数据导入。2提取与统计数据。重点利用 PDB 文件中原子尤其是 Ca 原子的信息。 3.2、蛋白质平均接触数的计算 对某蛋白质分子,从已提取出来的数据中读取原子坐标信息。构造距离矩阵仏 h 。其中心表示 CAi 与 CAj 之间的距离,即如=J 召一& 2+ 必一兀+ 勺一勺2对于每一个 Ca 原子 CAi, 以其为球心,求在半径为 / 时,该原子的接触 数“。? /? = card y ?, 丿 ? = 1,2,f 一 1J +

15、1,? ,/?card A表示集合A中元素的个数。3计算该蛋白质分子 C a 原子的平均接触数。K('七 K"l-i4 计算该蛋白质分子所有 C a 原子接触数的方差:1-1(5)计算取不同值时,平均接触数斤()以及接触数方差W/r (r),并绘制疋(r) 1,Var (rYr 曲线。(说明:从r=1开始,以1为步长增加,直到调整r恰好将所有的Ca原子包 括即结束)4、数据结果分析对1653个蛋白质PDB数据处理计算,将结果进行分析,得到以下的结论:、对所考察蛋白质的整体分析(1)C册子数目百分比:蛋白质分子由4个根本原子C,H,O. N组成。在蛋白质中,Ca原子数量为蛋白

16、质中原子数 量的百分比在范围内,尤其集中在11%-14%范围,见图4 ; 1653个 蛋白质分子平均百分比为,所占比重不大。12C0图4、所考察蛋白分子中Cct原子所占百分比分布图(2)平均接触数:在相同的半径下,对所考察的全部蛋白质分子的平均接触数求均值,结果见表1。表仁所考察蛋白质在不同半径下平均接触数的均值r12345678910Kr11121314151617181920k结合上表和图5,可以看出,在一个C a原子的半径为3au的球空间内几 乎没有其他的 CQ原子出现。一般情况下,之间的间距是大于等于3au。随着半径增加,平均接触数也累积增加。值得补充的是,这里只考察半径为20以下 的

17、情况。事实上蛋白分子中Ca原子数目有限,所以在r到达一定值后,平均 接触数稳定为一个具体值。进一步,通过绘制假设干 个蛋白质分子斤r1关系曲 线,发现走势相近。图5、所考察蛋白质在不同半径下平均接触数均值曲线图为了分析不同蛋白质中CQ原子分布的共性与差异,计算所考察蛋白质在各半径下接触数的方差。结果见下表 2:表2、所考察蛋白质分子在不同半径下平均接触数方差半径r=1r=2r=3r=4r=5r=6r=7r=8r=9r=10方差半径r=11r=12r=13r=14r=15r=16r=17r=18r=19r=20方差从上表中看出,半径在8以内,各蛋白质之间差异很小平均接触数的方 差在1以 内;随着

18、半径增大,差异慢慢表达出来,所考虑的半径越大,差异越显著。这证明了不同的蛋白质分子具有共性与特性的事实。3平均接触数变化率:在这里我们引入接触数变化率的概念:接触数变化率斤指的是单位空间体积平均接触数变化大小。定义为:为便于计算,离散化处理,取近似值Ka+i Kc"+1)»J1主要反映C嫄子在半径为厂的球面附近,单位体积包含的CG原子个 数。研究平均接触数变化率图 7,所考察整体蛋白分子的平均接触数变化率在波动中递减。平均接触数变化率在半径 3处为转折点。即在半径0-3之 间,几乎没有变化为 0;在半径3-4的同心球的过渡空间内,平均接触数骤升。从半径为4的球面向半径为10

19、的同心球面渐近时,出现较大的振荡。然而在半径10以后的空间内,一致递减,直至C a原子全部包含于球内。图7、所考察的蛋白质在半径以步长1变化的平均接触数变化率曲线进一步,为了深入分析半径在 4到10之间变化率的波动情况,将步长缩小至,通过图8,可以看出波动情况根本保持一致,保证其收敛性。1C1图8、所考察的蛋白质在半径以步长变化的平均接触数变化率曲线综合分析,蛋白质分子ca原子的平均接触数变化率是先突増,进而在波 动中缓慢减 小至0。通过k(r)可以侧面反映C a原子分布不均。该研究为预测 蛋白质a -氨基酸的位置 等物理性质提供依据;也从数学的角度定量化说明了蛋白质的结构组成。通过定量的分析

20、,利用结构规律统计方法,我们猜想一般蛋白质分子中存在相似的性质:分子中只有一定量的 Ca原子;任意两个Ca原子存在一定间 距;并且分布不均匀,不 同单位体积内Ca原子密集程度不同。、对个体蛋白分子的分析由于蛋白质总数多,结构各异,很难一一进行说明。针对每一个蛋白质分子的特性区别,我们随机选择一些蛋白质分子详细分析。具体算例:蛋白质分子1EXS在1EXS蛋白分子中,总共有1248个原子构成,其中有160个Ca原子,约占总原子 数的。作出1EXS分子在不同半径下接触数曲线图(图9),在半径r>3后,才会 出现相邻的Ca,即该分子的一个Ca原子独立空间体积至少是半径为3的球 空间。这与由整体平

21、均得到的结论是一致的。在r=0到25左右,平均接触数 增长迅速。图9、1EXS分子不同半径下接触数曲线图同理,从表3看出,Ca原子的附近与远处只有少数的 Ca存在。大致在r二45时,平均接触数到达饱和。根据 Ca原子是蛋白质肽链中主链的“骨50左0G1;Q01Jia aceOOCE1In1/1 ? il/v*O'X:qLneitj|510153333勞观占弟节“,贯穿于始终,因此,我们推断该蛋白质分子的立体空间半径可能在右0表3、1EXS分子不同半径下平均接触数取值表rkrkrkrkrk10112131412012223242301323334341424344451525354515

22、96162636461597172737471598182838481599192939491591020301484050159基于以上分析,得到半径 3为出现接触数的分界点。观察平均接触数变化率曲线图10,其走势也与又整体平均得到的结果根本吻合如图 7图10、1EXS分子Cct平均接触数变化率图门、1EXS VarAr曲线进一步研究该蛋白分子所有 C a原子接触数方差图11,随着半径的增 力口,C a原 子之间接触数差异就会增加,离散程度明显;当半径增加到20后接 触数差异又缩小原因是此时r逐渐包括了该蛋白分子所有的 Ca原子,各Ca原子接触数的差异逐渐变小。 这验证了我们的推测一一 Ca

23、原子的分布不 均匀,不同的Ca原子有不同的特性,有些 Ca 原子附近没有多少 Ca 原子 ( 接触数较小 ) ,而有些附近那么有很多 Ca 原子(接触数较大 )。因 此对于 1EXS 分子,半径 20 处可以作为研究 C a 原子特征的参考方法。5、总结与应用 在蛋白质空间结构研究进程中,二级空间结构的科学研究突破已较为成 熟,可以利用 数学知识、统计原理等理论,从不同的角度应用与改良。针对a-氨基酸主链骨架的组成原子一 Ca 原子,我们引入接触数概念,定量与定性 相结合,利用结构规律统计与计算机模 拟手段,对 1653 个研究对象进行了处理 分析,分别对蛋白质分子中 Ca 原子的接触数, r

24、(r) 关系曲线、接触数变化 率等进行了讨论。通过信息收集整理探索,得到了较为满意的效 果。其中,在每个蛋白分子中 C a 原子并不是大量存在,一般占所有原子数目 的 11%- 15%o 然而任意一个 Ca 原子都不尽相同,各有各的表征性质。一般 的,每一个 Ca 原子都 有自身专有“空间区域,互不干扰且分布不均;大多 数 Ca 原子的间距都在 r 二 3 以上。 同时根据平均接触数变化率波动较大,可以 推测出 Ca 原子较为密集的空间。本文是关于 生物、统计学科结合的研究,在 数字表征、数据挖掘层面上,分析了二级结构 Q 氨基酸 的关节 C a 原子,为 人工组合蛋白质提供了数字支持。同时也对氨基酸理化特性指出了以 Ca 原子 为基准的新方向。本文下一步工作为:研究不同类别蛋白质和氨基酸中 Ca 原 子 的空间分布数学特征。6、参考文献(1) 江凡;蛋白质空间结构的实验技术和理论方法;物理,2007 (4). 272-279. 2 王昕. 毛炳蔚,王福伟,张婿;蛋白质空间结构的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论