(生物物理学专业论文)基于快速傅里叶变换的蛋白质结构相似性比较.pdf_第1页
(生物物理学专业论文)基于快速傅里叶变换的蛋白质结构相似性比较.pdf_第2页
(生物物理学专业论文)基于快速傅里叶变换的蛋白质结构相似性比较.pdf_第3页
(生物物理学专业论文)基于快速傅里叶变换的蛋白质结构相似性比较.pdf_第4页
(生物物理学专业论文)基于快速傅里叶变换的蛋白质结构相似性比较.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:蛋白质空间结构的相似性比较是生物信息学领域的一个研究热点,并且在 蛋白质结构预测,蛋白质功能预测,探索蛋白进化关系中发挥着重要作用。近年 来出现了不少蛋白质三维结构相似性比较方法。文中对目前已有的蛋白质三维结 构相似性比较的典型方法进行了介绍,分析并归纳了各种方法的优缺点。本文在 用蛋白质残基c a c a 距离矩阵对蛋白质结构进行比较的基础上提出一种新的基于 快速傅里叶变换的方法比较蛋白质结构。通过把蛋白质的氨基酸残基距离信息进 行快速傅立叶变换,将蛋白质的空间信息变换成频域信息,通过比较频域信息的 相似性,比较蛋白质三维结构的相似性。该方法完全不依赖于序列信息,并且能 快速对蛋白结构进行比较。利用该方法还可以对未分类蛋白质进行快速分类。通 过对p d b 蛋白质数据验证的结果表明,本文所使用的方法可以为任意结构的蛋白 质相似性比较和蛋白质结构分类提供有效辅助手段。 关键词:蛋白质结构,傅里叶变换,结构比对,蛋白质分类。 分类号:q 6 a bs t r a c t a b s t r a c t :t h ec o m p a r i s o no fp r o t e i ns t r u c t u r es i m i l a r i t yi sar e s e a r c hf o c u si n b i o i n f o r m a t i c s ,a n d i t p l a y sav e r yi m p o r t a n tr o l e i nt h ef i e l d o fp r o t e i ns t r u c t u r e p r e d i c t i o n , p r o t e i n f u n c t i o n p r e d i c t i o n a n dt h ee x p l o r a t i o no fp r o t e i ne v o l u t i o n r e l a t i o n s h i p i n r e c e n ty e a r s ,t h e r ew e r em a n yp r o t e i nt h r e e d i m e n s i o ns t r u c t u r e s i m i l a r i t yc o m p a r i s o nm e t h o d s i nt h i sp a p e r , m a n ye x i s t i n gm e t h o d so fp r o t e i n t h r e e d i m e n s i o ns t r u c t u r es i m i l a r i t yc o m p a r i s o na r ei n t r o d u c e d a n dt h ea d v a n t a g e sa n d d i s a d v a n t a g e so fv a r i o u sm e t h o d sa l ea n a l y z e d b a s eo nt h em e t h o do fu s i n g t h ec a - c a m a t r i xt oc o m p a r ep r o t e i ns t r u c t u r es i m i l a r i t y , an e wm e t h o di sp r o p o s e d i n f o r m a t i o n o fc a c ad i s t a n c em a t r i x e sh a v eb e e nt r a n s f o r m e dt of r e q u e n c yi n f o r m a t i o nb yf a s t f o u r i e rt r a n s f o r m t h es i m i l a r i t yo ft w op r o t e i n sc a nb ec o m p a r e db ya n a l y z i n gt h e f r e q u e n c yi n f o r m a t i o n t h i sm e t h o di si n d e p e n d e n to na n ys e q u e n c ei n f o r m a t i o n ,a n d c a nq u i c k l yc o m p a r ea n dc l a s s i f yp r o t e i ns t r u c t u r e s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h e m e t h o dc a nb eu s e da se f f e c t i v ea u x i l i a r ym e a n so fp r o t e i ns t r u c t u r es i m i l a r i t y c o m p a r i s o na n dc l a s s i f i c a t i o n k e y w o r d s :p r o t e i ns t r u c t u r e ,f a s tf o u r i e rt r a n s f o r m ,s t r u c t u r a la l i g n m e n t ,p r o t e i n c l a s s i f i c a t i o n c l a s s n o :q 6 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:签字日期: 如口7 年月l i 日 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字日期:如。c 7 年月2 1 日 导师签名:? 尹幻 签字嗍:叫钆刖7 日 致谢 首先感谢洪涛院士为我们提供了先进的科研条件和前沿课题方向,同时也感 谢研究院领导何金生教授的领导给我们创造了一个良好的学习环境。 本论文的工作是在我的导师纪丰民副教授的悉心指导下完成的,纪丰民副教 授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。纪丰民副教授悉 心指导我完成了科研工作,在学习上和生活上都给予了我很大的关心和帮助在此 衷心感谢二年来纪丰民老师对我的关心和指导。 在论文的开题论证中,洪涛院士、何金生教授、侯玲玲副教授、郑妍鹏副教 授和丁克俭副教授提出了宝贵意见,孙维敏老师、彭向雷老师、张莹老师、张丽 姝老师给予了悉心的指导,在此表示衷心的感谢。 感谢林柏梁教授在学习上和生活上都给予了我很大的关心和帮助并且对于我 的科研工作和论文都提出了许多的宝贵意见。 感谢孙强秘书在日常生活中给予的帮助。 感谢小组的王丹、喻浴飞、张继林等,谢谢他们平时的讨论和各种帮助。 两年来,在工作、学习和生活中也得到了代新宪师兄、包福祥师兄、韩鸿雅、 王鑫、刘延风等的关心和帮助,在此向他们表达我的感谢之情。 特别要感谢我的家人和杜娟,是他们的理解和支持使我能够克服所有困难和 挫折,在学校专心完成我的学业。 最后,所有在我生命中有缘遇见,并一起共度过一段美好时光的人们表示感 谢! 限于种种原因,你们的名字可能未能在此提及,但是你们的支持和帮助将伴 我不断前行。 1 绪论 2 l 世纪是生命科学的时代,也是信息科学的时代,随着人类基因组序列图谱 的公开发表,后基因组时代已经到来。在这个时代,生命科学的主要研究对象已 经由基因组学向蛋白质组学转移。可以说蛋白质组学研究的开展不仅是生命科 学研究进入后基因组时代的里程碑,也是后基因组时代生命科学研究的核心 内容之一。蛋白质组学的中心任务是阐明基因表达的实际执行生命活动的全部蛋 白质的表达规律和生物功能的。 1 1 蛋白质结构比对的研究背景和意义 预测蛋白质的结构与功能是蛋白质组学中的一个重要研究内容【,结构决定功 能已成为生物学家的共识,蛋白质三维空间结构的相似性比较是探明结构与功能 的重要分析手段。人们普遍认为蛋白质的结构与功能是密切相关的,具有相似结 构的蛋白质在功能上一般相似。蛋白质结构比对的基本问题是比较两个或两个以 上蛋白质分子在空间结构上的相似性。 图1 1 每年p d b 中增加的蛋白质结构数据量 f i g u r e1 1y e a r l yg r o w t ho fp r o t e i ns t r u c t u r e s 如图1 1 中柱形图所示,随着越来越多的蛋白质结构的确认,每年p d b 中会新 增加大量的蛋白质结构的数据。如何确定新增加的蛋白质的功能和进化关系成为 了新的难题。在这种情况下,充分利用新获得的蛋白质的三维结构与现有的功能 和进化关系已知的蛋白质的空间结构进行比对,来研究和预测此蛋白质的功能以 及分类。此方法已成为结构生物学中研究蛋白质结构和功能关系的主要手段。 蛋白质是由2 0 种不同的氨基酸组成的多肽链所构成【2 1 ,可以被描述成4 种结构 层次。其中,一级结构是指构成多肽链的氨基酸的排列顺序,它是一种一维的信 息;二级结构是由相邻连续的若干氨基酸借助氢键在局部空间折叠形成具有一定 规则的片段子结构,如o 【螺旋结构、p 折叠结构和回折结构;三级结构是指多肽链 借助各种非共价键( 或非共价力) 弯曲、折叠成具有特定走向的紧密球状构象; 四级结构是指寡聚蛋白质中各亚基之间在空间上的相互关系和结合方式。一维氨 基酸序列在没有进行空间折叠前是没有功能意义的,二级结构是蛋白质空间结构 的基本单元,它们之间相互作用,形成超二级结构,超二级结构是一种从二级向 三级结构转化的中间结构,如q p 旺。超二级结构进一步组合形成一定功能的结构域, 可看成是最基本的功能实体,但其尚不具备完整的生物活性,空间自然折叠的三 维结构最终决定蛋白质的功能。 虽然目前很多科学家利用蛋白质序列比对对蛋白质的结构和功能进行研究, 并且取得了一定的成果,但是蛋白质三维空间结构的直接比较在许多方面是不可 替代的。 1 某些相同的氨基酸序列可以在不同的条件下折叠成不同的空间构象【3 1 。一 个大家都熟悉的例子是天然型朊蛋白与感染型朊蛋白,天然型朊蛋白的三维结构 主要表现为0 l 螺旋结构,在动物体内能维持正常的生理功能,而感染型朊蛋白由于 某种原因使得天然型朊蛋白的空间结构发生改变转变使其三维结构表现主要为d 折叠,从而导致某些神经性疾病,如老年痴呆、疯牛病等。 2 有些蛋白质序列的个别氨基酸发生突变,导致其结构与功能发生变化,典 型的案例【4 】是镰刀形细胞贫血症。其致病原因是组成人类血红蛋白链上1 4 6 个氨基 酸中的第6 个氨基酸g l u 被替换成了v a l ,其红细胞从正常的圆盘状变成镰刀状,导 致其携带氧的功能只有正常红细胞的一半。 3 在基于从头计算的三维结构预测中,预测结果和模拟结构的直接三维比较 可用来评估预测方法的性能。现代微结构实验手段的不断升级,为探索微观的生 命世界打开了新的大门。 4 很多序列相关性很低,甚至序列无关的蛋白质在其空间三维结构上却有着 惊人的相似之处。显然,对蛋白质三维结构的比较方法可以检测到序列同源性相 距甚远的蛋白质之问的结构相似性【5 】。 2 1 2 蛋白质结构比对的现状 目前国际上有各种提供蛋白质结构比对的网站,见表1 1 。 表1 1 蛋白质结构比对的网站 t a b l e1 1w e b s i t eo fp r o t e i ns t r u c t u r a lc o m p a r i s o n 人们把已知结构的蛋白质按照结构相似性进行分类,以不同的方式组织在 c a t h ,s c o p 1 6 郴1 等数据库里。据此,可在数据库里进行结构相似性查找。各种 数据库的建立本身即采用了结构比对的某种方法! t l l e n t r e z 采用的是v a s t 算法, 3 f s s p 贝, i j 采用d a l i ( d i s t a n c em a t r i xa l i g n m e n tp r o g r a m ) 。 1 3 论文研究的主要内容 本文首先讨论了蛋白质结构分类的意义和现状,并且对相关的蛋白质结构与 分类数据库进行介绍。其次,利用快速傅里叶变换对不同步长下的距离序列进行 变换然后分析频域信息来比较蛋白质结构的相似程度以及蛋白质分类。 1 4 论文的结构 本文的结构安排如下:第二章,目前主要的蛋白质结构比较方法以及蛋白质 结构分类的数据库。第三章,傅里叶变换。第四章,蛋白质结构数据的处理,距 离序列的获得,快速傅罩叶变换以及变换后频谱数据的分析。第五章,展示了基 于快速傅里叶变换蛋白质结构相似性比较的方法对蛋白质进行分类及结果分析。 第六章,论文的结论。 4 2 蛋白质结构比较方法及数据库 2 1 蛋白质结构比较方法 目前,蛋白质结构的比较方法主要可归纳为三种:基于空间特征分布的比较、 基于几何分布的比较、基于拓扑的比较。 2 1 1 基于空间特征分布的比较 蛋白质三维结构由组成其分子的原子在空间的分布所决定。原子空间分布的 相似性,可以作为我们预测蛋白质三维结构相似性的线索。该方法的关键在于抽 取蛋白质结构中具有空间旋转和平移不变性的特征量。这种特征量的本身可以是 几何的、拓扑的或者是与空间位置无关的其他生物信息量。 a n k e r s t 等【i9 】对蛋白质空间均匀划分,生成每个区域的统计信息量,将蛋白质 三维结构转换成形状直方图。该文提出了3 种空间分割方法,它们分别是具有一 定厚度的球壳分割、扇形分割以及网状分割。由于形状直方图的生成依赖于空间 区域划分的尺寸大小,使得这种方法在具体进行比较操作时十分依赖经验值,且 对分割区域内的细节无法分辨。根据蛋白质分子结构具有的分形特征,h u 2 0 】提出 了描述蛋白质三维空间结构的体分维参数,这种参数具有空间旋转和平移不变性, 大量实验数据表明,相似的蛋白质结构具有近似的体积及分形维数,利用蛋白质 体的最大半径和体分形维数构成的二元组创建索引表,可以缩小蛋白质相似性检 索过程中的搜索空间。这种体分形参数对不影响功能变化的氨基酸突变具有较强 的适应性,它对蛋白质趋同进化的解释具有一定的生物意义。但是这种体分形参 数是在统计意义下获得的,在蛋白质海量数据库的相似性检索中精度较低。 caru go 等【2 l j 用骨架坐标c a ( i ) c g t ( i + n ) 的距离分布来表示蛋白质,其中n 是 计算残基距离时两端点之间间隔的残基数目,每一个n 值对应一个距离直方图,对 应n 口【3 ,30 共产生2 8 个直方图,通过分别计算被比较蛋白质对的2 8 个直方图 的相似概率束获得两者的相似性。该文通过大量数据测试并与最小均方根差rr o o t m e a ns q u a r ed e v i a t i o n ,r m s d ) 值进行比较表明相似性概率值越大的蛋白质结构对 其r m s d 值越小,反之亦然。 基于空间特征分布的方法计算往往比较简单虽然不能得出精确的比较结果, 但是可以帮助快速地剔除相似度相距甚远的对象。如果能够选择并组合利用多组 5 相关性低的特征量,则可以提高相似度的比较精度,同时减少大规模数据库的搜 索空间。 2 1 2 基于几何的比较 由于蛋白质三维结构的复杂多样性,采取简单的空间分布特征很难辨识结构 细节面的相似程度。基于几何的比较则从蛋白质空间结构元素的几何位置或者元 素之间的距离来确定被比较对象之间在空间结构细节的一致性,其具体实现方法 可分为3 种:1 ) 三维骨架直接配准的方法;2 ) 基于距离矩阵表示的方法;3 ) 基 于空间曲线近似表示的方法。 1 三维骨架直接配准的方法 根据被比较蛋白质对的骨架之间在空间可配准的程度来度量两者的相似性。 将一个蛋白质结构的骨架坐标进行刚性的平移和旋转采用最小平方拟合的方法, 使得其整体结构最大程度地叠置到另一个蛋白质骨架上【2 2 】。找寻两个蛋白质问的 对应残基计算均方根距离( r o o tm e a ns q u a r e ,r m s ) ,使得全部残基对的均方根达到 最小。假设2 个蛋白质a 和b 的骨架坐标分别由连续的三维坐标点决定,设 a - 口,口石,a 疗) ,b = b l , 6 2 ,如) ,对a 进行变换t ,使得a 与b 的均方根距离 钿俳哼脏丽 最小。这种方法简称为r m s d 方法,是最早提出也是目前使用最为广泛的相似度 比较方法。 r m s d 计算结果的一个直接解释就是:如果求得的偏差值为0 ,则两个被比较 的蛋白质结构是完全相同的;如果偏差值较小,则认为两个结构是相似的。大量 的实验分析表明,对骨架长度超过l50 个的两个蛋白质,其r m s d 值若小于2a , 则可被认为具有相似性【2 3 】,但是对其他r m s d 值的解释就显得比较困惑【2 4 】。 r m s d 方法在如下几方面有局限性:( 1 ) 用该偏差值来比较蛋白质结构的相似性与 被比较分子的大小尺寸相关。同样的偏差值,对于大分子之间的比较与小分子之 间的比较将意味着不同的相似度。( 2 ) 在具体实现时需要对所有的原子进行一对 一的比较,计算量极大;在算法实现时需采取优化手段,以减少比较的搜索空间【2 5 1 。 ( 3 ) 当2 个蛋白质的结构有部分区域相距较大时,得出的结果往往由这些不相似 的局部所控制,从而掩盖了其他相似的部分,使比较结果缺乏生物意义【2 6 1 。为了 缓解上述问题,不少研究将蛋白质链分成多个片段考虑【2 7 】,采用层次分析的方法, 6 这样既可加快计算速度又可获得片段的全局相似性。蛋白质骨架的优化配准过程 是一个n p 问题,这使得在任何相似性度量下的结构配准都无法保证哪种算法是最 优的,从而导致了比较结果多样性【2 引。 2 基于距离矩阵的比较 为了避免对复杂的三维骨架进行空问的配准操作,t a y l o r 等【2 9 】将蛋白质的空 间坐标转换成距离矩阵的量化表示。假设某一个蛋白质分子x ,其三维结构的距 离矩阵是由组成该蛋白质链上所有骨架原子c 旺之间的距离所构成的一个方阵,记 为,其中第i 行、第列的元素d x i j 表示第i 个c a 原子到第_ ,个c n 原子之间的 距离2 个蛋白质分子a 和b 的匹配程度可以用一个相似度计算公式 s = :。:f ( i ,) ( 1 2 ) 来判定。式( 1 2 ) 中,i 和,是匹配氨基酸残基的序号;l 是要匹配结构的长度; 厢,是相似度度量函数。 h o l m 等在距离矩阵表示的基础上提出刚性的和弹性的2 种相似度函数,通过 设定经验阈值获得相似性判定。c h o i 等【3 0 】将蛋白质结构的距离矩阵划分成许多有 重叠元素的子矩阵,每一个子矩阵代表了一个蛋白质空间结构的局部特征,比如a 螺旋结构、p 折叠结构和回折等二级结构,从大量的蛋白质距离矩阵中抽取出有代 表性的局部特征的子矩阵集合,利用聚类分析获得k 类局部特征的集合,由此可 将任何一个蛋白质结构抽象成k 维欧氏空间的特征点,并求得发生k 类局部特征 的频率( 1 0 c a lf e a t u r ef r e q u e n c y ,l f f ) 。每一个蛋白质的距离矩阵在进行相似性比 较之前先转换成l f f ,然后通过计算l f f 之间的距离来获得相似性比较结果。 c h i 等【3 l j 将每一个距离矩阵视作一个纹理图像,利用视觉技术中的图像分割技 术定义一系列纹理图像特征值,以刻画蛋白质局部和全局结构特征;并将蛋白质 的距离矩阵表示转换成多维图像特征矢量,通过索引技术加快蛋白质结构的相似 性查询。 蛋白质的距离矩阵是三维结构的一种二维表示,与空间坐标标架无关。它蕴 涵了除蛋白质结构的手性之外可以重构三维结构的足够信息。因此,基于距离矩 阵表示的相似性比较方法具有实际的生物学意义。 3 基于空间曲线近似的比较 k o t l o v y i 等【3 2 】将蛋白质的骨架近似成空间的连续曲线,抽取曲线在骨架原子 位置上每一点处的形状特征,如曲率和挠率等空间旋转、平移不变量,通过分析 这些形状特征量的偏离程度来判定被比较范围内的两段蛋白质是否具有相似性。 7 由于蛋白质结构在空间折叠十分复杂,这种曲线近似的表示方法只能适用于局部 链长的比较,但是这种形状特征可以在相似性比较之前获得,因此可以利用索引 技术加快局部相似性检索。 2 1 3 基于拓扑的比较 表面上稳定的蛋白质构象,但其内部原子永远处于不断的运动状态,使得相 同蛋白质在不同时刻所测得的数据在空间几何位置上出现差别,即使是序列和功 能都相同的蛋白质对,若用同一r m s d 计分方法比较,也会出现r m s d 0 的结果。 为此,d a v i d 等【3 3 】对序列相似性 , ,一j r 、。“”7 t ,。、一 1 l 虱茎隧觋l 一一一l 选用适合的数据库 、一,ji 。 夕 结构数据 1 一- : = 结构数据据二二 1 一1k_, 各步长距离序列 r 竺 上 i;佬。一各步长距离序列t_u r 喜步长距离序列l r lhi pi ,一、* i 。f _ _ 盈牢坛e 7 图 磐l l 各步长f j 图谱l l l 。口7 “一。1 l _一 l 甘瓦r5 型晤l l il 7 i。 ll q 9 二“ l 1 f 图5 1 蛋白质计较分类流程( s t e p 3 ,4 ,3 0 ) f i g u r e5 1f l o w c h a r to fp r o t e i nc l a s s i f i c a t i o n ( s t e p 3 ,4 ,3 0 5 1 分类数据库的构建 为了对待分类蛋白质进行结构分类,我们需要构建一个由己知结构分类的蛋 白质所组成的库。将待分类蛋白质的结构与库中的蛋白质结构进行比较来确定待 分类蛋白质的类别。a s t r a l 是基于s c o p 数据库的一组分析蛋白质结构和蛋白 质序列的数据库。它部分来自于s c o p ( s 仃u c 眦sa n dt h e i rs e q u e n c e s ) 数据库,但 较其增加了许多。其间提供的大多数资源取决于与其同等的p d b 维护和分白的文 件。 本文构建的分类数据库是对a s t r a l 数据库中同源性小于4 0 的子集 ( a s t r a l l 7 3 c u t 4 0 ) 进行处理得来的。为了减小不同长度蛋白质结构比较的误差,我 们把a s t r a l l 7 3 c u t 4 0 按照每个蛋白质氨基酸数目的多少进行了分类,构建一系列子 库。l i s t6 4 代表氨基酸数目小于或者等于6 4 的一类蛋白质子库;l i s t1 2 8 代表氨 基酸数目大于6 4 并且小于等于1 2 8 的蛋白质子库;l i s t2 5 6 代表氨基酸数目大于 1 2 8 并且小于等于2 5 6 的蛋白质子库;l i s t5 1 2 代表氨基酸数目大于2 5 6 并且小于 等于5 1 2 的蛋白质子库;l i s t1 0 2 4 代表氨基酸数目大于5 1 2 并且小于等于1 0 2 4 的 蛋白质子库;l i s te l s e 代表其它的蛋白质子库,一般不用来进行比较。 5 2 待分类蛋白质结构数据处理 首先提取待分类蛋白质结构数据中c a 原子坐标信息,确定蛋白质序列中氨基 酸数目,利用提取的c a 原子坐标信息计算不同步长下的氨基酸距离序列。根据氨 基酸的数目确定快速傅罩叶变换的输入序列长度n ,n 必须为2 n 。傅里叶的输入 序列是蛋白分子距离序列通过在结尾补零使之达到快速傅里叶变换要求。然后对 获得的补零后的距离序列分别进行快速傅里叶变换,产生与之相对应的傅里叶频 谱信息,从而将待分类蛋白质结构的空间域信息变换成不同步长下的距离序列的 频域信息,从而可以与构建的分类库进行比较。 5 3 待分类蛋白质与库中蛋白质的比较 在待分类蛋白质结构处理过程中我们获得了待分类蛋白质中氨基酸数目 ( a a n u m ) ,根据氨基酸数目的多少选择相应的数据库。当a a n u n ls6 4 选择“s t 6 4 ; 6 4 m a n u ms1 2 8 选择l i s t l 2 8 ;1 2 8 a a n u ms2 5 6 选择l i s t _ 2 5 6 ;2 5 6 a m n u ms 5 1 2 选择“s t - 5 1 2 ;5 1 2 a m n u ms1 0 2 4 选择l i s t 一1 0 2 4 。当选择好相应的数据库后, 我们要对数据库中蛋白质结构空间信息按与待分类蛋白质同样的变换方式变换成 不同步长下的距离序列的频域信息。 将待分类蛋白质不同步长下的距离序列傅罩叶变换频谱与数据库中每个蛋白 质相应步长的距离序列傅里叶变换频谱进行比较,计算不同步长下频谱中相应频 率下的幅度的欧氏距离,将不同步长下的欧氏距离求和取平均,我们定义这个不 同步长下欧氏距离的平均值为互相比较的两个蛋白质结构的相似性度量值s i r e 。待 分类蛋白质与数据库中每个蛋白质进行比较的时候都会产生一个s i r e 值,我们将所 有产生的s i m 值进行从小到大排序,取除自身以外的前1 0 个值,观察与这l o 个 s i m 值对应的数据库中蛋白质结构的分类类型,从而确定待比较蛋白质结构的分 类。理论上讲取得的s i m 值最小的蛋白质结构类型即为待分类的蛋白质结构的分类 类型。 5 4 结果分析 为了测试快速傅里叶变换蛋白结构比较分类方法的效果,我们从c a t h 数据 库中随机选取了l o 个蛋白质d o m a i n 的数据,1 9 2 2 a 0 0 、l j y 5 a 0 0 、l k 9 0 1 0 1 、l k i j a 0 2 、 l n b l a 0 0 、l q 9 3 8 0 2 、l r 5 a a 0 2 、l x q o a 0 2 、2 e q d a 0 1 、l v q o a l 利用快速傅罩叶变换 蛋白结构比较分类的方法对每个蛋白质d o m a i n 进行分类,为了减少计算量我们选 择了7 个步长s t e p = ( 3 ,5 ,8 ,1 0 ,1 4 ,1 8 ,2 5 的距离序列进行快速傅里叶变换后计算s i m 值,取s i m 值最小的前1 0 个蛋白质d o m a i n 做表,得到表5 1 5 1 0 。 表5 1 与l g z 2 a 0 0s i m 值相近的蛋白质i d 及分类 t a b l e5 1p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t h1g z 2 a 0 0 表5 2 与l j y 5 a 0 0s i m 值相近的蛋白质i d 及分类 t a b l e5 2p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t hl j y 5 a 0 0 表5 3 与1 k 9 0 1 0 1s i m 值相近的蛋白质i d 及分类 t a b l e5 3p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t hl k 9 0 1 0 1 表5 4 与l k i j a 0 2s i m 值相近的蛋向质d 及分类 t a b l e5 4p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u e w i t hl k i j a 0 2 2 9 表5 5 与l n b l a 0 0s i m 值相近的蛋白质i d 及分类 t a b l e5 5p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t hl n b l a 0 0 表5 6 与l q 9 3 8 0 2s i m 值相近的蛋白质i d 及分类 t a b l e5 6p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t hl q 9 3 8 0 2 3 0 表5 7 与l r s a a 0 2s i m 值相近的蛋白质i d 及分类 t a b l e5 7p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i r ev a l u ew i t h1r 5 a a 0 2 表5 8 与l x q o a 0 2s i m 值相近的蛋白质i d 及分类 t a b l e5 8p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t hi x q o a 0 2 3 l 表5 9 与2 c q d a 0 1s i m 值相近的蛋白质i d 及分类 t a b l e5 9p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t h2 c q d a 01 表5 1 0 与l v q o a ls i m 值相近的蛋白质i d 及分类 t a b l e5 1 0p r o t e i ni d e n t i f i e r sa n dc l a s s i f i c a t i o n sw h i c hh a v es i m i l a rs i mv a l u ew i t h l v q o a l 3 2 表5 1 5 1 0 中第- - n 蛋白质i d 列表示的是在库中与被比较蛋白s o n 值相近的 蛋白质d o m a i n 在a s t r a l 数据库中的编号,第二列表示的是被比较蛋白质与第一 列中对应蛋白质d o m a i n 的s o n 值大小,第三列表示的是第一列蛋白质d o m a i n 在 s c o p 数据库中分类的类型( s e e s ) 。 表5 1 1 选取蛋白质在s c o p 中s c c s 分类 t a b l e5 1 1s c c so fs e l e c t e dp r o t e i n 蛋白质i ds c o p 中分类 l g z 2 a 0 0 l j y 5 a l k 9 0 1 0 1 l k i j a 0 2 l n b l a 0 0 l q 9 3 8 0 2 1 r 5 a a 0 2 l x q o a 0 2 2 c q d a 0 1 1 v q o a l d 1 6 9 1 1 d 1 2 4 1 1 e 1 1 1 d 1 4 1 3 g 1 3 1 1 b 1 2 1 a 4 5 1 1 a 9 6 1 6 d 5 8 7 1 d 1 9 3 1 1 比较表5 1 1 中各待分类蛋白质d o m a i n 在s c o p 中的实际分类与表5 1 到5 1 0 中用快速傅里叶变换蛋白结构比较分类所得到的结果,我们发现所选的1 0 个蛋白 质d o m a i n 经过利用快速傅里叶变换蛋白结构比较分类后,其中的6个 ( 1 9 2 2 a 0 0 、l j y s a 、l n b l a 0 0 、l q 9 3 8 0 2 、2 c q d a 0 1 、l v q o a l ) 正确的找到了它们 的蛋白质结构分类类型,这说明本文中采用基于傅里叶变换对蛋白质结构比较分 类的方法是可行的。然而我们也发现了其中有2 个蛋白质d o m a i n :l r 5 a a 0 2 和 l x q o a 0 2 虽然也找到了正确的c l a s s 但是未能进一步获得精确匹配。另外2 个 l k 9 0 1 0 1 和l k i j a 0 2 则未能被正确分类。 5 5讨论 对未能正确分类的l k 9 0 1 0 1 与我们所获得与之s o n 值最小的l l h o a 0 的结构进 行分析,我们发现它们都是由0 【螺旋和p 折叠组成,在c a t h 分类数据库中l k 9 0 1 0 1 的分类是3 3 0 4 9 7 1 0 主要结构是由c t 螺旋和p 折叠组成的2 层三明治结构,而 1 l h o a 0 的分类为3 4 0 5 0 2 0 2 0 主要结构是由0 【螺旋和p 折叠组成的0 【p a 的三明治结 构。这说明他们在结构上还是有一定的相似性的,进一步证实了我们的方法能比 较蛋白质结构的相似性。 对于未能f 确分类的原因我们进行了以下的假设: 1 s c o p 中的蛋白质分类除了借助计算机意外,主要还借助人工验证。s c o p 中的蛋白分类除了依靠结构的相似性,还包括序列的相似性,进化上的同源性, 以及生物学功能。而我们的借助快速傅罩叶变换蛋白质结构比较分类的方法,仅 仅是从结构上对蛋白质进行分类,这就导致了有些蛋白质在结构上相似但却分类 不同。 2 数据库中未能完全包含全部的分类信息。我们构建的数据库是将a s t r a l 数据库中同源性小于4 0 的子集按照氨基酸长度进行分类,这可能使各个长度子库 中的蛋白质分类信息不完全。如果待分类蛋白所选择进行筛选的库中没有与之结 构分类相同的数据,则会导致分类失败。 3 由于步长选取的失误。因为每个步长的距离序列所携带的蛋白质结构信息 是不同的,所以应该谨慎选取步长,或者对不同的步长设置权重,使构建的相似 性函数能更加接近的反应蛋白质结构的真实相似程度,从而能辨别不同结构间的 细微差别,提高分类的准确性。 4 蛋白质肽链长度的不同对分类的影响。虽然我们将含有相近长度的蛋白进 行比较,但在我们界定的范围内,仍然会有小量的误差,这些误差将会对分类类 型相近的蛋白质结构进行比较分类的时候产生干扰。 6 结论 本论文研究了基于快速傅里叶变换比较蛋白质结构的相似性,提出了利用快 速傅里叶变换将蛋白质的空间结构信息转换成频域信息,通过比较频域信息达到 比较蛋白质结构相似性比较目的,并且利用该方法对蛋白质进行分类。结果表明: 1 通过对选取的蛋白质的快速傅里叶变换频谱图进行直接比较,发现在一定 的步长范围内频谱图能够反映出蛋白质结构的信息。但随着步长的增长, 在到一定的范围后会开始出现错误,说明了步长的选取会对比较产生影 响。 2 利用s i m 相似性函数对频谱进行分析后所得到的结果与直观比较得到的结 果相同。 3 对随机选取的蛋白质进行分类,发现该方法能够对大部分蛋白质进行准确 的分类。但也有部分不能正确分类或者错误分类。 此外,本文还对该方法存在的不足进行了分析并提出了假设。 综上所述,基于快速傅里叶变换比较蛋白质结构的相似性的方法能够不依赖 于蛋白质序列信息较好的对蛋白质结构进行比较和分类。当然,此方法在应用过 程中还存在许多不足。未来的工作要根据这些方面的不足进行改进,使该方法能 得到更广泛的应用。 3 5 参考文献 【l 】e i s e n b e r g ,d ,e ta 1 ,p r o t e i nf u n c t i o ni nt h ep o s t g e n o m i ce r a n a t u r e 2 0 0 0 4 0 5 ( 6 7 8 8 ) : 8 2 3 8 2 6 【2 】h o r t o nhr ,m o r a nla ,e ta 1 p r i n c i p l e so f b i o c h e m i s t r y m 】3 r de d n e wj e r s e y : p e a r s o ne d u c a t i o ni n c 2 0 0 2 【3 】l i a n gy i s t r u c t u r a lb i o l o g y m b e i j i n g :s c i e n c ep r e s s 2 0 0 5 【4 】c a m p b e l ln e i la ,r e e e ej a n eb e s s e n t i a lb i o l o g y 【m 】t o r o n t o :p e a r s o ne d u c a t i o n c a n a d a 2 0 0 1 【5 】z h a n g ,ya n dj s k o l n i c k t h ep r o t e i ns t r u c t u r ep r e d i c t i o np r o b l e mc o u l db es o l v e du s i n g t h ec u r r e n tp d bl i b r a r y p r o cn a t la c a ds c iusa 2 0 0 5 10 2 ( 4 ) :10 2 9 3 4 【6 】s h i n d y a l o vi na n db o u r n ep e p r o t e i ns t r u c t u r ea l i g n m e n tb yi n c r e m e n t a lc o m b i n a t o r i a l e x t e n s i o n ( c e ) o f t h eo p t i m a lp a t h p r o t e i ne n g 1 9 9 8 11 :7 3 9 - 7 4 7 【7 】h o l mla n ds a n d e rc p r o t e i n - s t r u c t u r ec o m p a r i s o nb ya l i g n m e n to fd i s t a n c em a t r i c e s j m o lb i 0 1 1 9 9 3 2 3 3 :1 2 3 1 3 8 【8 】s z u s t a k o w s k ij da n dw e n gz p p r o t e i ns t r u c t u r ea l i g n m e n tu s i n gag e n e t i ca l g o r i t h m p r o t e i n s 2 0 0 0 3 8 :4 2 8 - 4 4 0 【9 】y a n ga sa n dh o n i gb a ni n t e g r a t e da p p r o a c ht ot h ea n a l y s i sa n dm o d e l i n go fp r o t e i n s e q u e n c e sa n ds t r u c t u r e s i p r o t e i ns t r u c t u r a la l i g n m e n ta n daq u a n t i t a t i v em e a s n r ef o rp r o t e i n s t r u c t u r a ld i s t a n c e jm o lb i 0 1 2 0 0 0 3 0l :6 6 5 6 7 8 【1 0 f e n gz ka n ds i p p lm j o p t i m u ms u p e r i m p o s i t i o no fp r o t e i ns t r u c t u r e s :a m b i g u i t i e sa n d i m p l i c a t i o n s f o l dd e s 19 9 6 1 :12 3 - 13 2 【l l 】t a y l o rw r p r o t e i ns t r u c t u r ec o m p a r i s o nu s i n gi t e r a t e dd o u b l ed y n a m i cp r o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论