(生物医学工程专业论文)α类蛋白折叠核心注释数据库及氨基酸残基取代矩阵研究.pdf_第1页
(生物医学工程专业论文)α类蛋白折叠核心注释数据库及氨基酸残基取代矩阵研究.pdf_第2页
(生物医学工程专业论文)α类蛋白折叠核心注释数据库及氨基酸残基取代矩阵研究.pdf_第3页
(生物医学工程专业论文)α类蛋白折叠核心注释数据库及氨基酸残基取代矩阵研究.pdf_第4页
(生物医学工程专业论文)α类蛋白折叠核心注释数据库及氨基酸残基取代矩阵研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京工业大学工学硕上学位论文 对于序列相似性低于3 0 的蛋白质来说却并不适用 这是因为对于这些蛋白质 来说序列比对的结果与结构比对的结果往往不同 l i f c a 数据库中存在大量序 列差异很大但却具有明显类似结构和功能的蛋白质 因此 是否能够通过增加序 列比对对这些低序列相似性蛋白质进行保守结构区域的识别能力 氨基酸残基相互作用取代矩阵是影响多序列比对效果的重要因素 许多研究 表明 一个适宜的取代矩阵能够提高比对的敏感性 目前常用的取代矩阵均是对 具有高序列相似性的蛋白质进行序列比对而构建的 例如 b l o s u m 矩阵是基 于b l o c k s 数据库构建而得的 该数据库中的多数序列具有高相似性 因此 由高相似性序列比对而构建的取代矩阵不能很好地描述低相似性序列中氨基酸 残基之间替代关系 所以为使目前的比对算法更好的识别序列差别较大的序列 本文基于 b l o s u m 取代矩阵方法 通过定义基于全a 类蛋白折叠核心结构的序列一结构 数据块 b l o c k 提出了一种新的氨基酸残基相互作用取代矩阵一一 t o p s s u m 2 5 用于检测蛋白质折叠家族中的低相似成员 将t o p s s u m 2 5 取 代矩阵导入多序列比对程序c l u s t a l x1 8 3 选取了l i f c a 数据库中比较有代表 性的折叠类型 如平行拓扑模式下的四螺旋束 混合拓扑模式下的三角架折叠类 型所产生的序y u 结构数据块为测试集 做基于结构的多序列比对 结果表明 基于t o p s s u m 2 5 取代矩阵的多序列比对与b l o s u m 3 0 取代矩阵相比 能较 好地反应位点保守区域 并应用结构比对程序f a s t 验证其比对结果 保守区 域能较好重叠 本文最后利用多序列比对程序平台b a i i b a s e 数据库对基于折 叠类型的取代矩阵t o p s s u m 2 5 的精度进行了比较和评价 因此 我们认为蛋白质折叠类型的保守性 则可能主要体现在保持某些共同 的特有二级结构单元和折叠方式上 基于折叠类型的氨基酸残基相互作用取代矩 阵 t o p s s u m 2 5 能够为迸一步阐明低相似蛋白质的序列一结构一功能关系提供帮 助 关键词 低相似性 蛋白质折叠核心 取代矩阵 多序列比对 i i a b s t r a c t e x p l o r i n g t h er e l a t i o n s h i po f s e q u e n c e s t r u c t u r ea n df u n c t i o no f p r o t e i ni so n e o f t h ec o r ei s s u e si nm o l e c u l a rb i o l o g y i nh o m o l o g o u sp r o t e i nf a m i l i e s al a r g en u m b e r o fp r o t e i n s v i ms i m i l a rs e q u e n c e sh a v eah i g l lp r o b a b i l i t yt oa l s os h a r et h es a m e s t r u c t u r e sa n df u n c t i o n s h o w e v e r i ti sd i s c o v e r e dt h a tm a n yp r o t e i n sw i t h i nt h e p r o t e i ns u p e r f a m i l ya n dt o p o l o g i c a ls t r u c t u r ec l a s s i f i c a t i o nl e v e l sh a v ev e r ys i m i l a r s t r u c t u r e sa n df i m c t i o me v e nw h e nt h es e q u e n c es i m i l a r i t i e sb e t w e e nt h e ma r e u n d e t e c t a b l e s t u d i e sh a v es h o w nt h a tt h ec o n s e r v a t i o no fp r o t e i ns e q u e n c ea n d s t r u c t u r ei st h er e s u l to fi t sm o l e c u l a rf u n c t i o na n dm o l e c u l a re v o l u t i o n t oe x p l o r e t h er e l a t i o n s h i po ft h ep r o t e i ns e q u e n c e s t r u c t u r e f u n c t i o ni nt h ep r o c e s so fm o l e c u l a r e v o l u t i o n i ti sn e c e s s a r yt od of n r t h e ra n a l y s i sf o rt h ec o n s e r v a t i o no ft h ep r o t e i n s e q u e n c ea n ds t r u c t u r e t h i sr e s e a r c hi s t oc o n t r i b u t et o w a r d sb r i d g i n gt h eg a p b e t w e e np r o t e i ns e q u e n c ea n ds t r u c t u r ea n a l y s i s i nt h eh o p et h a tt h i sc a l lb eu s e dt o a s s i s tt h eu n d e r s t a n d i n go f t h er e l a t i o n s h i pb e t w e e ns e q u e n c e s t r u c t u r ea n df u n c t i o n n ek e yo ft h ep r o t e i ns e q u e n c ea n a l y s i si sc o m m o n l yu s e dt oi n f e rt h es i m i l a r s e q u e n c ef r a g m e n t s t r u c t u r e f u n c t i o nd o m a i na n dt h es i m i l a r i t i e so fl o wi d e n t i c a l s e q u e n c e s t r a d i t i o n a lm u l t i p l es e q u e n c ea l i g n m e n ta l g o r i t h m sf a i lt op r o v i d e a n a c c u r a t ev i e wo fl o wi d e n t i c a ip r o t e i n s s o t h en e x tl o g i c a ls t e pi st of i n daw a yo f d e t e c t i n gs i m i l a r i t i e sb e t w e e np r o t e i n s 州也t h el o ws e q u e n c es i m i l a r i t y b u t t h e a n a l y s i sr e q u i r e sap l a t f o r mt h a tp r e s e n t st h es t r u c t u r e s e q u e n c ed a t a t h u s w ef i 磷l y c o n s t r u c t e dal o wi d e n t i c a l p r o t e i n f o l dc o r es t r u c t u r e sa n da n n o t a t i o n d a t a b 鹊e l i f c a b a s e do nt h ea n a l y s i so fl i f c a sf o l dc o r es t r u e t u x e s t h e c o n s e r v a t i v er e l a t i o n s h i po fs e q u e n c e s t r u c t u r ew i t hl o ws i m i l a r i t i e si sd i s c u s s e d c o m b i n i n gt h er e s u l t so fb i o c h e m i s t r ya n dm o l e c u l a rb i o l o g y t h u s i nt h i sr e s e a r c h t h ec o m b i n a t i o no f t h ef o l l o w i n gt w oi d e a si st h em a j o rf e a t u r eo f t h ec u r r e n tw o r k 1 c o n s t r u c t i n gal o wi d e n t i c a lf o l dc o r es t r u c t u r e sa n da n n o t a t i o nd a t a b a s e l i f c a t h ep r o t e i nf o l dc o r es t r u c t u r ei sah i g h l ys i m p l i f i e dd e s c r i p t i o no fi t sf o i d i n c l u d i n go n l yt h es e q u e n c eo fs e c o n d a r ys t r u c t u r ee l e m e n t s s s e s i e h e l i c e so r s t r a n d s a n ds p a t i a la r r a n g e m e n to fs s e s f o ra l la l p h ah e l i x e s n e g l e c t i n gt h eb s h e e ta n dc o i l s a n do n l ya l p h ah e l i x e sr e l a t i v es p a t i a lp o s i t i o n sa n da p p r o x i m a t e o r i e n t a t i o n s b ys e t t i n gt h ec r i t e r i o no fs t r u c t u r a lr e s o l u t i o na n dl o ws e q u e n c ei d e n t i t y l0 2 1 a l l a l p h ap r o t e i n sw e r es e l e c t e df r o ma s t r a l 1 6 5d a t a b a s et oc o n s t r u c tad a t a b a s e w i t ht h ev a l u eo fr e s o l u t i o nl o w e rt h a n2 5 aa n ds e q u e n c ei d e n t i t ys m a l l e rt h a n2 5 w eu s eam o l e c u l a rg r a p h i c sv i s u a l i z a t i o nt o o lr a s m o lt oa i dt h ec l a s s i f i c a t i o no f t h ef o l dc o r e so ft h e s ea l l a l p h ap r o t e i n s o n l y5 0 1o ft h eo r i g i n a ll0 2 1p r o t e i n s i r e m a i n e dw h e nt h o s ee x t r e m e l ys i m p l e 1 h e l i x 2 h e l i x e r e a n dc o m p l e xc o r e s t r u c t u r e s t h en u m b e r so fa h e l i xm o r et h a n6 0 e r e a r ee x c l u d e d a n dt h e s e5 0 1 a l l a l p h ap r o t e i n sa r ec l a s s i f i e di n t o4 4f o l dc o r es t r u c t u r et y p e s t h ea n n o t a t i o nf i l e s a r eg e n e r a t e df o re v e r yc o r es t r u c t u r et ob u i l du pam a po ff o l ds p a c e t h u s w e c o n s t r u c tal o wi d e n t i c a lf o l dc o r es t r u c t u r ea n da n n o t a t i o nd a t a b a s l i f c a 2 s t u d yo nt h ea m i n oa c i ds u b s t i t u t i o nm a t r i c e sb a s e do nt h ep r o t e i nf o l d s t h es e q u e n c ec o m p a r i s o nm e t h o d sa r et h em o s tw i d e l yu s e dt o o l sf o re x p l o r i n g t h es i m i l a r i t i e so fp r o t e i ns t r u c t u r e s p r o t e i n ss h a r i n gm o r et h a n3 0 o fs e q u e n c e i d e n t i t yh a v eah i 吐s t r u c t u r a ls i m i l a r i t y 1 1 l e r e f o r e t h ep r o t e i n sw i t h o u t3 ds t r u c t u r e s c a nb e c o m p a r e dt os e q u e n c e sb e t w e e nt h e m t o i d e n t i f yt h es t r u c t u r eo ft h e c o n s e r v a t i v er e g i o n h o w e v e r t h i sm e t h o dt ot h ep r o t e i n sw i t hl e s st h a n3 0 s e q u e n c es i m i l a r i t i e sd o e sn o ta p p l ye x a m p l e t h i si sb e c a u s et h ea l i g n e dr e s u l t st o t h e s ep r o t e i ns e q u e n c e sa r eo f t e nd i f f e r e n tf r o mt h e s es t r u c t u r a la l i g n m e n t s t h e r ei sa g r e a td e a lo fd i f f e r e n ts e q u e n c es i m i l a r i t y b u ti ti so b v i o u s l yv e r ys i m i l a rs t r u c t u r e a n df u n c t i o no fp r o t e i n sj nl i f c a t h e r e f o r e h o wt oi m p r o v et h er e c o g n i t i o n c a p a b i l i t yt oc o n s e r v a t i v er e g i o n st h r o u g hs e q u e n c ec o m p a r i s o nm e t h o d s t h ea c c u r a c yo ft h ea l i g n m e n tb e t w e e np r o t e i ns e q u e n c e sr e l i e so nas u b s t i t u t i o n m a t r i xt h a ts c o r e st h ep r o x i m i t yo ft h ea l i g n e da m i n oa c i d s m a n ys t u d i e sh a v es h o w n t h a tas u i t a b l em a t r i xc a ni m p r o v et h es e n s i t i v i t yo fa l i g n m e n t n o wt h ec o m m o n l y u s e dm a t r i c e sa r ec o n s t r u c t e db yo n l yt h ep r o t e i ns e q u e n c ea l i g n m e n t s i t l lh i 曲 s e q u e n c es i m i l a r i t y f o re x a m p l e t h eb l o s u ms u b s t i t u t i o nm a t r i c e sa r eb a s e do n t h eb l o c k sd a t a b a s e t h ed a t a b a s ei st h em o s th i g hs e q u e n c es i m i l a r i t i e s t h e r e f o m b u i l d i n go nam a t r i xb yt h eh i g hs e q u e n c es i m i l a r i t yc a l ln o tg i v eag o o dd e s c r i p t i o n t ot h es u b s t i t u t i o nr e l a t i o no fl o ws e q u e n e es i m i l a r i t y i nt h i sp a p e r a c c o r d i n gt ot h em e t h o d so fp r e v i o u sw o r ko ns u b s t i t u t i o n m a t r i x b l o s u m b yd e f i n e ds e q u e n c e s s t r u c t u r ed a t ab l o c k sb a s e do nf o l dc o r e s t r u c t u r e so fa l ja l p h ap r o t e i n s a ni m p r o v e ds u b s t i t u t i o nm a t r i x t o p s s u m 2 5i s d e s i g n e df o rd e t e c t i n gm e m b e r sw i t hl o ws i m i l a r i t yo ft h ep r o t e i nf o l df a m i l i e s e a n a l y z ei nd e t a i lt h e4 h e l i xb u n d l ea n dt r i a n g l ef o l dc o r es t r u c t u r et y p e so fl i f c a d a t a b a s e t h ec l u s t a i xr e s u l t si n d i c a t et h a ta l i g n m e n t su s i n gt o p s s u m 2 5m a t r i x c o m p a r ef a v o r a b l yt oa l i g n m e n t sc a r r i e do u tu s i n gt h eb l o s u mm a t r i c e sw h e n v a l i d a t e da g a i n s tf a s ta l i g n m e n t s r e s u l t sc o n f i r mt h ei m p o r t a n c eo fc o n s i d e r i n g s u b s t i t u t i o nm a t r i c e si n c l u d i n gs t r u c t u r a li n f o r m a t i o ni na l i g n i n gd i s t a n t l yr e l a t e d p r o t e i n s n l ea i mo ft h i sr e s e a r c hi st oc o n t r i b u t et o w a r d sb r i d g i n gt h eg a pb e t w e e np r o t e i n s e q u e n c ea n ds t r u c t u r ea n a l y s i s i nt h eh o p et h a t t h i sc a nb eu s e dt o a s s i s to u r u n d e r s t a n d i n go f t b er e l a t i o n s h i pb e t w e e ns e q u e n c e s t r u c t u r ea n d f u n c t i o n k e yw o r d s ll o wi d e n t i t y p r o t e i nf o l dc o r e s u b s t i t u t i o nm a t r i x m u l t i p l es e q u e n c e sa l i g n m e n t 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他 人已经发表或撰写过的研究成果 也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意 签名 刻堕竖日期 芝璺 关于论文使用授权的说明 本人完全了解北京工业大学有关保留 使用学位论文的规定 即 学校有权 保留送交论文的复印件 允许论文被查阅和借阅 学校可以公布论文的全部或部 分内容 可以采用影印 缩印或其他复制手段保存论文 保密的论文在解密后应遵守此规定 签名 奎4 螋导师签名 乏哗日期 兰蛐 第1 章绪论 1 1 引言 第1 章绪论 后基因组时代的终极目标是理解并预测生物大分子 核酸 蛋白质和糖 的序列 结构与功能之间的关系 随着人类基因草图的绘制完毕 基因的识别与 破译逐渐成为生命科学的亮点 然而 核酸的序列是极其复杂的 就像在计算机 科学中不借助源程序就难以读懂机器码一样 不弄清基因最终的表达产物蛋白 质 就难以真正理解核酸序列中所存储的信息 于是 人们又启动了蛋白质组解 析计划 h u m a np r o t e o m ep r o j e c t h p p 以期提供人类完整的蛋白质序列与结构 的资料 围绕着蛋白质科学研究的4 个重大问题是 基因识别与注释 g e n e r e c o g n i t i o na n da n n o t a t i o n 蛋白质进化 p r o t e i ne v o l u t i o n 蛋白质折叠 p r o t e i n f o l d i n g 和蛋白质结构与功能的关系 r e l a t i o n s h i pb e t w e e ns t r u c t u r ea n df u n c t i o n o f p r o t e i n s 如图1 1 基因识别注释折叠问题结构功能关系 蛋白质进化问题 圈卜l 蛋白质 序列一结构一功能 关联示意图 f i g u r e l r 1s c h e m a t i cd i a g r a mf o r t h es e q u e n c e s t m c t u r e f u n c t i o nc o r r e l a l i o no f p r o t e i n s 1 2 蛋白质简介 1 2 1 什么是蛋白质 蛋白质是组成人体的重要成分之一 占人体全部重量的1 8 人体一切细 胞都由蛋白质组成 蛋白质分子中含有碳 氢 氧 氮 硫和磷 是人体氮的唯 一来源 在生物学中 蛋白质被解释为是由氨基酸借肽键联接起来形成的多肽 然后由多肽连接起来形成的物质 是构成生物体组织器官的支架和主要物质 在 北京工业大学工学硕士学位论立 生命活动中起着重要作用 可以说没有蛋白质就没有生命活动的存在 蛋白质在 生物体内形式和作用也是多样化的 凡构成生物体的结构物质 如肌肉蛋白 促进体内化学反应的生物催化剂 酶 调节生理功能的肽类激素 运输氧和二 氧化碳以及传递铁离子的载体 血红蛋白 抵抗病菌的抗体 还有对生物体有 害的病毒等 其本质都是蛋白质 另外 生命的起源和生物的遗传进化也都与蛋 白质密切相关 谷类 豆类和其他植物种子也都含有或多或少的蛋白质 总之 生命的存在离不开蛋白质 1 1 1 2 2 蛋白质的组成 氨基酸是蛋白质组成的基本单元o 氨基酸按一定的顺序在肽键的连接下 形成一条氨基酸序列 自然界中存在着2 0 种氨基酸 它们分别是 丙氨酸 a l a a 精氨酸 a r g r 天冬酰胺 a s n n 天冬氨酸 a s p d 半胱 氨酸 c y s c 谷酰胺 g i n q 谷氨酸 g l u e 甘氨酸 g l y g 组氨酸 h i s h 异亮氨酸 i l e i 亮氨酸 l e u l 赖氨酸 l y s k 甲硫氨酸 m e t m 苯丙氨酸 p h e f 脯氨酸 p r o f 丝氨酸 s e t s 苏氨酸 t h r t 色氨酸 x r p w 酪氨酸 t y r y 缬氨酸 v a l v 括号里面的第一项是氨基酸的三字母表示方法 第二项是氨基酸的单字母 表示方法 2 0 种氨基酸在大小 形状 电荷 形成氢键的能力和化学活性方 面都存在差异 主要原因就是2 0 种氨基酸的r 基侧链的化学结构不同 蛋白 质实现的功能所以如此之广 也正是由于氨基酸之间的物理化学的差异 以及它 们的各种排列的变化结果 对于氨基酸之间的差异 有时候为了研究的需要 通常也对这2 0 种氨基酸 进行一些简单的分类 减小其差异的复杂程度 虽然目前并没有一个统一的分类 但是大体上都是相同的 只是在个别氨基酸的分类上存在着一些差异 目前比较 认同的一种分类方法是将氨基酸按照它们的大小 酸碱性 极性等性质进行的分 类 图1 2 给出的是将2 0 种氨基酸分成了极小氨基酸 t i n y 小氨基酸 s m a l l 极性氨基酸 p o l a r 带电荷的氨基酸 c h a r g e d 疏水氨基酸 h y d r o p h o b i e 芳香族氨基酸 a r o m a t i c 脂肪族氨基酸 a l i p h a t i e 从图l 一2 中 可以观察到 氨基酸的分类存在交叉 一种氨基酸同属于不同的分类 研究者可 以根据研究的需要选择合适的分类 以上分类在解释蛋白质的很多结构和功能的关系时起到了很大的作用 例如 在对蛋白质的已知序列比对时 所谓的保守性取代 基本上是以这些分类原则为 依据的 蛋白质中的赖氨酸残基 l y s k 变成精氨酸残基 a r g r 天冬 2 第1 章绪论 氨酸残基 a s p d 替换成谷氨酸残基 g l u e 甘氨酸取代为丙氨酸等等 都被看成是保守的置换 原因就在于它们属于同一分类 具有某些相同的物理化 学性质 比如说 赖氨酸残基和精氨酸残基都带正电 天冬氨酸残基和谷氨酸残 基都带负电 t 2 组成蛋白质的2 0 种氨基酸的一些性质和分类 1 f i g u t e l 2av e n nd i a g r a ms h o w i n gt h er e l a t i o n s h i po f t h e2 0n a t u r a l l yo c c u r r i n ga m i n o a c i d st oas e l e c t i o no f p h y s i c c h e m i c a lp r o p e r t i e s 1 2 3 蛋白质结构层次 蛋白质分子是由2 0 种不同的氨基酸通过共价键连接而成的线性多肽链 一 个伸展的或随机排布的多肽链是没有任何生物活性的 多肽链必须按照一定的规 律折叠成立体结构 才具有生物活性 蛋白质分子结构的一个显著特征是其结构 的层次性 一般用一级结构 二级结构 三级结构和四级结构表示蛋白质分子的 不同结构层次 一级结构指的是一条多肽链中氨基酸残基的排列顺序 二级结构 指的是多肽主链骨架中的某些肽段借助氢键的维系而形成的沿一个方向具有周 期性的构象 主要包括a 螺旋和b 折叠 三级结构指的是一条多肽链中所有原 子的空间排布 四级结构是指寡聚蛋白质各亚基之间在空间上的相互关系和结合 方式 如图1 3 蛋白质的种类多种多样 其分类方法因侧重点不同而异 通常根据蛋白质的 二级结构含量将蛋白质分为四种结构型 如图l 4 5 全a 类蛋白 全1 3 类 蛋白 i f 1 3 类蛋白 a b 类蛋白 具体定义是 北京工业大学工学硕士学位论文 图1 3 蛋白质分子的结构层次 f i g u r e l 3t h es t r u c t u r el e v e l so f t h ep r o t e i nm o l e c u l e 全a 类蛋白 o r 螺旋含量大于4 0 1 3 折叠含量小于5 全p 类蛋白 a 螺旋含量小于5 口折叠含量大于4 0 n 1 3 类蛋白 旺螺旋含量和b 折叠含量都大于1 5 并且多数 多于6 0 折叠链反平行排列 a p 类蛋白 i f 螺旋含量和p 折叠含量都大于1 5 并且多数 多于6 0 折叠链平行排列 蛋白质的分类给予我们研究蛋白质带来了方便 我们可以根据需要选择适当 的蛋白质类进行 同时也可避免对于同类蛋白的重复研究 图卜4 蛋白质结构型分类 a 全口型蛋白 b 全b 型蛋白 c o y p 型蛋白 f i g u r e l 4t h ed e f i n i t i o no f p r o t e i ns t r u c t u r a lc l a s s a a l l a b a l l p c 邮 4 1 3 蛋白质序列 结构及其关系研究的意义 1 蛋白质分子的结构和功能是由序列决定的 蛋白质是生命科学研究的重要对象 蛋白质在生命活动中发挥着不可取代的 功能 蛋白质的这些功能是由蛋白质分子的不同的空间结构决定的 6 0 年代 a n f i n s e n 关于核糖核酸酶变性和复性的实验研究 表明蛋白质的空间结构是由 蛋白质序列来决定 可以通过蛋白质的序列来确定蛋白质的空间结构 我们可以 通过蛋白质序列 来确定蛋白质结构 最终了解蛋白质的功能 但是蛋白质序列 是怎样决定其结构 到目前为止仍然是一个没有解决的问题 所以 关于蛋白质 序列和结构之间的关系仍然需要做进一步的研究 2 蛋白质序列与结构在数量上的巨大差距 促使我们要研究序列与结构之间的 关系 随着生命科学的进一步发展 越来越多的蛋白质序列被测定 2 0 0 3 年获得 了人类基因组的全部序列 这部由3 0 亿个字符组成的人类遗传密码本己活生生 地摆在了我们面前 由这些基因组经过翻译得到了大量蛋白质序列 相对而言 对蛋白质空间结构的测定速度要慢得多 现在测定蛋白质结构的方法主要有 x r a y 衍射和n m r 方法等 进行这样的结构测定需要很高的实验条件 同时 也需要较长的时间 因此 序列与结构在数量上随着时间的推移就形成了越来越 大的差别 到2 0 0 7 年4 月为止 蛋白质结构数据库p d b 1 中已经测定结构的 蛋白质大约有4 30 0 0 个 而蛋白质序列数据库s w i s s p r o t 1 中的蛋白质序列 大约已经有19 7 98 8 7 条 并且这个差距会变得越来越大 蛋白质结构测定的速 度远远不能满足人们的需要 因此 人们希望能够通过理论分析的方法找到从蛋 白质序列中直接提取结构信息的方法 从而弥补用实验方法进行结构测定速度较 慢的不足 因此 直接从氨基酸序列中提取结构的信息就变得尤为重要了 3 蛋白质分子设计的需要 蛋白质的分子设计就是为有目的的蛋白质工程改造提供设计方案 所谓蛋白 质工程是指人们在深入了解蛋白质空间结构以及结构与功能关系 并且在掌握基 因操作技术的基础上 设计和改造蛋白质 借以改善蛋白质的物理和化学性质 5 北京工业大学工学硕士学位论文 如提高蛋白质的热稳定性 酶的专一性等 使之更好地为人类所用 分子药物设 计的主要目标就是通过对蛋白质序列与结构和功能的关系的了解 根据需要构造 新的蛋白质 或者对现有的蛋白质中的局部位置上的氨基酸进行替换或重新组 合 使蛋白质具有新的功能 一旦人们了解了蛋白质序列与蛋白质结构 功能的 关系 就可以根据实际需要设计新的蛋白质 从而可以大大提高分子设计的速度 1 4 蛋白质序列 结构及其关系研究的现状 1 4 1 蛋白质序列研究 蛋白质序列研究的主要问题是从蛋白质的氨基酸序列中寻找关于蛋白质二 级结构和三级结构以及功能的信息 氨基酸序列 a m i n oa c i ds e q u e n c e 是蛋白质的基本数据 序列的信息决定 着蛋白质的功能 是蛋白质研究的基本思路 p i r s w i s s p r o t 0 1 等数据库存 储着大量的序列数据 它们有些来源于实验测序 但更多的来源于对核酸序列的 翻译 而且这些数据还在爆炸式的增长 通过序列比对进行结构预测是一个分析蛋白质序列的常用方法 1 在蛋白 质结构预测中起十分重要的作用 用于考察序列相似的蛋白质是否具有相似的功 能 大量研究结果表明 氨基酸序列非常相似的 全同性大于5 0 的确信区 蛋白质往往具有较高的同源关系 基本上执行相近的生物功能 序列极端不同的 全同性小于2 5 的暗黑区 蛋自质从大体上可否定它们能够共享功能 丽在 序列相似性的朦胧区 全同性2 5 3 0 的情况则是十分复杂的 2 如图 1 5 然而 在运用这些 大体上 正确的规则时须十分小心 在许多情况下 序列相似性处于确信区的蛋白质也可执行完全不同功能 例如 神经组织来源分 子 细胞因子受体 癌基因转化蛋白 人巨细胞病毒等功能各异的蛋白质可以具 有序列的高相似性 而序列全同性低于1 5 的蛋白质仍可能完成相似的功能 如球蛋白 细胞色素c 等 序列比对的理论基础是进化学说 如果两个序列之间具有足够的相似性 就 推测二者可能有共同的进化祖先 经过序列内残基的替换或序列片段的缺失 以 及序列重组等遗传变异过程分别演化而来 对蛋白质的序列进行空格插入 对齐 计数保守的残基 并对空格进行罚分是序列比对的惯用手段 b l a s t 1 和 c l u s t a w 是常用的核酸和蛋白质序列的比对工具 b l a s t h t t p w w w n c b i h i m n i l a g o v b l a s t 6 第1 章绪论 b l a s t 是基本局部比对搜索工具 b a s i cl o c a la l i g n m e n ts e a r c ht 0 0 1 的缩 写 其算法是基于长度相等且无空位的完全匹配的片段对的搜寻 延伸这些片段 对 得到高分值片段对 b l a s t 可根据用户的定义自动给出与提问序列全同性最 高的前几十个目标序列 运行速度快且实现了并行化处理 图1 5 蛋白质序列比对相似性区域 f i g u r e l 5t h eh o m o l o g yz o n eo f p r o t e i ns e q u e n c ea l i g n m e n t s c l u s t a l w h t t p w w w e b i a c u k c l u s t a l w c l u s t a l w 是目前使用最广泛的多序列比对程序 它的p c 版本是c l u s t a l x c l u s t a l w 采用的是一种渐进的比对方法 先将多个序列两两比对构建距离矩阵 反映序列之间的两两关系 然后根据距离矩阵计算产生系统进化指导树 对关系 密切的序列进行加权 然后从最紧密的两条序列开始 逐步引入临近的序列并不 断重新构建比对 直到所有序列都被加入为止 c l u s t a l w 的程序可以自由使用 在n c b i 的f t p 服务器上可以找到下载的软件包 现有的多序列比对软件 i 轴i6 在计算比对的代价或得分时 实际上 不同类 型的氨基酸替换 其代价或得分是不一样的 某些氨基酸可以很容易地相互取代 而不用改变它们的理化性质 直观地讲 比较保守的替换比起较随机替换更可能 维持蛋白质的功能 且更不容易被淘汰 因此 在为比对打分时 理化性质相近 的氨基酸残基之间替换的代价显然应该比理化性质相差甚远的氨基酸残基替换 得分高 或者代价小 同样 保守的氨基酸替换得分应该高于j 保守的氨基酸替 换 这样的打分方法在比对非常相近的序列以及差异极大的序列时 会得出不同 的分值 这就是提出打分矩阵 或者称为取代矩阵 的原由 在打分矩阵中 详细地列出各种字符替换的得分 从而使得计算序列之间的 相似度更为合理 在比较蛋白质时 我们可以用打分矩阵来增强序列比对的敏感 性 打分矩阵是序列比较的基础 选择不同的打分矩阵将得到不同的比较结果 而了解打分矩阵的理论依据将有助于在实际应用中选择合适的打分矩阵 以下介 1 等价矩阵 1 7 1 f 1 i r 0 i j 其中 毛代表打分矩阵元素 i j 分别代表字母表第i 个和第 个字符 2 遗传密码矩阵g c m z s c r c m 矩阵是通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密 码子变化数目而得到 矩阵元素的值对应于代价 g c m 常用于进化距离的计算 其优点是计算结果可以直接用于绘制进化树 但是它在蛋白质序列比对尤其是相 似程度很低的序列比对中很少被使用 该矩阵是根据氨基酸残基替换前后疏水性的变化而得到 若一次氨基酸替换 疏水特性不发生太大的变化 则这种替换得分高 否则替换得分低 4 p a m 矩阵 2 0 2 1 1 为了得到打分矩阵 更常用的方法是统计自然界中各种氨基酸残基的相互替 换率 如果两种特定的氨基酸之间替换发生得比较频繁 那么这一对氨基酸在打 是第一个广泛使用的最优矩阵 它是基于进化原理的 建立在进化的点接受突变 模型p a m p o i n ta c c e p t e dm u t a t i o n 基础上 通过统计相似序列比对中的各种 5 b l o s u m 矩阵 2 2 b l o s u m 矩阵是由h e n i k o f f 首先提出的另一种氨基酸替换矩阵 它也是 通过统计相似蛋白质序列的替换率而得到的 p a m 矩阵是从蛋白质序列的全局 比对结果推导出来的 而b l o s u m 矩阵则是从蛋白质序列块 短序列 比对 本数据来源于b l o c k s 数据库 2 甜 其中包括了局部多重比对 包含较远的相关 序列 与在p a m 中使用较近的相关序列相反 虽然在这种情况下没有用进 化模型 但它的优点在于可以通过直接观察而不是通过外推获得数据 同p a m 比较大约具有6 2 相似度的序列 而b l o s u m 8 0 矩阵更适合于相似度为 从序列比对的过程可以看到 利用此方法对蛋白质序列进行结构预测 实际 3 第1 章绪论 1 4 2 蛋白质结构研究 n i r c n b c r g h o l l e y 和k h o r a a a 因发现了遗传密码而获得了1 9 6 8 年诺贝尔 生理医学奖 于是 后继的研究者自然联想到在蛋白质一级序列上的几个连续的 氨基酸模体也有可能作为某种功能模块 沿着这一思路 研究者将一些序列上有 较大差异但功能上近似的蛋白质的超家族 s u p c f f a m i l y 进行多序列比对 然后 找出序列之间的保守区域 并认为这些保守区域是这一超家族行使功能所必需的 序列模体 但如前所述 他们所得到的结果并不像遗传密码那样的可靠和普适 以氨基酸序列预测蛋白质的功能遇到了巨大的困难 人们只有暂时抛开序列 仅 从结构的异同来判明与功能的关系 故此 蛋白质结构的比较和分类就显得十分 重要了 既然不能准确地从序列预测结构 研究者便集中精力在3 d 结构的层面上对 蛋白质进行比较和分类 如果把蛋白质的结构进行简化 只抽取蛋白质主链上的 c 原子坐标 并根据c 的空间位置和相互关系按照各具特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论