(工程力学专业论文)同源寡聚蛋白质的信息熵分类方法.pdf_第1页
(工程力学专业论文)同源寡聚蛋白质的信息熵分类方法.pdf_第2页
(工程力学专业论文)同源寡聚蛋白质的信息熵分类方法.pdf_第3页
(工程力学专业论文)同源寡聚蛋白质的信息熵分类方法.pdf_第4页
(工程力学专业论文)同源寡聚蛋白质的信息熵分类方法.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 人类基因组计划己进入到后基因组时代,对蛋白质结构和功能的研究和预测成为其 主要的研究方向之一。由于通过实验确定蛋白质的结构和功能速度较慢,而且会遇到一 些目前无法解决的困难。因此探索利用理论及计算方法来从氨基酸序列快速地推断出蛋 白质的结构和功能具有重要意义。本文从氨基酸序列出发,研究了同源寡聚蛋白质分类, 主要工作如下: 本文介绍了特征提取方法和同源寡聚蛋白质分类的研究现状,并对同源二聚体和同 源非二聚体蛋白质使用了基于伪氨基酸组成成分特征提取和信息熵方法进行分类研究。 伪氨基酸组成成分特征提取方法以传统的氨基酸组成成分为基础,又考虑了不同层次残 基之间的相互影响,包含了蛋白质序列的许多信息,根据这一特点,本文使用了伪氨基 酸组成成分作为特征提取方法。f d o d 方法是基于信息熵的信息离散性度量函数,它和叉 熵之间存在内在的联系,文中对它们之间的关系进行了研究,并在叉熵的基础上对多分 布偏差度量进行了进一步的思考。由于f d o d 是叉熵的一种形式,因此在它的基础上根 据特征向量的提取情况,对同源寡聚蛋白质进行分类。其分类能力比使用子序列分布为 2 的f d o d 方法要好。 本文中在原数据集中随机抽取一些数据构建了一个子数据集,并使用同样的方法对 子数据集进行分类。比较了两个数据集的分类结果,表明数据集的大小对分类系统的影 响较大。同时,对伪氨基酸组成成分特征提取方法的中权重园子的选取进行了讨论,说 明它可用于调节氨基酸序列次序信息对分类系统的影响程度,在计算中可根据结果的优 劣适当选取。 关键词:生物信息学:同源二聚体;同源非二聚体;伪氨基酸组成成分特征提取;f d o d 大连理工大学硕士学位论文格式规范 i n f o r m a t i o ne n t r o p ym e t h o di nc l a s s i f i c a t i o no fh o m o o l i g o m e r i c a b s t r a c t w i t l lh g pe n t e r i n gi n t op o s t g e n o m ee r a , h o wt or e s e a r c ha n dt op r e d i c tt h es t r u c t u r e a n dt h ef u n c t i o no fp r o t e i n sh a sp l a y e da ni m p o r t a n tr o l e t h es t r u c t u r ea n dt h ef u n c t i o no f p r o t e i n sm a yb ed e t e r m i n e d b ym e a n so fe x p e r i m e n t ,b u ti tc o s t sm u c ht i m ea n dm a yb em e e t l o t so fd i f f i c u l t i e s s ot h es c i e n t i s t sh a v eb e i n gs o u g h tt h et h e o r e t i c a la n dc o m p u t a t i o n a l m e t h o d sf o rp r e d i c t i n g 也e m t m sp a p e ri n v e s t i g a t e st oc l a s s i f i c a t i o no fh o m o o l i g o m e r i cp r o t e i n sf r o mp r i m a r y s t r u c t u r e m a i nc o n t e n t so f t h i sp a p e ra r ea sf o l l o w s : s o m e e x i s t i n g m e t h o d sf o rf e a t u r ee x t r a c t i o nm e t h o da n dc l a s s i f i c a t i o no f h o m o o l i g o m e r i cp r o t e i n sa r ei n t r o d u c e d 。p s e u d oa m i n oa c i dc o m p o s i t i o na n df d o dm e t h o d s a r ea p p l i e dt od i s c r i m i n a t eb e t w e e nh o m o d i m e r sa n dn o n - h o m o d i m e r s p s e u d oa m i n oa c i d c o m p o s i t i o nk e e p st h em a i nf e a t u r eo fa m i n oa c i dc o m p o s i t i o n ;o nt h eo t h e rh a n d ,i tt a k e s i n t oa c c o u n ts e q u e n c e - o r d e rc o r r e l a t i o nw i t hd i f f e r e n tr a n k s ,w h i c hc o n t a i nm o r ei n f o r m a t i o n b e y o n dt h ec l a s s i ca m i n oa c i dc o m p o s i t i o n s oi ti su s e da saf e a t u r ee x t r a c t i o nm e t h o di nt h i s t e x t f d o dm e t h o di saf u n c t i o no fd e g r e eo fd i s a g r e e m e n tw h i c hi sb a s e do ns h a n n o n e n t r o p y ,s oi th a si n t e r n a lc o n n e c t i o n 谢t hk le n t r o p y t h ec o n n e c t i o ni ss t u d i e d b a s e do n k - le n t r o p y ,t h em e t h o do fm e a s u r i n gd i s a g r e e m e n tf o rs e v e r a ld i s t r i b u t i o n si si m p r o v e d f d o dm e t h o di sa p p l i e db yn o tt a k i n gi n t oa c c o u n tt h es u b s e q u e n c ed i s t r i b u t i o n ,b u t a u g m e n t i n gt h ed i m e n s i o no fd i s t r i b u t i o n sw h i c hg e tf r o mp s e u d oa m i n oa c i dc o m p o s i t i o n 。 t h ec l a s s i f i c a t i o nr e s u l t sa r eb e t t e rt h a nt h o s eo ff d o dw h i c hl e n g t ho fs u b s e q u e n c ei st w o i nt 1 1 i sp r e s e n tw o r k as u b s e td a m b a s ei se s t a b l i s h e d i ti sr a n d o m l ys e l e c t e df r o mt h e o r i g i n a ld a t a b a s ea n da p p l i e dt oc l a s s i f y c o m p a r e dw i t ht w or e s u l t s ,i ti se v i d e n tt h a tt h e d a t a b a s es i z eh a sg r e a ti n f l u e n c eo nt h ep e r f o r m a n c eo ft h ep r e d i c t i o ns y s t e m 1 1 l ec l a s s i f y i n g r e s u l t sm a yb ea l s oi n f l u e n c e db yt h ew e i g h t e df a c t o r t h e r ei sa no p t i m a lv a l u eo f w e i g h t e d f a c t o rt ob es e l e c t e d k e yw o r d s :b i o i n f o r m a t i c s ;h o m o d i m e r s ;n o n - h o m o d i m e r s ;p s e u d oa m i n oa c i d c o m p o s i t i o n ;f d o d i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:垫迅,日期:冱丘:塑 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定 ,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:塑豳 导师签 迦年上匕月丝日 大趣工大学硕士学位论文 1 绪论 1 1 同源寡聚蛋白质分类研究的背景 人类基因组计划( h u a m ug e n o m ep r o j e e t , h g p ) 与曼哈顿原子弹研制计划、阿波罗 登月计划并称为2 0 世纪人类发展的三大科技计划它对人类认识和保护自身具有深远 的意义。随着h g p 的实施,基因组测序数据迅猛增加,逐渐兴起了- - l - j 新兴学科一 生物信息学。它主要是利用计算机存储核酸和蛋白质序列,研究算法,对序列进行分析、 比较与预测,从中发现规律,揭示功能f l j 。同源寡聚蛋白质分类预测正是其中的一个重 要的研究方向。 1 1 1 人类基因组计划 人类基因组计划是美国科学家子1 9 8 5 年在能源部的一次会议上提出的初步草案。 1 9 8 6 年诺贝尔奖获得者r d u l b e x x m 在s c i e n c e 上发表了一篇题为“癌症研究的转折点一 人类基因组的全序列分析”的短文。文中回顾了7 0 年代以来癌症的研究情况,指出: 包括癌症在内的疾病的发生都与基因直接、间接有关。他认为从整体上研究和分析整个 人类基因组及其序列的方法是一项具有重大意义的计划。 1 9 8 9 年美国成立“国家人类基因组研究中心”。诺贝尔奖获得者、d n a 分子双螺旋 模型提出者j w a s t o n 出任第一任主任。1 9 9 0 年1 0 月1 日美国人类基因组计划正式启动, 计划用1 5 年时问,总投资不少于3 0 亿美元进行人类全基因组的测序和分析工作。此计 划在1 9 9 3 年作了修订,其主要内容包括:人类基因组的基因图构建与序列分析;人类 基因的鉴定;基因组研究技术的建立;人类基因组研究的模式生物;信息系统的建立。 此外,还有人类基因组研究的社会、法律与伦理问题,交叉学科的技术训练,技术的转 让,研究计划的外延等共9 方面的内容。 人类基因组计划最初的目标是:通过国际合作,用1 5 年时间构建详细的人类基因 组遗传图和物理图,并期望通过分析每个人类基因的功能和基因在染色体上的位置,使 医学专家们了解所有疾病的分子结构,从而在根本上获得治疗的方法,迸而破译人类全 部遗传信息,使人类第一次在分子水平上全面地认识自我,最终解开人类生命的奥秘。 由于技术的改进,计划提取完成,于2 0 0 1 年2 月1 2 日完成并公布了准确、清晰、 完整的人类基因组图谱。但是,入类基因组计划的分析还在很初步的阶段。随着基因组 计划的进一步实施,特别是后基因组计划的发展,更加需要对数据进行分析、比较、建 模和预测,以推动生物信息学的迅速发展。后基因组的研究,将成为2 l 世纪生命科学 研究的主要任务i l j ,丽这离不开生物信息学的发展。 大连理工大学硕士学位论文格式规范 1 1 2 生物信息学 随着人类基因组计划的实旅,有关核酸和蛋白质的数据呈爆炸性的增长,为了存贮 分析处理这些数据,一门新兴的交叉学科生物信息学( b i o i n f o r m a t i c s ) 在2 0 世纪8 0 年代 末期正式诞生。虽然它诞生才近2 0 年,但发展极其迅猛,已经成为当今生命科学的一 个重要的前沿领域。 广义地说,生物信息学从事对生物信息的获取、加工、储存、分配、分析和释读, 并综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目标。 具体地说,生物信息学是把基因组d n a 序列信息分析作为源头,找到基因组序列 中代表蛋白质和r n a 基因的编码区;同时,阐明基因组中大量存在的非编码区的信息 实质。破译隐藏在d n a 序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗 传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识生物代谢、发育、分化、 r 1 进化的规律h 。 生物信息学研究的主要内容包括:基因组、蛋白质组和蛋白质结构及药物设计。 ( 1 ) 基因组 乱获取人和各种生物的完整基因组 基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有3 2 亿个碱基, 要得到人的全部遗传密码首先要把人的基因组打碎,铡完一个个小段的序列后再把它们 重新拼接起来。迄今为止,人们对人类基因组真正掌握规律的只有d n a 上的编码蛋白 质的区域,最新资料表明这部分序列只占基因组的1 。l 。在高等生物和人的基因组中 非编码序列己占到基因组序列的绝大部分。这表明非编码序列具有重要的生物功能。由 于它们并不编码蛋白质,一般认为,它们的生物学功能可能体现在对基因表达的时空调 控上。 b 发现新基因 利用e s t ( e x p r c s s e ds e , q u e n c et a g s ) 数据库发现新基因称为基因的“电脑克隆”。e s t 序列是基因表达的短c 饼q a 序列,它们携带着完整基因的某些片段的信息。通过计算 分析从基因组d n a 序列中确定新基因编码区,已经形成许多分析方法,如根据编码区 具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异等。截止到2 0 0 1 年 l o 月,在g c n b a n k 的e s t 数据库中,人类e s t 序列已超过3 8 0 万条,它大约覆盖了人类 基因的9 0 以上。 此外,还可以从基因组序列预测新基因,其本质是把基因组上编码蛋白质的区域和 非编码蛋白质的区域区分开从方法上讲,就是找出在编码区和非编码区有哪些数学和 物理学特征是不一样的,将这些序列与已知基因数据库进行比较,就可以发现新基因。 一2 一 大连理工大学硬:t - - 撇 c 发现单核苷酸多态 基因组存在的差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性( s i n g l e n u c l e o t i d ep o l y m o r p h i s m , s n t ) 一般认为,s h i p 研究是人类基因组计划走向应用的重要步骤。这主要是因为s n p 将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和 测试以及生物学的基础研究等。s n p 在基因组中分布相当广泛。近年的研究表明,在人 类基因组中每3 0 0 个碱基对就出现一次。大量存在的s n p 位点,使人们有机会发现与 各种疾病相关的基因组突变。 ( 2 ) 蛋白质组 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片 技术只能反映从基因组到r n a 的转录水平上的表达情况,而从r n a 到蛋白质还有许多 中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者 蛋白质的整体表达状况。因此,近年在发展基因芯片的同时,人们还发展了一套研 究基因组所有蛋白质产物表达情况的技术一一蛋白质组研究技术,从技术上讲包括二维 凝胶电泳技术和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质 组的表达情况,通过质谱测序技术则可以得到所有这些蛋白质的序列组成。然而,最重 要的是如何运用生物信息学的方法去分析获得的海量数据,从中还原出生命运转和调控 的整体系统的分子机制。 ( 3 ) 蛋白质结构及药物设计 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来。然而,要了解它 们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维结构来执行 的,而且蛋白质的三维结构不一定是静态的,在执行功能的过程中,其结构会有所改变。 目前,除了通过诸如x 射线晶体结构分析、多维核磁共振波谱分析和电子显微镜二维晶 体三维重构等物理方法获得蛋白质的三维结构之外,广泛使用的一种方法是通过计算机 辅助预测的方法。一般认为,蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所 具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能 直接从蛋白质的氨基酸序列,通过计算机辅助方法预测出蛋白质的三维结构。传统的药 物研制方法是从大量的天然产物和合成化合物中进行筛选。为获得一个可供临床使用的 药物,耗资和耗时都是巨大的。进行蛋白质空间结构的模拟和蛋白质功能的预测,进而 将此信息与生物体和生命过程的生理和生化信息结合,阐明其分子机制,最终进行分子 设计药物设计和个体化的医疗保健设计。 大连理工大学硕士学位论文格式规范 生物信息学的研究目标:认识生命的起源、进化、遗传和发育的本质,破译隐藏在 d n a 序列中的遗传语言,揭示“基因组信息结构的复杂性及遗传语言的根本规律”, 揭示人体生理和病理过程的分子基础,为人类疾病的诊断、预防和治疗提供最合理而有 效的方法和途径。 1 2 同源寡聚蛋白质分类预测的意义 人类基因组计划已经基本完成,进入到后基因组时代( p o s t - g e n o m ee r a ) ,即揭示基因 组及其保护的全部基因的功能,以及对基因产物蛋白质结构和功能的研究和预测。 蛋白质组学成为一个与基因组相对应的概念。蛋白质组是指由一个细胞或一个组织的基 因所表达的全部相应的蛋白质。它是一个动态的概念:不同组织和不同发育时期所表达 的蛋白不同;基因在转录后,还有一系列的修饰、翻译等过程都可以影响蛋白质的表达。 因此通过对蛋白质组的研究,更能阐明遗传、发育、进化、功能调控等基本生物学问题, 以及与人类健康和疾病相关的生物医学问题l l j 蛋白质的生物学功能在很大程度上取决于其空间结构,蛋白质结构构象多样性导致 了不同的生物学功能。蛋白质结构与功能关系研究是进行蛋白质功能预测及蛋白质设计 的基础。蛋白质分子只有处于它自己特定的三维空间结构情况下,才能获得它特定的生 物活性;三维空间结构稍有破坏,就很可能会导致蛋白质生物活性的降低甚至丧失。目 前,研究蛋白质空间结构主要方法有x 射线晶体衍射方法、多维核磁共振方法等。x 射 线晶体衍射方法是迄今为止研究蛋白质结构最有效的方法。但是,有机小分子的x 射线 。 结构测定分辨率约l a ,极少有蛋白质晶体具有这种有序程度,并且,不是所有蛋白质 都可被巧妙地结晶,亦即以有序三维阵列方式沉淀。即使形成晶体的蛋白质也与多数有 机小分子晶体不同,它们是高度水化的,且晶体结构测定的周期较长。多维核磁共振方 法可以直接测定蛋白质在溶液中的构象,可以阐明那些无法结晶的蛋白质的结构。但由 于对样品的需要量大、纯度高,被测定的蛋白质的分子量一般不超过2 万等,因而也受 到很大限制p 一。能够知道结构的蛋白质数量与已知序列的蛋白质数量相差很大,而且 这一差距越来越大。显然,所有蛋白质的空间结构和功能都通过实验测定是不现实的, 因而有必要发展一种可靠的理论预测方法,借助于计算的手段来得到某种程度的解决。 也就是充分利用蛋白质的一级序列信息来研究结构与功能的关系,利用己知蛋白质的结 构信息,研究生物大分子的规律和规则。 1 9 6 1 年a 面l n s e n 等根据变性的核糖核酸酶a 在一定条件下可以自发地再折叠形成 天然酶分子的实验,提出蛋白质分子的一级序列完全决定其三维结构的著名论断 s l ,并 因此获得诺贝尔奖,后来这一论断多次被实验证实,在蛋白质领域被广泛接受。尽管近 大连理工大学硕士学位论文 些年对蛋白质折叠过程的研究发现有“分子伴侣”参与折叠过程,但是“分子伴侣”可 能只是起到稳定折叠中间体的作用,并不影响蛋白质的最终折叠构象,蛋白质的一级结 构决定高级结构是蛋白质结构预测的基础 蛋白质高级结构是指蛋白质的二、三、四级结构。具有四级结构的蛋白质称为寡聚 蛋白质,其中每个球状蛋白质称为亚基。由相同亚基构成的寡聚蛋白质称为同源寡聚蛋 白质。寡聚蛋白质不是亚基的简单组合,和单体蛋白质相比,结构更加复杂,功能更加 多样化,它们广泛地参与物质代谢、信号传导、染色体复制等各种生命活动,因此从蛋 白质一级结构出发对蛋白质四级结构分类预测,从而研究蛋白质的功能具有重要的生物 学意义。 1 3 国内外研究现状 目前,对于同源寡聚蛋白质分类研究较少,主要有以下几种方法: 2 0 0 1 年,o a r i a n r n 首次在b i o i n f o r m a t i c s 发表了利用决策树和简单b i n n i n g f u n c t i o n 特征提取方法从蛋白质一级结构出发对同源二聚体和同源非二聚体蛋白质进行分类的 研究结果,证实了蛋白质一级结构即氨基酸序列包含四级结构信息。c _ r t i r nr 在预测时 不仅考虑了氨基酸序列信息,而且还考虑了氨基酸的物理、化学和生物特性。计算结果 的精度较低。 2 0 0 3 年,c h o uk c 7 j 等人使用伪氨基酸组成成分特征提取和协方差判别式( c o v a r i a n t d i s c n m i n a n ta l g o r i t h m ) 方法对多类同源寡聚蛋白质进行分类。分类结果优于决策树方法。 伪氨基酸组成成分特征提取方法反映了埋藏在缔合亚基作用部分接触表面的基本信息, 比基本氨基酸组成方法包含了更多的蛋白质结构信息 2 0 0 3 年,西北工业大学的张绍武州等人利用支持向量机和贝叶斯两种方法对同源寡 聚蛋白质进行分类预测。利用支持向量机方法时,它的核函数及其参数的选取对分类结 果有影响,但与决策树方法相比较,支持向量机方法只考虑了氨基酸序列信息,而且分 类结果要优于决策树方法,从而说明支持向量机方法用于蛋白质四级结构分类是一种非 常有效的方法。贝叶斯方法中只有错误分类的正样本率略好于上述两种方法,其计算精 度不如决策树和支持向量机方法,但结果可说明同源寡聚蛋白质一级序列包含四级结构 的信息。 同年,张绍武【9 j 等人又在b i o i n f o r m a t i c s 发表了基于自相关函数特征提取方法,使 用支持向量机作为分类器对同源二聚体和同源非二聚体进行分类的论文。文中自相关函 数特征提取方法考虑了氨基酸的物理、化学等性质,分类结果优于基于传统氨基酸组成 方法的分类结果。 大连理工大学硕士学位论文格式规范 2 0 0 4 年,大连理工大学的宋杰【l o 1 1 】利用子序列与支持向量机方法、子序列与y d o d 方法对同源寡聚蛋白质进行分类预测。在支持向量机的模型和算法方面,构造了一种基 于线形规划的v - s v m 分类器,证明了参数v 具有明确的意义,可以控制支持向量的数 目和误差,可直接利用比较成熟的线性规划算法,计算时间比以前的支持向量机方法要 快几十到几百倍,而分类准确率两者相当。 f d o d 方法是方伟武教授基于信息论中熵的概念提出的一种信息离散性度量函数。 宋杰把子序列分布与f d o d 函数应用于同源寡聚蛋白质的分类预测,虽然结果的精度略 低于支持向量机方法,但是f d o d 方法计算简单快速。 2 0 0 6 年,施建宇1 1 2 j 等提出了氨基酸组成分布概念。并基于氨基酸组成分布( 一种 新的特征提取方法) ,使用支持向量机作为成员分类器,采用“一对一”的多类分类策 略对同源寡聚蛋白质进行分类。 2 0 0 6 年,y u 1 1 3 j 等提出使用功能域组成( f i m c t i o n a ld o m a nc o m p o s i t i o n ) 方法对同 源寡聚蛋白质进行多类分类。功能域组成方法首先查找数据集中所有蛋白质的全部功能 域,然后构建数据集中每条蛋白质的功能域特征向量,最后利用最小邻近法对蛋白质进 行分类。 1 4 本文组织结构 本文的具体内容安排如下: 第一章介绍选题的背景、意义以及国内外研究现状。 第二章为蛋白质基础知识,详细介绍了蛋白质的组成、结构层次、稳定和维持蛋白 质高级构象的因素、蛋白质的生物学功能。 第三章和第四章分别介绍了特征提取方法和f d o d 函数的基本理论,并对它们的发 展、应用做了详细的说明和比较。在第四章中,分析f d o d 与叉熵的关系,并对f d o d 方法做了进一步的思考。 第五章为本文重点,利用伪氨基酸组成成分特征提取和f d o d 方法对同源寡聚蛋白 质进行分类计算。文中给出了具体的数值实验结果,并探讨了数据集大小、权重因子的 选取对分类结果的影响。 大连理工大学硕士学位论文 2 蛋白质基础知识 蛋白质是生物体的基本组成成分。蛋白质英文一词“p r o t e i n ”,是在1 8 3 9 年由荷 兰化学家g j m u l d e r 首先用来表示化合物的【3 】蛋白质在生物体的生命活动中起着重要 的作用。生物体内的蛋白质种类极其繁多。分布极其广泛,所担负的任务也是多种多样 的。人体蛋白质含量达人体于重的4 5 ,估计人体有1 0 万种以上蛋白质。几乎参与所 有的生命活动,生物体的生长、发育、繁殖、遗传等等生命活动都离不开蛋白质,它是 各种生命活动的物质基础。 2 1 蛋白质组成 各种蛋白质都含有c 、h 、o 、n 四种元素,有的含有s 和少量的f e 、c u 、m n 、 窈等金属元素。平均含n 量为1 6 。蛋白质可受酸、碱、酶的作用而水解。各种蛋白 质水解后都产生氨基酸,所以氨基酸是组成蛋白质的基本单位。 自然界中的氨基酸有3 0 0 余种,但参与人体蛋白质合成的氨基酸仅有2 0 种,除脯 氨酸外,都是口氮基酸。它们都有一个中心g 一碳原子( c 。) ,c 。与一个氢原子( 一h ) 、 一个氨基( 一n h 2 ) 、一个羧基( - c o o a ) 和一个被称为侧链的r 基团相连,( 如图2 i 所 示) 。2 0 种氨基酸在分子结构的差别在于r 侧链基团的不相同,形成了不同的氨基酸。 c o o 一 +i h 3 n g h r 图2 1 氨基酸分子结构通式 f i g 1 1a m i n oa c i d 氨基酸能聚合成链,这一过程可用去水缩合( c o n d e n s a t i o n ) 反应来表示( 如图2 2 所示) ,缩合产生的c o - n h 酰胺键被称为肽键( p e p t i d eb o n d ) 。 由二个或许多氨基酸单位构成的聚合物,分别被称为二肽和多肽。构成肽的单个氨 基酸被称为氨基酸残基。 多肽是线性聚合物,即每个氨基酸残基参加二个肽键,与邻近的氨基酸以首尾相连 的方式连结,而不形成支链。位于肽两端的残基仅参与一个肽键,具有自由氨基的残基 大连理工大学硕士学位论文格式规范 叫做氨基端或n 端,有自由羧基的残基称为羧基端或c 端。蛋白质是包含一个或多个 肽链的分子,多肽的长度和氮基酸序列的变化决定了蛋白质形态和生物功能的多样性。 甜hl 护 晦- - o h + 酬l k c 。 0 】k h 归l | + 丑如 i l 图2 2 二个氨基酸的缩台 f i g 2 。2t h ec o n d e n s a t i o no ft w oa i n oa c i d s 2 2 蛋白质结构层次 2 0 世纪初期,德国化学家e m i lh s c h c r 就已经指出:蛋自质中的氨基酸相互结合形 成多肽链。具有生物学功能的多肽和蛋白质都是有序的结构,但不是线形伸展,而是按 一定方式折叠盘绕形成特有的空间结构。蛋白质的空间结构又称为构象或高级结构,它 是指蛋自质分子中原子和基团在三维空间中的排布和肽链的走向。 早在2 0 世纪的3 0 年代,人们就已经开始研究蛋白质的空间结构,但是,直到1 9 5 2 年,蛋白质生物化学家l i n g d e r s t r o m - l a n g 提出蛋白质的一级结构、二级结构和三级结构 的概念后,才使蛋白质结构研究逐渐走上正确的道路。后来,随着越来越多的蛋白质结 构被测定出来,人们又提出了四级结构、超二级结构和结构域等概念h 。虽然蛋白质结 构很复杂,但是,其清楚的结构层次为进行蛋白质结构预测,揭示蛋白质的折叠规律提 供了极大的方便条件。 1 蛋白质一级结构( p r i m a r ys t r u c t u r e ) 蛋白质分子多肽链中氨基酸的排列顺序称为蛋白质的一级结构。蛋白质一级结构是 一个没有空间概念的结构。各种蛋白质中氨基酸的排列顺序是由该生物遗传信息决定 的体内种类繁多的蛋白质的级结构各不相同。级结构是蛋白质分子的基本结构, 它是决定蛋白质空间构象的基础,而蛋白质的空间构象则是实现其生物学功能的基础。 一8 一 大连理工大学硕士学位论文 图2 3 蛋白质一级结构 f i g 2 3p r i m a r ys t r u c t u r e 一级结构中的主要化学键是肽键,蛋白质分子中有二硫键,有时也将其包含在一级 结构中。 2 蛋白质二级结构( s e c o n d a r ys t r u c t u r e ) 最早的蛋白质二级结构是p a u l i n g 以及c o r e y 于1 9 5 1 年提出的口螺旋和夕折叠, 并在1 9 5 7 年由另一组生物学家用x - r a y 晶体衍射方法证实。此后,人们又观察到转角、 无规卷曲等多种二级结构。 图2 4 蛋白质二级结构 f i g 2 4s e c o n d a r ys t r u c t u r e 蛋白质的二级结构是指肽链中局部肽段的构象,而不涉及各r 侧链的空间排布。它 们是完整肽链构象的结构单元,是蛋白质复杂的空闯构象的基础,故它们也称为构象单 元。 各类二级结构的形成几乎全是由于肽链骨架中的羰基上的氧原子和亚胺基上的氢 原子之间的氢键所维系。其他的作用力,例如范德华力、离子键等,也有一定的贡献。 某一肽段,或某些肽段间的氢键越多,它( 们) 形成的二级结构就越稳定,即二级结构 的形成有一种协同的趋势。 3 蛋白质超二级结构( s u p e 】c o n d a r y 咖c t u r e ) 超二级结构是指在多肽链内顺序上相互邻近的二级结构常常在空间折叠中靠近,彼 此相互作用,形成规则的二级结构聚集体。目前发现的超二级结构有三种基本形式:口 螺旋组合( 粥) :折叠组合( 届够) 和口螺旋夕折叠组合( 芦a 猡) ,其中以夕a 筘组合最为 大连理工大学硕士学位论文格式规范 常见。它们可直接作为三级结构的“建筑块”或结构域的组成单位,是蛋白质构象中二 级结构与三级结构之闯的一个层次,故称为超二级结构。多数情况下只有非极性残基侧 链参与这些相互作用,而亲水侧链多在分子的外表面。 圈2 5 蛋白质超二级结构 f i g 2 5s u p e r s e c o n d a r ys t r u c t u r e 4 。结构域 结构域是由不同的二级结构和超二级结构组合形成的,是蛋白质三级结构的基本单 位。一个蛋白质可以只包含一个结构域也可以由几个结构域组成,也就是说结构域是能 够独立折叠为稳定的三级结构的多肽链的一部分或全部。结构域也是功能单位,通常多 结构域蛋白质中不同的结构域是与不同的功能相关联的。v 1 l c v j t t 和c 。c h o t h j a 把蛋自 质结构域的结构分为四类:口类、类、口类以及口+ p 类。 图2 6 蛋白质结构域 f i g 2 6d o m a i n 大连理工大学硕士学位论文 5 蛋白质三级结构( t e r t i a r ys 仇| c t l l r c ) 蛋自质的三级结构是指多肽链在各二级结构的基础上进一步盘曲折叠的状态,即整 条肽链中全部氨基酸残基的相对空间排布,包括形成主链构象和侧链构象的所有原子在 三维空间的相互关系,也就是一条多肽链完整的三维结构。稳定三级结构的因素是侧链 基团的相互作用,包括氢键、离子键、疏水作用、范德华力等。 图2 7 蛋白质三级结构 hg 2 7t e r t i a r ys t r u c t u r e 6 蛋白质四级结构( q 蚰姻瑚巧s t r u c l l | 囝 蛋白质的四级结构是指蛋白质分子中亚基的立体排布,亚基间的相互作用与接触部 位的布局。亚基是指参与构成蛋白质四级结构的每条具有三级结构的多欣链。 图2 8 蛋白质四级结构 f i g 2 8q u a t e r n a r ys t r u c t u r e 维系蛋白质四级结构的是氢键、离子键、范德华力、疏水键等非共价键。四级结构 涉及各亚基的空间排布及相互作用状态具有四级结构的蛋白质只有形成完整的各亚基 大连理工大学硕士学位论文格式规范 寡聚体时才具有生物活性,分离的亚基则失去正常生物功能。而且并不是所有蛋白质分 子都具有四级结构的,单亚基蛋白质只具有三级结构,多亚基的蛋白质才具有四级结构。 2 。3 维持和稳定蛋白质高级结构的因素 蛋白质天然构象是几种稳定因素共同作用的结果,这些因素包括离子键、氢键、范 德华力、疏水键、配位键、二硫键等l 4 j 4 j 。 ( 1 ) 离子键离子键也称盐键,是由带正电荷基团与带负电荷基团之闻相互吸引而 形成的化学键。在近中性环境中,蛋白质分子中的酸性氨基酸残基侧链电离后带负电荷, 而碱性氨基酸残基侧链电离后带正电荷,两者之间可形成离子键。 ( 2 ) 氢键氢键的形成常见于连接在以电负性很强的原子上的氢原予、与另一电负 性很强的原子之间。如在蛋白质分子结构中n h 、o - h 等具有较大的偶极矩,成键电子 云分布趋向正电性大的重原子核,从而使氢原子与另一电负性较强的原子接近时产生静 电引力,形成氢键氢键在维系蛋白质的空间结构稳定上起着重要作用。 ( 3 ) 范德华力它包括定向效应、诱导效应和分散效应等3 种作用力。分散效应 在多数情况下是起主要作用的范德华力,它是非极性分子或基团间仅有的一种范德华 力,通常指的范德华力就是这种作用力。 ( 4 ) 疏水键非极性物质在含水的极性环境中存在时,会产生一种相互聚集的力, 这种力称为疏水作用力。蛋白质分子中的某些氨基酸残基含有非极性的侧链基团,这些 基团为避开水相互尽量聚集,在蛋白质内部形成一个疏水的核心。由于非极性基团的疏 水作用,使多肽链折叠、盘绕,从而形成了蛋白质的空间构象。它是天然蛋白质结构的 主要决定因素。 ( 5 ) 配位键它是两个原子之间,由其中的一个原子提供电子而形成的一种特殊的 共价键。许多蛋自质分子中含有金属离子,金属离子与蛋白质的连接一般通过配位键。 ( 6 ) 二硫键二硫键是一种共价键。多数蛋白质具有二硫键。然而,蛋白质肽链生 物合成时,并不存在和二硫键有关的胱氨酸的密码。在新生肽链合成后,两个半胱氨酸 的侧链巯基氧化成胱氨酸,肽链中才出现二硫键,它是蛋白质翻译后加工的结果。二硫 键的形成使蛋白质的肽链的空间结构更为紧密,对稳定蛋白质的结构起了重要的作用。 2 4 蛋白质的生物学功能 蛋自质几乎在所有的生物过程中都起着关键的作用。生物体内的蛋白质种类极其繁 多,分布极其广泛,所担负的任务也是多种多样的。据人类基因组的研究估计,人类共 有1 0 万个基因,这些基因能编码1 0 万种蛋白质。蛋白质的生物功能 4 1 如下: 大连理工大学硕士学位论文 ( 1 ) 酶的催化构成生物体新陈代谢的全部化学反应都是由具有催化功能的蛋白质 酶所催化的。这些反应有的较简单,有的很复杂。对这些反应,几乎所有的酶都表 现出巨大的催化能力,它们一般把反应速率提高至少1 0 0 万倍。没有酶的催化作用,化 学转化在活体中是十分困难的。因此可以说,蛋白质扮演了一个唯一能决定生物体系中 化学转化模式的角色。 ( 2 ) 机械支持蛋白质在生物体中还起着机械支持作用。例如,皮肤和骨骼的高抗 张强度,是由于称为胶原的一种纤维蛋白质在生物体所起的机械支持作用。在所有真核 生物细胞中都存在一个细胞骨架,它是由肌动蛋白组成的微丝,由胃管蛋白组成的微管 和由角蛋白组成的中间纤维构成的一个网状结构,使细胞具有一定的形状和结构。 ( 3 ) 运输和贮存很多小分子和离子是由专一蛋白质来运载和贮存的。例如,血红 蛋白在红血球中运输氧,而铁蛋白作为复合体将铁贮存起来。现已证明,在神经细胞中 一些营养物质包装在囊泡中,靠一种称为力蛋白的蛋白沿着微管运送到远处。 ( 4 ) 协调动作在一些生命活动中,两种或几种蛋白质协调作用,完成某种生物学 功能。例如,肌肉的收缩是通过两种蛋白微丝的滑动来完成的此外,有丝分裂中染色 体的运动以及精子鞭毛的运动等,也是由蛋白质组成的微管的运动产生的。 ( 5 ) 免疫保护抗体是高度专一的蛋白质,它们能识别抗原、病毒、细菌以及来自 其他有机体的细胞异物,并与之结合,从而在区别自身和非自身中起着重要的作用。 ( 6 ) 生长和分化的控制遗传信息的受控的、按顺序的表达,对细胞有秩序的生长 和分化十分重要,细胞的基因组中每一次只有一小部分被表达出来。在细菌中,阻遏蛋 白质是使细胞的d n a 中某些特殊片段不被表达的重要控制组分。 ( 7 ) 神经冲动的产生和传递神经细胞对特定刺激的反应是由受体蛋白传递的。例 如,在突触处,即在神经细胞的交接处,传递神经冲动的是被像乙酰胆碱这样的专一小 分子触发的受体分子。 ( 8 ) 信号转导生物能够对外界刺激做出反应。生物体感受到外界的信号如光、气 味、激素、神经递质( 乙酰胆碱) 、生长因子之后,即与细胞表面的受体缩合成复合物, 随后受体又与g 蛋白相互作用,使g 蛋白的口,亚基解离,然后0 蛋白又与细 胞内的效应物如酶、离子通道等相互作用,使之做出反应。 ( 9 ) 跨膜运输生物细胞从外界吸收的各种离子和水分子都是通过细胞膜上的离子 通道,进行跨膜运输的。现已证明,离子通道( 包括水通道) 都是由蛋白质组成的。 ( 1 0 ) 电子传递有些蛋白质能进行电子的传递,简单的如铁氧还蛋自能传递电子, 复杂的如线粒体上的呼吸链和能进行光合作用的叶绿体上的光合链,在呼吸链上和光合 大连理工大学硕士学位论文格式规范 链上有很多电子传递蛋白,如各种细胞色素岛以f 等能传递电子,使细胞膜两侧产生电 位差,实现某种生物学功能。 蛋白质的功能是非常复杂的:同一种蛋白质,其功能又呈现出复杂性,如糖蛋白的 细胞识别功能涉及糖蛋白及其相应受体、糖基转移酶及其底物、或糖苷水解酶及其底物 所参与的一系列生化过程,又如酶催化功能受许多因素的影响,并表现出竞争性、可调 节性等有的酶具有几种不同的催化功能,以适应多变的内外环境。 大连理工大学硕士学位论文 3 特征提取 氨基酸序列的特征描述是指从一条氨基酸序列选取相关的特征信息并用数学方法 描述这些信息,使之能正确反映序列与结构及功能之间的关系,对蛋白质属性分类研究 起至关重要的作用,也是分类质量的关键i l ”。人们发现蛋白质的结构类和亚细胞定位都 与氨基酸组成有关,因此很多预测都使用氨基酸组成方法进行。然而,对于任意蛋白质 链,如果仅用2 0 个基本氨基酸发生的频率表示其组成,那么许多序列间相互作用和序 列长度因素被忽略。以一条长为5 0 个氨基酸组成的蛋白质链为例,可能存在的排列方 式有2 0 如* l l x l 0 舒种,而氨基酸组成成分约有l 6 x 1 0 1 7 种,即大约平均7 x l o ”条长度为 5 0 个残基的氨基酸序列共同拥有一种氨基酸组成成分。何况,多数蛋白质的氨基酸序列 长度远远超过5 0 个残基,而且不同长度的氨基酸序列可能具有相同的氨基酸组成m 。 基于这种情况,人们在研究各类问题时也提出了不同的氨基酸序列的特征描述方法以改 进方法的预测能力,氨基酸序列的特征描述不仅是各种预测方法的基础,对不同描述方 法的比较分析还有助于理解蛋白质序列结构功能之间的关系 1 6 , 1 7 】 目前,氨基酸序列特征描述方法主要有两类:一类是仅基于氨基酸序列的描述方法; 另一类是考虑氨基酸性质的描述方法【1 6 , 1 7 l 。 3 1 基于氨基酸序列的描述方法 基于氨基酸序列的描述方法主要有:氨基酸组成成分特征提取法、熵密度特征提取 法、完全信息集法和多肽组成成分法等。 3 1 1 氨基酸组成成分特征提取法 n i s h i k a w a 1 。_ 2 ”,k l e i n i 捌,c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论