




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
用神经网络方法预测蛋白质二级结构含量 陈力 南开大学数学科学院 天津,3 0 0 0 7 1 中文搬 本文在神经网络应用的基础上给出了用反向h o p f i e l d 神经网络 系统模型和模糊感知器模型进行蛋白质二级结构含量预测的方法, 并给出了具体实例,用由一千个蛋白质构成的数据库进行蛋白质二 级结构含量预测。另外本文对此种预测方法的结果进行了分析。 蛋白质,二级结构含量, 神经网络,反向h o p f i e l d 神经网络系统, 模糊感知器模型 t h ep r e d i c t i o no f p r o t e i n s e c o n d a r y s t r u c t u r ec o n t e n t b y n e u r a ln e t w o r k c h e nl i s c h o o l o fm a t h e m a t i c s ,n a n k a iu n i v e r s i t y t i a n j i n ,3 0 0 0 7 1 a b s t r a c t b a s e do nt h en e u r a ln e t w o r k sa p p l i c a t i o n ,t h ep r e d i c t i o no fp r o t e i n s e c o n d a r ys t r u c t u r ec o n t e n tb yi n v e r s ed i r e c t i o nh o p f i e l dn e u r a ln e t w o r k s y s t e m ( h n n s ) a n da m b i g u o u sp e r c e p t r o nm o d e li sg i v e n i nt h i st h e s i s a f t e r w a r d s ,w ep r o v i d e s e v e r a l e x a m p l e sa c c o r d i n g t h em e t h o d s f u r t h e r m o r e ,w ep r o v i d ea na n a l y s i sa b o u t t h i sp r e d i c t i o nm e t h o d s k e y w o r d s p r o t e i n ,s e c o n d a r y s t r u c t u r e c o n t e n t ,n e u r a ln e t w o r k ,i n v e r s e d i r e c t i o n h o p f i e l d n e u r a ln e t w o r k s y s t e m ,a m b i g u o u sp e r c e p r t o n m o d e l 致谢 首先,感谢沈世镒教授,符方伟教授。本文是在导师的悉心指 导和关怀下完成的,从选题到成文都倾注了导师的心血。两位导师 的指导,使我在三年中学到了深刻而系统的专业知识。同时,他们 正直的人品,严谨的治学态度,以及在数学及应用领域里的积极探 索和执着追求的精神深深地影响了我,并将使我受益终生。 其次,感谢天津大学的张春霆教授给予的帮助,张教授提供了 实验的数据库,并且提出了宝贵的意见。 同时,感谢教研室的各位老师,同学。在本文的写作过程中, 给了我很多的启发,建议和帮助。 此文献给我的父亲,母亲和姐姐,感谢他们对我的爱护,支持 与帮助。 在浩瀚的天地之忙j ,无论是放大月千倍爿+ 能窥其形态的病毒,还是历历在 目的高等动物,植物以及人类,只要出现生命现象,就有与之联系的蛋白质存 在。可以说,蛋白质是生命体的重要物质基础之一。生物学家对于这类生物大 分子的结构和功能最感兴趣的还是功能,然而大分子以及大分子复合物结构的 阐明正是揭示功能的基础。本篇论文运用神经网络的方法对蛋白质的二级结构 含量进行了预测。 ( 一) 问曩的提出 蛋白质是多种多样的,并且在生物体中行使不同的功能。例如新陈代谢中 的各种化学反应就是在多种特异的蛋白质酶的催化下进行的,作为调节代谢过 程的激素,防御外来物侵袭的抗体,以及与遗传控制有关的核蛋白等,都是由 蛋白质或它们的衍生物构成的;生命现象的各种活动,如呼吸,运动,营养运 输,神经传导,记忆思维等,也是通过蛋白质来实现的。蛋臼质的不同功能是 以其特定的结构为基础的。所有蛋白质不论功能和来源如何,均由二十种基本 氨基酸组成。氨基酸按不同的排列顺序构成蛋白质的一级结构。在此基础上建 立起相应的二级,三级以至四级结构。 蛋白质一级结构是指通常所说的氨基酸序列,也称一级结构序列。虽然它 只包含了顺序排列的序列信息,而不包含三维空间结构信息,但一级结构是蛋 白质分子结构的基础,包含着结构的全部信息,影响着蛋白质构象的所有层次, 即通常所说的蛋白质的高级结构是由一级结构氨基酸顺序决定的。蛋白质级 结构序列可以通过蛋白质测序来完成,蛋白质二级,兰级以至四级结构虽然也 可以通过结构分析方法,如x 射线衍射分析,核磁共振光谱,荧光偏振和圆二 色性等,进行确定。但我们需要探究这四级结构之间的关系。 我们知道,在活细胞中,蛋白质分子必须折叠并“缩合”成具有一定三维 结构的形式。现在阶段,对蛋白质的折叠提出了不同的模型,如框架模型,疏 水拉链模型等。不论哪一种折叠模型,蛋白质折叠都是一个快速而复杂的动力 学过程,且二级结构的形成在决定蛋白质的折叠过程中起核心作用。无数的事 实说明,在结构上蛋白质二级结构单元确实是折叠结构的基础。由此看来,蛋 白质空间结构和折叠过程的研究,应该而且首先着眼于二级结构的研究。已有 的观察已经验证,蛋白质的二级结构主要有a ,1 3 和y 三种形式。因此,对蛋 白质二级结构的预测就是确定每一个氨基酸的二级结构属性。所谓二级结构的 含量预测是指,确定在特定的蛋白质分子中三种二级结构片段( n ,口,y - ) 的含量。 我们利用蛋白质的一级结构序列和有关二级结构的已知知识,建立数学模 型,最终目的是对未知的蛋白质序列作二级结构含量预测。 ( 二) 数据库简介 在此采用的数据库是由天津大学的张春霆教授提供的。数据库包含有 n 。= 1 0 0 0 组具有代表性的蛋白质数据。每一组蛋白质数据包括构成这一蛋白质 的氨基酸的个数:在这组蛋白质中每一种氨基酸的含量比例 ;,= b 九,一:,t :。) ,i = 1 , 2 ,n 。,其中表示在第f 组蛋白质数据中第j 种氨 2 0 基酸所占的百分比数,这时x f 0 ,= l ;和这组蛋白质二级结构的含量 j = l 比例歹,= 0 。y 胡,y 口) ,其中y 和y ,分别表示在第f 组蛋白质数据中a 6 和y 结构的含量比例,这时y h = 1 一y 。一y 。口。 如下列数据所示: 8 90 3 70 1 5 0 0 8 9 90 0 0 0 00 0 4 4 90 1 2 3 60 0 2 2 50 0 5 6 20 0 1 1 20 0 6 7 40 0 6 7 4 0 1 3 4 8 0 0 0 0 00 0 3 3 70 0 2 2 50 0 6 7 4 0 0 3 3 7 o 0 5 6 20 0 4 4 90 0 5 6 20 0 3 3 70 0 3 3 7 其中8 9 为这一蛋白质中所含氨基酸的个数,0 3 7 为二级结构a 的含量,0 1 5 为二级结构b 的含量,余下的二十个数据为在这一蛋白质中二十种氨基酸的含 量比例。因此有 y m = 0 3 7 ,y 胡= o 1 5 ,y 口= 1 0 3 7 一o 1 5 = 0 4 8 x f l = o 0 8 9 9 ,x f 2 = 0 0 0 0 0 ,x ,2 0 = 0 0 3 3 7 ( - - - ) 基本方法 在数据库中,用神经网络方法进行蛋白质二级结构含量预测。将这一千组 蛋白质数据分成两组为学习样本d l 和检测样本d :,其中d ;和d 2 分别为: d 。= 移,一x ,l f = 1 州2 一,n 1 ,l = 5 0 0 d := - ,一x ,l f = l + 1 ,n ,+ 2 ,n ,+ n 2 = n o 我们先建立数学预测模型,然后在学习样本d 1 中进行学习,估计预测模型中的 函数与参数,最后在检验样本d :中,对建立的数学模型进行检验。 在这里,用f o r t r a n 语言编写程序。 二蛋白质二级结构含量的预测模型 ( 一) 预测公式 若记;= ( x 。,x :,x :。) 为蛋白质中二十种氨基酸的含量,歹= ( 口,肛厂) 为该 蛋白质二级结构含量,口,0 且口+ + ,= l ,那么预测模型为求函数 ( _ ) = ( b ,) 其中女= 1 ,2 ,3 ,使得 _ ( _ ) = 西, ( _ ) = 声, ( - ) = 户 分别为口,p ,y 的估计量。 ( 二) 学习样本与模型 预测问题就是要通过学习样本d 。中的数据,确定预测函数五( - ) ,其中 女= 1 , 2 ,3 ,也就是求 ( _ ) = g ( 。x ,一致 c z , 其中每,万) 为待求系数,g ( ) 是一个激励函数,在下文中给出。再利用最小二乘 估计,使 莹壹k 仁,) 一) 2 ( 2 z ) 为最小,或对每一个t ,求 兰阮g ,) 一) 2 ( z 3 ) 为最小,其中k = 1 , 2 ,3 ,n = 5 0 0 。 由公式( 2 2 ) 或( 2 3 ) 求得系数每,万) ,从而得到预测函数( 2 1 ) 三用神经网络方法进行蛋白质二级结构含量预测 ( 一) 利用反向h o p f i e l d 神经月终系统模型进行预测 1 横童描述 对于一个时间离散h o p f i e l d 神经网络系统模型( 以下简称t d h n n s ) 有如 下描述: t d h n n s 算子为: ;:r 每,蚓 也就是 黾+ g 阵 ,一红 运动方程为: ;( f + 1 ) :f 茹,砜f ) j 其中,= 0 , 1 ,2 定义3 1 称e 仁) 为h n n s 的能量函数,如果 e ( _ ) = 一三2y i , j ,x ;x + i 啊工 定义3 2 一个t d h n n s ,如对任何;ex ”总有 e 每 e p g ) , 那么称该t d - h n n s 为正向的,其中r ( _ ) 为t d h n n s 算子。 定义3 3 一个t d h n n s ,如对任何;z ”总有 e 每 se p ( _ ) 那么称该t d h n n $ 为反向的,其中r ( ) 为t d h n n s 算子。 2 收敛情况 定理3 1 如珊对称正定,在g ( u ) = 2 中“,z 同号,那么t d h n n s 是正向 的。 定理3 2 在定理3 1 条件下,如果r 是有界的,g 连续,且g ( u ) = 0 是唯 一的,那么它一定是稳定的,且有唯一的吸引点,在该吸引点处能量函数达到 最小值。 下面讨论反向t d h n n s 的收敛问题。在反向t d h n n s 中,g o ( “) = 一g ( u ) , 那么有约束条件: ( t 一1 ) :g o ( “) 为奇函数。 ( t _ 2 ) :猷哪忐,v 删,其帆“为茗矩阵的最大特征 定理3 3 如果对称,且满足条件( t 一1 ) ,( t 一2 ) ,那么t d h n n s 为反向 的,即e p ( ;) e 仁 ,且等号成立时等价于;为吸引点。 定理3 4 在定理3 3 的条件下,如果正定,那么反向t d b n n s 为稳定的, 且有唯一吸引点,在该吸引点处,能量函数达到最大值,也就是说,一e 每 为最 小值。 具体证明参见参考文献 1 。 3 预测横壅和学习算法 根据蛋白质中二十种氨基酸的含量比例预测蛋白质二级结构含量比例,即 利用学习样本d l 中的数据侈,;,) 建立预测模型,即确定每,万j 使得 以( ) = g 。( 目工,一 ) 、 r : j 为 q 子算 一 州 卜 - t x 句反 为预测函数,满足 e o 每) = ( y 。一 ( - ,) ) 2 女 为最小,此时,e o 每 可化为对每一个t = 1 ,2 ,3 有 e o 长 = h o 一_ x ,+ o x 心 ,j , i 其中:只z :h j = 2 ”。;w 广艺v , 综上所述,利用反向h o p f i e l d 神经网络系统进行蛋白质二级结构预测的模 型和学习算法为: l l :读入学习样本数据,计算h o ,h ,和。 l 一2 :按照反向h o p f i e l d 神经网络模型算法进行计算,直至算法收敛,其中反 向t d - h n n s 算子为: ,2 0、 z ,= x ,一0 0 0 0 1 。i 脚i , j x ,一 f 反向t d - h n n s 算法参见参考文献 1 。 模糊感知器模型为 z = r ( ”,x ”) = s g n ( e ,x 。一1 1 ) , ( 3 1 ) l t l 它的学习目标可归结为求不等式方程组 国,x , 0 ,如果x “d ( 3 2 ) ,- l 之解。 定义3 5 ( 1 ) 我们称脚“为不等式方程组( 3 2 ) 的一个j 一解,如果国” 能使( 3 2 ) 中有( 1 一占】蚓1 个不等式成立,其中0 d j i 为集合d 的元素个数。 6 ( 2 ) 一个感知器如果它的学习目标是求一个不等式方程组( 3 2 ) 的j 一解,那么我们称这个感知器为模糊感知器。 2 收敛情况 定义3 6 我们称不等式方程组( 3 2 ) 是强万一可解的,如果存在一个向量 := ( c o o ”0 1 2 一,o m ) 使 ( :,x ”) 臼 0 ,t d 对任何忪i i 酬d 0 成立,其中目 o 是一个与d 无关的常数。 定理3 6 如果不等式方程组( 3 2 ) 是强占一可解的,那么模糊感知器的 学习算法一定是收敛的。 具体证明见参考文献 1 。 根据蛋白质中二十种氨基酸的含量比例预测此蛋白质二级结构含量,就是 利用学习样本d 1 中的数据侈。,;,) 建立预测模型,即确定氍再j 使 满足 仁) :艺吼x ,岫 驴击* 一 鼢 0 为适当的常数,x ”为d l 中任一向量。 f l _ 2 如果c 0 “( ,) 已经求出,我们计算“( f ) ,x ”) ,且定义集合 d ( ,) = x ”:& 8 0 且j “d ) 如果有 慨r ) 忙占怜| ( 3 3 ) ( 3 4 ) 成立,那么“( f ) 就为所求不等式方程组( 3 2 ) 的d 解,学习算法结束。 古则就有 忪( ,) 8 1 1 z ) | | ( 3 5 ) 成立,这时我们取 矿( ,“) = ( ,) + 南,崭 6 f l _ 3 由此继续,我们得到一系列 ( c o ”( f ) ,d ( ,) ) ,t = 1 , 2 , ( 3 7 ) 使( 3 3 ) ,( 3 5 ) ,( 3 6 ) 成立。该运算直到( 3 4 ) 式成立为止,这时所 得的c o “( ,) 就为所求不等式方程组( 3 2 ) 的占一解。 关于和万的选取,参见参考文献 1 。这里,我们取f o = 0 0 4 ,艿= 0 2 四主要结果 ( 一) 检测标准 在检测样本d :中,对根据学习样本求得的函数 仁) 进行检验,求出平均 方差,即相对误差毛。 舻瓦1 ,势卧坳7 或平均绝对误差占:i = 击,蓑瞻) 诜。袁,未惦h t 其中k = 1 , 2 ,3 ,n l = 5 0 0 ,n 2 = 5 0 0 ,n o = 1 0 0 0 ( 二) 由二十种氨糊的j 曩事分布疆蛋白质:曩鲭构含量 这是一种最简单的情形,只考虑二十种氨基酸的频率分布,排除其它影 响因素。在此情况下,用反向t d h n n s 方法的预测结果为: by 均方误差 0 0 3 2 2o 0 2 1 2 0 0 2 3 0 绝对误差 o 1 3 7 9 0 1 1 3 10 0 9 3 6 【 a by l 均方误差 0 0 3 7 80 0 3 2 9 0 0 3 4 4 绝对误差 o 1 5 7 9o 1 4 2 8 o 1 1 9 3 可见,用反向t d h n n s 方法预测的结果明显优于模糊感知器方法。 以下的改进也都是基于采用反向t d - h n n s 方法进行蛋白质二级结构含量的 预测。 ( 三) 结果的改进 以上预测结果是仅由二十种氨基酸的含量进行预测的结果,并不令人满意。 根据张先生提供的意见和收集的数据,我们引入一组参数,疏水因子,即在疏 水键的作用下,氨基酸的自相关系数,体现了疏水键对蛋白质二级结构的影响。 因此除利用蛋白质库数据外,还利用了疏水键数据库,见附录四。 这时,预测模型中样本数据变为 ;= x i , x 2 ,x 2 。x 2 l ,x 4 。) 我们遍历了4 0 2 组疏水因子,对每一组进行蛋白质二级结构含量的预测 得到结果较好的六组数据,如下表: qb y 均方误差 0 0 2 8 10 0 1 6 40 0 2 3 6 绝对误差 0 1 2 8 8o 1 0 0 30 0 9 5 1 f q by l 均方误差 0 0 2 7 3o 0 1 6 20 0 2 3 3 绝对误差 0 1 2 6 l0 0 9 9 00 0 9 3 9 第三组( s 3 ) l a by l 均方误差 0 0 2 7 0o 0 1 6 40 0 2 3 2 绝对误差0 1 2 4 50 0 9 9 40 0 9 3 3 l ab y 均方误差 0 0 2 6 8 0 0 1 6 8 0 0 2 3 1 绝对误差 0 1 2 2 7 0 1 0 0 40 0 9 2 6 i nby 均方误差 0 0 2 6 9 0 0 1 7 10 0 2 3 1 绝对误差 o 1 2 2 4 0 1 0 1 20 0 9 2 5 l b y 均方误差 0 0 2 6 9o 0 1 7 2 0 0 2 3 1 i 绝对误差 0 1 2 2 4 o 1 0 1 60 0 9 2 6 与( 二) 中结果相比,预测的准确性有了较大的提高。说明了疏水键对蛋 白质构型的影响是不可忽略的。但不同的疏水因子对蛋白质二级结构含量预测 的影响是不同的,这也说明了生物问题的复杂性。 对同一组疏水因子,取四组不同的参数个数,分别进行蛋白质二级结构含 量的预测,再将结果取均值。 ( 1 ) 参数个数的选择,如下表: 选择四组参数,每一组的个数为竹,i = 1 , 2 ,3 ,4 ,在表中表示为疗l 珂2 + 胛4 a 这时,对每一组预测模型,其中样本数据变为 一x - - g :,h 砀,。) 四组参数的个数a 均方误差 a 绝对误差 1 0 1 0 1 0 50 0 2 7 10 1 2 2 9 1 0 0 1 0 * 50 0 2 7 70 1 2 5 5 1 0 0 1 0 1 0 0 0 2 8 10 1 2 6 8 1 0 * 5 * 5 * 50 0 2 8 l0 1 2 4 5 2 0 * 0 * 0 * 00 0 2 8 3 0 1 2 4 5 1 0 0 0 00 0 2 8 60 1 2 4 7 l5 * 0 * 0 * 00 0 2 8 60 1 2 4 9 1 0 十1 0 1 0 00 0 2 9 8o 1 2 7 9 1 0 0 i 5 * 00 0 4 0 4o 1 5 7 9 1 0 5 1 0 * 50 0 6 7 90 2 1 1 7 由表中结果知,( 1 0 1 0 1 0 5 ) 时预测结果的准确性高。 ( 2 ) 对( 三) 中的六组疏水因子进行进一步计算,采用的参数组合为 ( 1 0 1 0 1 0 * 5 ) ,结果如表所示 0by l 均方误差 0 0 2 6 9o 0 1 7 4 0 0 2 3 1 i 绝对误差 o 1 2 2 40 1 0 2 0 0 0 9 2 4 l aby l 均方误差 0 0 2 6 9 o 0 1 7 10 0 2 3 0 l 绝对误差 0 1 2 2 4 o 1 0 1 30 0 9 2 4 q8 y i 均方误差 0 0 2 6 90 0 1 7 2 0 0 2 3 1 l 绝对误差 0 1 2 2 3 0 1 0 1 70 0 9 2 6 f a 8y l 均方误差 0 0 2 6 8o 0 1 7 30 0 2 3 0 l 绝对误差 0 1 2 1 90 1 0 1 90 0 9 2 3 l a py 均方误差 0 0 2 7 lo 0 1 6 90 0 2 3 2 l 绝对误差 0 1 2 1 6o 1 0 0 10 0 9 2 6 j a by 均方误差 0 0 2 6 6o 0 1 6 90 0 2 3 1 【绝对误差 0 1 2 1 3o 1 0 0 90 0 9 2 5 与( 三) 结果比较,在( 三) 的基础上又有提高。 五问题的几点说明 我们知道影响蛋白质结构的因素有很多。氨基酸的组成和二级结构含量的 相关性只是统计意义上的,它们之间的具体关系很复杂。因此,只从氨基酸的 组成出发进行蛋白质二级结构含量的预测是有局限性的,也是不完全的。虽然 一级结构是蛋白质分子的结构基础,影响着蛋白质构象的所有层次,但蛋白质 的折叠是一个快速而复杂的动力学过程,不能忽略其它维系蛋白质分子空间构 象的因素,即侧链基团之间的相互作用。 为此,我们引入疏水因子,即在疏水键的作用下,氨基酸的自相关系数, 体现了疏水键对蛋白质二级结构的影响。从计算结果看,问题得到了有效的改 善。 采用神经网络方法进行蛋白质二级结构含量的预测,本身也有局限性。因 为神经网络方法是对已知的数据进行学习。它所建立的预测模型也是以样本为 基础的。而样本并不能涵盖现实生物界所面对的种种真实情况。所以,面对层 出不穷的新数据,神经网络方法的能力也是有限的。 附录一蛋白质组分的结构 整个自然界有数以万计的蛋白质,而蛋白质又是氨基酸的聚合物。在蛋白 质中出现的氨基酸是一类特殊的氨基酸,其氨基和羧基都在。一碳原子上,其中 r 为侧链。r 不同,氨基酸就不同。如图所示。 a 一三卜亘一。一 作为蛋白质组分的氨基酸共有2 0 种,它们的名称如下表所示。 氨基酸英文全称 三字母符号单字母符号 丙氨酸 半胱氨酸 天冬氨酸 谷氨酸 苯丙氨酸 甘氨酸 组氨酸 异亮氨酸 赖氨酸 亮氨酸 蛋氨酸 天冬酰氨 脯氨酸 谷氨酰氨 精氨酸 丝氨酸 苏氨酸 潆氨酸 色氨酸 酪氨酸 a s p a s n g i u g l n a l a n i l i e c y s t e i n e a s p a r t a t e g l u t a m a t e p h e n y l a l a n i n e g l y c i n e h i s t i d i n e i s o l e u c i n e l y s i n e l e u c i n e m e t h i o n i n e a s p a r a g i n e p r o l i n e g 1 u t a m i n e a r g i n i n e s e r i i l e t h r e o n in e v a l i l e t r y p t o p h a n t y r o s i n e 此外,还用x ( x a a ) 表示任意一种氨基酸。字母j ,0 和u 不被使用。 a c d e f g h i k l m n p q r s t v w y b z a s p u e y s e s u t n o n g r r l p r x x 舡回觚孙m n b h舡鼢舡(;!;n怕伢n觚 附录二蛋白质分子的结构层次 一个蛋白质分子是由一条或几条多肽链组成,每条链大约含有几十到几百 个氨基酸残基。也就是说,蛋白质是由2 0 种氨基酸按一定次序连接,同时又按 一定规律折叠而构成的空间实体。这里简单介绍蛋白质分子的结构层次。 ( i ) 级结构 所谓一级结构是指构成蛋白质分子的氨基酸主链按共价键方式连接的多肽 链,即通常所说的氨基酸序列,也称一级结构序列。虽然它只包含了顺序排列 的序列信息,而不包含三维空间结构信息,但一级结构是蛋白质分子结构的基 础,包含着结构的全部信息,影响着蛋白质构象的所有层次。 自1 9 6 7 年,e d m a n 等发明蛋白质序列自动分析法以来,蛋白质序列测定速 度大大加快,也使得处理这些极其庞大的数据的矛盾加剧另一个重要进展,即是 用测定核酸序列的方法来推断蛋白质的序列因为根据分子生物学的中心法 则,d n a 序列中每3 个连续碱基代表一种氨基酸残基,因此,知道为了某种蛋白质 编码的基因序列,就可能直接写出该蛋白质的氨基酸序列现在,人们已经成功地 用结构基因d n a 序列推测蛋白质序列 ( ) 二级结构 主链氢键是肽键的酰胺基和另一个肽键的羧基之间形成的氢键。由于主链 氢键的作用,相邻的几个或几十个氨基酸残基,可折叠成具有规律性的结构片 段,称为二级结构。这种规律性片段分为: ( 1 ) 螺旋结构 多肽主链骨架围绕一个轴一圈一圈地上升,可形成螺旋式构象。螺旋结构 以a 一螺旋结构最为常见。且a 一螺旋结构是相当稳定的。 ( 2 ) b 一结构 由多肽链形成的b 一结构是一种较伸展的构象,但并不完全伸展。在b 一折 叠结构中,由于主链中所有q 一碳原子的二面角都取巾= - 1 2 0 4 5 ,l l r = + 1 3 0 3 0 ,从而使主链呈现周期性折叠构象。 ( 3 ) 回折 在多肽链中,经常见到约1 8 0 度转弯结构,这样的结构就是回折。 ( ) 三级结构 由一条多肽链按一定规律折叠成的空间结构称为蛋白质的三级结构。一般 来说,三级结构中除了包含一定数量的二级结构片段外,另有一些氨基酸残基 不具有二级结构特征,通常称为无规则卷曲。 一般认为,蛋白质分子的三级结构是由一级结构氨基酸的顺序决定的。换 句话说,不同的氨基酸侧链,决定了蛋白质分子主链的走向,蛋白质分子主链 的走向,决定了其空间结构。从另一个角度看,维系蛋白质分子空间构象的主 要因素是侧链基团之间的相互作用,包括氢键,范德华力,疏水力,离子键和 二硫键。 ( i v ) 四级结构 有些蛋白质分子仅有一条多肽链组成,而另一些蛋白质分子却由两条或多 条多肽链组成,也称多个亚基。所谓四级结构是指由若干亚基通过非共价键缔 合而成的空间实体。 附录三神经网络概述 神经网络是以人体神经细胞的信息处理方法为背景的智能计算方法。有以 下几个特点: ( 1 ) 每一个神经细胞是一个简单的信息处理单元,它可以由自身与外部条件决 定它的状态,形成一定的输出输入规则。人们称之为激励规则。 ( 2 ) 神经细胞之间按一定的方式相互连接,构成神经网络系统,且按一定的规 则行信息的传递与存储。 ( 3 ) 神经网络系统可按已发生的事件积累经验,从而不断修改系统的网络连接 规则与存储数据。这种网络连接规则与数据存储方式有一定的稳定性与可 塑性。它可以保证人类知识经验的积累和修正。这种修改方式称之为学习 规则。通过学习过程,最终能达到正确计算,识别或判决等目标。这种学 习被称为学习与训练功能。 附录四疏水因子 文中选中的疏水因子,为以下六组原始数据经过基于疏水键的氨基酸自相 关函数计算所得。六组原始数据如下: s l - 0 4 4 i 一0 1 3 0 0 50 2 0o 1 30 5 80 2 80 0 8 o 0 9,0 0 4 f 0 1 2i o 3 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东护理管理自考试题及答案
- 冷水水表考试题及答案
- 广东高级翻译自考试题及答案
- 矿山爆破考试题及答案
- 内蒙古呼伦贝尔农垦拉布大林上库力三河苏沁农牧场有限公司招聘笔试题库及完整答案详解一套
- 高炉配管工抗压考核试卷及答案
- 水文水井钻探工应急处置考核试卷及答案
- 军事技能考试题及答案
- 就业测评考试题及答案
- 中高频炉工成本控制考核试卷及答案
- 电池热管理机组知识
- 《电力行业职业技能标准 农网配电营业工》
- 《戏曲服饰欣赏》课件
- 《公共基础知识》贵州省黔南布依族苗族自治州都匀市2024年事业单位考试统考试题含解析
- 电力营销业务培训课件
- 技术方案评审表
- 人教版九年级数学下册第二十六章反比例函数-作业设计
- 人美小学美术五上《第1课:肖像艺术》课件
- 湘美版五年级上册美术全册教案
- 浙江省通用安装工程预算定额第八册
- 乡村振兴战略实施与美丽乡村建设课件
评论
0/150
提交评论