




已阅读5页,还剩84页未读, 继续免费阅读
(生物医学工程专业论文)膜蛋白二级结构预测及隐马尔可夫模型应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 模型对膜蛋白二级结构进行预测。具体的实现过程包括:( 1 ) 对膜蛋白 的二级结构建模;( 2 ) 模型参数初始化;( 3 ) 训练隐马尔可夫模型;( 4 ) 用训练后的模型预测膜蛋白的跨膜区。根据预测的实际效果,通过仔细 分析,在原算法基础上提出了改进的隐马尔可夫模型,有效地提高了预 测的准确度。 最后本文提出并实现了一个“智能”的膜蛋白二级结构综合预测的 服务网站,极大地方便了用户利用不同的方法进行膜蛋白二级结构预测。 本文提出了一种新的基于贝叶斯后验估计的贝叶斯综合预测方法。该方 法通过后验概率加权综合了各个方法的优势,集中了不同方法在不同的 数据集上表现出的不同优点。这种综合预测方法既能有效地集成各个预 测方法的优势,又在一定意义上消除了各个方法的偏好性,从而整体提 高了综合预测的正确性。 关键词:生物信息学,膜蛋白,二级结构预测,隐马尔可夫模型,贝叶 斯后验估计 夺本学位论文彳导到国家高科技8 6 3 计划资助项f l 0 0 3 1 3 - 0 6 一0 1 ) 的资助。 玎 m e m b r a n ep r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i o n w i t hh i d d e nm a r k o vm o d e l a b s t r a c t t h en u m b e ro fn u c l e o t i d es e q u e n c e sa n dp r o t e i ns e q u e n c ei n c r e a s e r a p i d l ya s ar e s u ho fg e n o m ep r o j e c t ,e s p e c i a l l ya f t e rt h ec o m p l e t i o no f h u m a nd r a f tg e n o m e b i o i n f o r m a t i c st h u sb e c o m et h ek e yw a yi np o s t g e n o m i c sr e s e a r c ha n dp r o t e o m i c s m e m b r a n ep r o t e i n sp l a yd i v e r s ea n dv i t a l r o l e si nl i v i n gc e l l h o w e v e r , t h e r ea r eo n l yf e wm e m b r a n ep r o t e i n sw i t h h i 曲r e s o l u t i o n o f3 ds t r u c t u r ea v a i l a b l ed u et ot h ed i f f i c u l t i e si n d e t e r m i n i n gt h et o p o l o g yo fm e m b r a n ep r o t e i n s 1 1 1 eg a pb e t w e e nt h e i n c r e a s i n gn u m b e ro fa m i n oa c i ds e q u e n c e sa n dt h el i m i t e dn u m b e ro f k n o w ns t r u c t u r ep r o v i d eg r e a td e m a n di nc o m p u t a t i o n a lm e t h o d st op r e d i c t s e c o n d a r ys t r u c t u r eo fm e m b r a n ep r o t e i n p r o g r e s so ft h ep r e d i c t i o nm e t h o d so fm e m b r a n ep r o t e i ni sr e v i e w e d 1 l i s e v e r a lg o o dm e t h o d sa v a i l a b l eo n l i n ew a sc o l l e c t e da n di n t r o d u c e d t h e y a r ed i v i d e di n t o5c a t e g o r i e s as e to fe v a l u a t i o ni n d e x e sc o m p o s e o f3l e v e l s ( a m i n oa c i d ,m e m b r a n es p a n n i n gr e g i o n sa n dp r o t e i n s e q u e n c e ) w a s p r o v i d e d t h el a t e s tw e l l c o l l e c t e dm e m b r a n ep r o t e i nt o p o l o g yd a t a b a s ew a s u s e dt op e r f o r mat h o r o u g he v a l u a t i o nt om e t h o d sm e n t i o n e da b o v e r e s u l t s s h o wt h a tm e t h o dt h a tt a k eg l o b a li n f o r m a t i o ni n t oc o n s i d e r a t i o np e r f o r m b e t t e rt h a nt h o s el o c a lp r e d i c t i o nm e t h o d ah i d d e nm a r k o vm o d e l ( h m m ) a c c o r d i n gt ot h es t r u c t u r eo fm e m b r a n e p r o t e i ni sp r e s e n t e di nt h i st h e s i st op r e d i c tm e m b r a n ep r o t e i ns e c o n d a r y s t r u c t u r e t h em a i n s t e p si nh m m i n c l u d e ( i ) m o d e l i n g ( 2 ) m o d e lp a r a m e t e r i n i t i a l i z a t i o n ( 3 ) m o d e lt r a i n i n g ( 4 ) p r e d i c t i o n a ni m p r o v e dh m mi sa l s o p r e s e n t e db yc a r e f u l l ya n a l y s i sr e s u l t so fo r i g i n a lo n e ,t h en e wp r e d i c t i o n m e t h o dh a s h i g h e ra c c u r a c y t h a n o r i g i n a l o n ea n da n o t h e rh m m m e t h o d h m m t o p a tl a s t ,a l l “i n t e l l i g e n t m e m b r a n ep r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n w e b s i t ew a sc r e a t e da st om a k ei tc o n v e n i e n tf o ru s e r s an o v e lb a y e s i a n c o m b i n e dp r e d i c t i o nm e t h o db a s e do nb a y e s i a np o s t e r i o rp r o b a b i l i t yi s s h o w e di nt h i sw o r k t h i sm e t h o du s e saw e i g h e d p r e d i c t i o na c c o r d i n gt ot h e d i f f e r e n tp e r f o r m a n c eo v e rd i f f e r e n td a t ao fe a c hm e t h o d t h eo v e r a l l h i g h e r a c c u r a c yp r o v e st h a tt h i sm e t h o dn o to n l yi n t e g r a t e st h ea d v a n t a g eo f d i f f e r e n tm e t h o d ,b u ta l s oe l i m i n a t e st h eu n e x p e c t e d p r e f e r e n c et os o m ek i n d t v k e y w o r d s :b i o i n f o r m a t i c s ,m e m b r a n ep r o t e i n ,s e c o n d a r ys 仃1 l c m r e p r e d i c t i o n ,h i d d e nm a r k o vm o d e l ,b a y e s i a nc o m b i n e d p r e d i c t i o n + t h i st h e s i si ss u p p o r t e db yag r a n tf r o ms t a t e8 6 3h i g ht e c h n o l o g yr & d p r o j e c to f c h i n a ( n o 1 0 3 1 3 0 6 - 0 1 ) v 申请上海交通大学硕士研究生学位论文 膜蛋白二级结构预测 及隐马尔可夫模型应用研究 ( 国家高科技8 6 3 计划资助项目) 学科专业:生物医学工程 研究方向:生物信息学 指导教师:朱贻盛教授 李亦学副教授 硕士生:陈钟强 上海交通大学 二o o 二年二月 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 保密西在上年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名殊钟;邑指导教师躲篆欠觇 日期:) 叫廖年2 月绣e t 日期:凯舻埠2 ,月谚日 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究 做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名:节舜钟考最 日期:如以年工月曙e l 上海交通大学硕士学位论文第一章后基因组时代的生物信息学 第一章后基因组时代的生物信息学 1 1 后基因组时代 随着科学技术的迅猛发展,我们已经从二十世纪的电子时代步入了二十一世纪 的生物时代。生物时代是以基因和蛋白质的大规模测序以及人类开始从整体水平上 认识并解读自身的遗传密码为标志。 基因( g 肌e ) 是负载特定生物遗传信息的脱氧核糖核酸( d e o x y r i b o n u c l e i ca c i d , d n a ) 或核糖核酸( r i b o n u c l c i ca c i d ,r n a ) 分子片断,在一定条件下能够表达这种遗传 信息,产生特定的生理功能。d n a 由两条相互交织成双螺旋结构的核苷酸长链组成。 核苷酸长链是由4 种核苷酸:a ( 腺嘌呤) 、g ( 鸟嘌呤) 、c ( 胞嘧啶) 、t ( 胸腺嘧 啶) 排列而成,如图1 1 所示。 图l 一1 染色体d n a 双螺旋以及碱基对图1 2 人类基因的站构 整个生命的遗传信息就编码在这些核苷酸的不同排列次序上。基因按其功能可 分为可以被转录形成信使r n a ,( m e s s a g e rr n a , m r n a ) 并进而翻译形成多肽 0 印t i d e ) 链的结构基因和调节控制结构基因表达的调控基因。人类结构基因的结构如 图l 一2 所示。 蛋白质( p r o t e i n ) 是由一个或几个氨基酸( a m i n oa c i d s ) 链构成的生物大分子。所有 的蛋白质都由2 0 种氨基酸构成,详见表1 l 。遗传信息只能通过最终的蛋白质产 物体现或表达出来,可以说核酸是遗传信息的携带者,而蛋白质是信息转化成生物 结构和功能的表达者。为此先要把d n a 的信息“转录”到单股的m r n a 链上。后 者与前者的差别,仅在于把d n a 序列中的t 换成u ,然后再有所裁剪。m r n a 链 上海交通大学硕士学位论文第一章后基因纽时代的生物信息学 上每3 个相邻核苷酸编码成组。代表某种氨基酸和肽链的起始或终止信号,称为密 码子,如表l 一2 所示。m r n a 信息按照表1 2 中的规则翻译,最终形成蛋白质的 氨基酸序列。新生的蛋白质要经过修饰并折叠成特定的三维形状,才能有生物活性, 在生命过程中发挥功能。以上整个过程如图l 一3 所示。 表1 12 0 种标准氨基酸的英文名称及简写符号 中文名称 英文名称 三字母缩写单字母符号 甘氮酸g l y c i n eg l y g 丙氨酸 a l a n i n ea l a a 缬氨酸 v a l i n ev 甜v 亮氨酸 l e u c i n el e ul 异亮氢酸 i s o l e u c i n ei l el 脯氨酸 p r o l i n ep r op 苯丙氨酸p h e n y l a l a n i n e p h ef 酪氨酸t y r o s i n et y r y 色氨酸w r y p t o p h a nt r pw 丝氨酸 s e r i n e s e r s 苏氮酸 t h r e o n i n e1 1 h t 半胱氨酸 c y s t i n e c y s c 蛋氨酸 m e t h i o n i n em e tm 天冬酰胺 a s p a r a g i n e a s nn 谷氨酰胺 g l u t a m i n eg l n q 天冬氨酸 a s p a r t i ca c i d a s p d 谷氢酸 g l u t a m i ca c i dg 1 ue 赖氢酸l y s i n el y s k 精氨酸a r g i n i n ea 嘻 r 组氨酸 h i s t i d i n eh i sh 一一二一三口臣雪嵋 图1 3 从d n a 到蛋白质 2 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 表1 2 通用遗传密码表 第二字母 第一字母 第三字母 ucag f ( p h c ) s ( s e r ) y ( t y t )c ( c y s ) u f ( p h e ) s f s e r )y ( t y r )c ( c y s ) c u l ( l e u )s ( s c r ) 终止终止 a l ( l 舢)s ( s e r ) 终止w g l ( k u ) p 伊t o )h ( h i s )r ( a r g ) u u k u )p ( p r o )h ( h i s )r ( a r g ) c c u k u )p f p r o )o ( g l n )r ( a r g ) a l ( l e u )p f p t o )q ( g i n )r ( a r g ) g i ( 1 1 e )t ( t h r ) n ( a s h ) s ( s e r ) u i f i l e )t ( t h x )n ( a s h )s ( s e r ) c a “i l e )t ( t h r )k ( l y s )p ( a r g ) a m ( m e t )t ( t h x )k ( l y s ) r ( a r 窟) 0 v f v a l )a c a l a )d ( a s p )g ( g l y ) u v c v a l )a ( a l a )d f a s p )g ( g l y ) c g v ( v a l ) a ( a 1 甜 e f g l u ) g ( g l y ) a v ( v a l )a ( a l a )e ( g l u )g ( g 1 y ) g 遗传信息由d n a 到r n a 再到蛋白质的过程,一直是分子生物学研究的中心, 这就是著名的分子生物学中心法则,如图l 一4 所示。 撇璃用 图1 - 4分子生物学的中心法曼l l 由于受到研究手段和研究方法的限制,以往的生物研究都是以单个或者某几个 基因、蛋白质作为研究对象在研究过程中为了搞清楚对象的功能,往往需要从了 解它的结构入手,其中一个最基本的手段就是序列测定。 上海交通大学硕士学位论文第一章后基因组时代的生物信息学 1 1 1 氨基酸和核酸序列测定 1 1 1 1 氨基酸序列测定 序列测定( s e q u e n c i n g ) 尸, 有5 0 多年的历史,但开始时的进展十分缓慢。最初, 人们致力于建立蛋白质和多肽的分离技术,并确定其氨基酸种类及含量。1 9 4 5 以前, 还没有任何蛋白质序列定量测定的方法。以后十年中,随着色谱技术和标记方法的 快速进展,第一个多肽激素( 胰岛素) 的全序列测定于1 9 5 5 年完成。五年后,第一个 酶( 核糖核酸酶) 序列测定完成。1 9 6 5 年,约有2 0 个含1 0 0 多个残基的蛋白质序列被 确定。到了1 9 8 0 年,这一数字已达1 5 0 0 个。而今天,已测定的蛋白质序列已超过 3 0 万个,这在5 0 多年前是难以想象的。 最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲基化f e d m a l ld e g i a t i o n d a n s y l a t i o ) 方法。蛋白质序列测定的快速进展,应该归功于t l 动测序仪的研制成功。 与埃德曼( e d m a n ) 和贝格( b e g g ) 于1 9 6 7 年发明的测序法相比,1 9 8 0 年开始使用的自 动测序仪的灵敏度提高了近l 万倍。 质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完 整的蛋白质分子是在1 9 9 7 年。质谱法测序的突出优点是可以识别翻译后修饰 ( p o s t - t r a n s l a t i o n sm o d i f i c a t i o n ) 而得到的特殊氨基酸。用其它方法进行蛋白质序列测定 时,这种修饰信息无法获得。正是利用了质谱技术,人们得出了哥氨基丁酸处于凝 血素m 末端的重要结论。 1 1 1 2 核酸序列测定 上世纪6 0 年代和7 0 年代,科学家们一直致力于研究测定核酸序列的方法。最 初使用的方法只能测定核糖核酸o t n a ) ,主要是转移核糖核酸( t r a n s f e r - r n a ,t r n a ) t r n a 分子的序列比较容易测定,一则因为它的链较短,通常只有7 4 - 9 5 个核甘酸 ( n u c l e o t i d e ) ,二则有可能分离单个t r n a 分子,尽管有时也不很容易。 而脱氧核糖核酸( d n a ) 的情况却大相径庭。人染色体( c h r o m o s o m a l ) 的d n a 分 子约含5 千5 百万到2 亿5 千万个碱基对( b a s c p a i r s ,b p ) ,远远大于r n a 分子。测 定一个染色体d n a 分子的全部核苷酸序列是一项艰巨的工作。即使可以将其分割成 较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为5 0 0 b p 。 由此推断,要测定人类染色体d n a 分子的全序列,就得将其分割成5 0 万个片段。 显然,如何把某个片段从这5 0 万个片段中分离出来,成了d n a 序列测定问题的关 键。 基因克隆( g e n ee l o p i n g ) 和多聚酶链式反应( p o l y m e r a s ec h a i nr e a c t i o n ,p c r ) 技术 4 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 为d n a 全序列测定带来了福音。利用以上方法,从染色体中分离特定d n a 片段的 难题迎刃而解,快速高效的测序技术因此而产生。1 9 7 7 年,两种基于链终止和化学 降解的d n a 测序法研究成功。这项技术略经改善后,很快就被推广到世界各国的分 子生物学实验室,成为8 0 年代和9 0 年代快速、有效地测定序列的基础,带来了爆 炸性增长的生物数据。 1 1 2 基因组学和人类基因组计划 以往研究的艰辛或失败教训使人们开始清醒地认识到,任何仅依靠单一学科如 细胞学、发育学、肿瘤学、人类遗传学或分子生物学的独自努力都无济于事,都太 局限了,难以完成人类对自身的认识和保护。美国曾经投以巨资但基本上以失败告 终的肿瘤十年计划也说明了这个问题。所以,要知道某事物的局部作用机制最好先 知道全局的看法逐渐主导了人们的认识【”。在绕了一大段弯路后,人们回过头来, 决定开始进行人的所有基因即基因组( g e n o m e ) 的研究,由此形成了基因组学 ( g o i l l i c s ) 和人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) ,旨在构建人类基因组详 尽的遗传图谱和物理图谱,测定人类基因组的全部核苷酸序列,并将约l o 万个( 当 时的估计数) 人类基因定位于染色体。如此大规模的研究项目,必须采用新方法分 析基因图谱和d n a 序列数据,必须用新技术、新仪器检测和分析d n a 分子为使 研究结果尽快为公众所用,计划还要求利用先进的信息技术将研究成果以最快的速 度传递给科学工作者和医务工作者。人类基因组计划的最终目的是对生命进行系统、 科学的解码,达到了解和认识生命的起源,种间和个体间存差异的起因,疾病产生 的机制以及长寿与衰老等生命现象【2 1 。 1 1 3 生物信息数据爆炸和后基因组时代 自从1 9 9 0 年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进 展极为迅速。迄今已完成了约4 0 多种生物的全基因组测序工作,人基因组约3 x 1 0 9 对碱基对的测序工作也接近完成。至2 0 0 0 年6 月2 6 日,被誉为生命“阿波罗计划” 的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成 了工作草图,这是人类科学史上又一个里程碑式的事件。截止目前为止( 2 0 0 1 年1 2 月统计数据) ,仅登录在美国核酸序列数据库( g e n b a l l k ) 【3 j 中的d n a 序列总量己超过 1 4 0 亿碱基对【4 】。图l 一5 是美国g c n b a n k 中核酸序列数目增长的情况【4 1 。在人类基 因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可 以完成得更快捷。可以预计,今后d n a 序列数据的增长将更为惊人。生物学数据的 积累并不仅仅表现在d n a 序列方面,与其同步的还有蛋白质的一级结构,即氨基酸 5 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 序列的增长。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被 测定。基于e d n a 序歹i j 测序所建立起来的e s t 数据库其纪录已达数百万条。在这些 数据基础上派生、整理出来的数据库已达5 0 0 余个这一切构成了一个生物学数据 的海洋。可以打一个比方来说明这些数据的规模。有人估计,人类( 包括已经去世 的和仍然在世的) 所说过的话的信息总量约为5 唉字节( 1 唉字节等于l o 墉字节) 。 而如今生物学数据信息总量己接近甚至超过此数量级。这种科学数据的急速和海量 积累,在人类的科学研究历史中是空前的。 o r o v e r ho fg e e b a n k 富 墨 量 舌 苫 善 乱 曼 图1 5g e n e b a n k 中核酸序列增长的情况 2 0 0 1 年2 月1 2 日,中、美、日、德、法、英等6 国科学家和美国塞莱拉公司 联合公布人类基因组图谱( t h ed r a f tg e n o m e ) 及初步分析结果标志着后基因组时代 的到来。目前人类面临的挑战是如何将基因序列资料转变为有用的知识,进而让这 些知识服务于人类,使之能够造福于人类的健康。后基因组计划是基因组计划的延 续,对得到的大量序列进行功能研究是其主要目的,当然“功能”有分子水平,细 胞水平以及整体水平的不同层次的功能研究。现阶段的结构基因组,功能基因组, 比较基因组,蛋白质组计划、药物( 中药) 基因组还有利用d n a - e h i p 等进行基因 表达水平的研究以进行功能研究等方面都应该属于后基因组计划的范畴。 随着人类基因组计划的实施,通过大规模基因组测序,蛋白质序列测定结构解 析等实验,分子生物学家提供了海量的有关生物分子的原始数据,需要利用现代计 算机技术对这些原始数据进行收集、整理、管理以便于检索使用。而在进入后基因 6 富暑薹量=芒暑g 上海交通大学硕士学位论文第一章后基因组时代的生物信息学 组时代后,人们已经不满足于简单的测序,而想了解蕴含在这些数据中的生命密码。 为了解释和理解这些数据,还需要对数据进行比对、分析,建立计算模型,进行仿 真、预测与验证。人们注意到无论是基因的表达还是蛋白质的功能,在很多情况下, 都是多个基因、多种蛋白质相互作用的结果,要对它进行分析与预测,必然涉及数 学、物理、计算科学、系统科学、控制科学、信息科学与生物学的综合应用。传统 的利用单个学科的知识和技术进行研究的方法不能适应这种新形势的要求,由多学 科交叉形成的生物信息学就应运而生了 1 。2 生物信息学 1 2 1 生物信息学的概念 过去十年,测序技术( s e q u c n c i n g ) 的飞速发展使分子生物学经历了信息革命时代。 这一革命,得益于计算机技术在最近十多年来突飞猛进的高速发展。只有应用计算 机技术,我们才有可能应付日益快速增长的生物信息。8 0 年代中期以来,计算机技 术在生物学中的广泛应用孕育了生物信息学这一新兴学科。 生物信息学是生物学与计算机科学以及应用数学等多学科相互交叉而形成的一 门新兴学科,它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达 到揭示大量数据所蕴含的生物学意义的目的。( 图1 - - 6 ) 生物信息学这一术语在不 同的场合下被赋予不同的含义。从广义上说,生物信息学可指剩用信息技术来管理、 分析和应用生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人工智 能、机器人一直到基因组分析。由于当前生物信息学发展的主要推动力来自分子生 物学,所以目前生物信息学可以狭义地定义为:将计算机科学和数学等方法应用于 生物大分子信息( 如核苷酸和氨基酸序列以及蛋白质结构) 的获取、加工、存储、 分类、检索以及分析应用。 1 2 2 生物信息学的重要性 现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面对的数 据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以千兆计的 记录。生物信息学就如同一个向导,帮助生物学家从这个生物信息的宝库中寻找他 们所需要的生命信息。如果没有生物信息学的帮助,目前生物学家根本没法进行进 一步的研究。在推动生物信息学发展的各种动力中,人类基因组计划和生物医药工 业是其中的两个主要力量。 7 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 预测生物信息学的未来主要就是要预测它对生物学的发展将带来什么样的根本 性的突破。这种预测是十分困难的,甚至几乎不可能。但是人类科学研究史表明, 科学数据的大量积累将导致重大的科学规律的发现。例如:对数百颗天体运行数据 的分析导致了开普勒三大定律和万有引力定律的发现;数十种元素和上万种化合物 数据的积累导致了元素周期表的发现;氢原子光谱学数据的积累促成了量子理论的 提出。为量子力学的建立奠定了基础。历史的经验值得注意,有理由认为,今日生 物学数据的巨大积累也将导致重大生物学规律的发现。 算法 信号处理 图形学 图像识别 人工智能 数据库 统计学 计算机模拟 信息理论 语言学 机器人学 软件工程 计算机网络 数据获取 数据解释 基因组图谱 三维结构预测 分子建模 药物设计 旧能学 同源比较 分子进化 数据库检索 基因预测 仪器设计 数据库构件 计算机科学和数学分子生物学 图1 6 生物信息学与计算机科学以及分子生物学的联 1 2 3 生物信息学的主要研究内容 生物信息学主要包括以下几个主要研究领域: ( 1 )获取人和各种生物的完整基因组,如序列重叠群( c o n t i g s ) 装配; ( 2 )发现、预测新基因和新的单核苷酸多态性( s n p ) ; ( 3 )基因组中非编码蛋白质区域的结构与功能研究; ( 4 )蛋自质结构预测,包括2 级和3 级结构预钡8 ( 最重要的课题之一) ; ( 5 )在基因组水平基础上研究生物进化; 8 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 ( 6 )完整基因组的比较研究; ( 7 )从功能基因组到系统生物学; ( 8 ) 蛋白质结构模拟与药物设计: ( 9 )生物信息学的应用与发展研究,包括疾病相关基因信息及相关算法和软 件开发、研究与发展药物设计软件和基于生物信息的分子生物学技术等。 1 3 蛋白质组及生物信息学的应用 1 3 1 蛋白质组产生的背景和意义 基因是遗传信息的携带者,而生命活动的执行者却是蛋白质,即基因表达的产 物。即使把人类含有约3 万个基因的3 0 亿对碱基的序列都解析清楚了,可以说解决 了基因序列的问题,但也只是解决了遗传信息库的问题,还远远不是基因组研究的 终结。人们在获取了基因的全部序列信息后必须进一步了解所有这些基因的功能是 什么,他们是怎么发挥这些功能的。这样基因的遗传信息才能与生命活动之间建立 起直接的联系。实际上,现在已经解出了一些低等生物的基因组全序列,但大部分 基因的功能都还是未知的。 一个有机体只有一个基因组,但是同一个有机体的不同细胞中的蛋白质的组成 和他们的数量却随着细胞的种类和其功能状态而可以很不相同。所以说基因组是唯 一的,但这3 万基因并非全部都得到表达,即使表达其程度也各不相同,遗传基因 组所表达的真正执行生命活动的蛋白质是在不断变化的。当然,基因的“表达”又 是有规律的,不同的基因有其各自的表达模式,这也就是我们通常所说的基因调控 的结果。研究基因组的根本目的在于揭示整个生命活动的规律,遗传基因组全序列 的测定只是认识生命改造生命万里长征的第一步,人们必须继续研究所有这些基因 的功能,这也就是后基因组研究,也有人称之为功能基因组研究。 研究基因组功能当然首先要研究基因表达的模式。当前研究这个问题可以基于 核酸技术,也可以基于蛋白质技术,b 口直接研究基因的表达产物。基于核酸的技术 主要有两种。一种是基因表达顺序分析法,即首先分离到细胞的信使r n a ( m r n a ) , 即正在发挥作用的基因的转录产物,再逆转录成互补d n a ( c d n a ) ,经标记和酶切, 再用聚合酶链反应技术( p c r ) 复制扩增,通过对这些基因片段的序列分析来研究基因 的活动规律。另一种是显微排阵法,主要是利用标记c d n a 和m r n a 的杂交在一种 9 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 显微体系中进行排列,使可以在较大规模上来研究基因表达的模式和规律。这两种 技术都可以用于检测在不同条件下的基因表达的情况。然而,细胞内m r n a 的信息 还不能代表基因产物最终功能形式蛋白质的信息,m r n a 的丰度并不一定与最终表 达产物蛋白质有直接关系,更何况许多功能蛋白还有翻译后修饰和加工,包括蛋白 质剪接,所以最终还是要用蛋白质研究来补充核酸分析数据。 测定一个有机体的基因组所表达的全部蛋白质的设想萌发在1 9 7 5 年双向凝胶 电泳发明之时。1 9 9 4 年w i l l i a m s 正式提出了这个问题,而“蛋白质组”( p r o t e o m e ) 的这个名词则是由w i l k i n s 创造的p 1 1 6 1 ,发表在1 9 9 5 年7 月的e l e e t r o p h o r e s i s 杂志上 嘲“蛋白质组”的定义是“由一个细胞或一个组织的基因组所表达的全部相应的蛋 白质”。蛋白质组与基因组相对应,也是一个整体的概念,是基因组表达的全部蛋白 但两者又有根本不同之处:一个有机体只有一个确定的基因组,组成该有机体的所 有不同细胞都共享同一个基因组;但基因组内各个基因表达的条件和表达的程度则 随时间、地点和环境条件而不同,因而它们表达的模式,即表达产物的种类和数量 随时间、地点和环境条件也是不同的。所以,蛋白质组是一个动态的概念。它不仅 在同一个机体的不同组织和不同细胞中不同;在同一机体的不同发育阶段,直至最 后消亡的全过程中也在不断变化;机体处于不同生理状态下不同;在不同外界环境 下也不同。正是这种复杂的基因表达模式表现了各种复杂的生命活动,实际上每一 种生命运动形式都是特定蛋白质群体在不同时间和空间出现并发挥功能的不同组合 结果。基因d n a 的序列并不能提供这些信息,所以仅用核酸的语言不足以描述整个 生命活动再加上由于基因剪接,蛋白质,蛋白质后修饰和蛋白质剪接,基因遗传 信息的表现规律就更加复杂,不再是经典的一个基因一个蛋白的对应关系,一个基 因可以表达的蛋白质数目可能远大于一。对细菌而言可能为1 2 1 3 ;对酵母则为3 ; 而对人,这个因子可高达l o ,3 万个基因可以表达的蛋白质可以达到3 0 万。可见既 是整体的又是动态的蛋白质组的研究的任务有多么繁重了,它是为生命活动本质所 不可缺少的基因组研究的后续部分,是远为复杂的后续部份。后基因组或蛋白质组 的研究,无疑将成为2 1 世纪生命科学研究中继基因组研究后的又一重大任务【7 l 。 1 3 2 蛋白质组研究的主要手段 相对于基因组研究的进展速度,蛋白质组的研究显得相对滞后,主要原因是研 究手段中众多技术问题尚未很好解决。分析全部3 万个基因的功能,最直接的是蛋 白质组的研究。而从这几年中对基因组全序列分析已经完成的一些低等生物蛋白质 组的研究看来,目前最现实,最有效的技术是双向凝胶电泳分离纯化蛋白质,结合 计算机定量分析电泳图谱并进一步用质谱对分离到的蛋白质进行鉴定,并运用现代 1 0 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 生物信息学的知识和技术对所得到的天文数字的数据进行处理。对蛋白质以及它们 执行的生命活动做出尽可能最精细、最准确、最本质的阐述1 8 】。当前蛋白质组的研 究可分为两个阶段:第l 阶段是建立一个细胞或一个组织或一个机体在“正常”条 件下的蛋白质二维凝胶图谱,或称参考图谱,即所谓“组成蛋白质组”第2 阶段则 要研究在各种条件下的蛋白质组的变化,从中总结出生命活动的规律,可以称为“功 能蛋白质组”。 1 3 3 从序列到结构 蛋白质的功能往往取决于蛋白质的结构。蛋白质结构具有明显的层次性,一般 用一级结构,二级结构,三级结构和四级结构来表示蛋白质分子的不同结构层次, 如图l 一7 所示。一级结构是指蛋白质多肽链共价主链的氨基酸顺序。二级结构是指 多肽链借助氢键排列成沿一维方向具有周期性结构的构象,常见的二级结构有。一螺 旋,b 折叠和1 3 一转角。三级结构是指多肽链借助各种次级键( 非共价键) 盘绕成具 有特定肤链走向的紧密球状构象。四级结构是指寡聚蛋白质中各亚基之间在空问上 的相互关系或结合方式。 一级结构= 级结构兰级结构四级结构 氨基酸序列a 螺旋幛折叠 多肽链多肽链拼装体 图1 7 蛋白质的一级,:级,三级、四级结构 虽然理论上氨基酸序列可以决定蛋白质结构,但序列和结构这两大类不同性质 的数据在数据量方面有天壤之别。对这一点必需有个明确的概念。截止2 0 0 1 年1 2 月,公用蛋白质序列非冗余数据库( p m t e i n i n f o r m a t i o n r e s o u r c e ,p i r ) t 9 j 中存放的序 列数已达2 7 多万个”o l ,见图1 8 。已公布的序片段和表达序列标记( e x p r e s s e d s e q u e n c e t a g ,简称e s t ) 数据库的数目已达百万个。而蛋白质三维结构数据库( p r o t e i n 上海交通大学硕士学位论文 第一章后基因组时代的生物信息学 d a t ab a n k ,简称p d b ) ! l l 】中独立的原子坐标依然不足1 5 0 0 套,数据库中总共也只不 过有不到2 万个蛋白质结构( 见图1 - - 9 ) 【l ”,几乎是p i r 中蛋白质序列数的十分之 一还不到,显然难以与序列数据库的数据量相比。这是因为结构数据的采集、存储 与处理远比序列数据复杂。从信息理论角度看,结构数据与序列数据之间数据量的 巨大差异,反映了这两类既不相同、却又相关的数据之间信息量的差异。随着基因 组计划( g c n o m ep r o j e c t ) 的实施,序列数据大量积累,这种差距会越来越大。当然, 结构数据也在快速增长。可以预计,大规模结构测定计划的实施,每年测定2 0 0 0 个 结构的目标将不会是一句空话。当然,这与序列数据每年翻番的增长速度相比,依 然不可同日而语。 3 0 0 ,0 0 0 2 5 0 0 0 0 2 0 0 0 0 0 1 5 0 。0 0 0 1 0 0 ,0 0 0 5 0 ,0 0 0 o 图1 8p i r 数据库中蛋白质序列数的增长 目前,平均每一分钟就有一个序列增加到核酸序列数据库中。与我们已知的核 酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转 换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速 度远远赶不上单纯序列数据产生的速度。像圆二色谱、旋光色散、x 光晶体衍射和 核磁共振都是确定结构特征的强有力技术,但它们的实现都需要大量时间,并对技 术和技巧都有很高要求。因此,在蛋白质组的研究中更需要生物信息学进行序列分 析和功能预测,结构对比和蛋白质的二维及三维结构预测。 1 2 上海交通大学硕士学位论文第一章后基因组时代的生物信息学 图1 - - 9p d b 数据库中蛋白质结构增长情况 上海交通大学硕士学位学位论文第二章膜蛋白及其二级结构预测进展及现状 第二章膜蛋白及其二级结构预测进展及现状 2 1 膜蛋白 2 1 1 细胞膜 细胞是生命的基本结构与功能的单位。细胞膜的化学组成主要是脂类、蛋白质 和塘类。根据目前公认的生物膜流动镶嵌模型( f l u i dm o s a i cm o d e l ) ( 见图2 1 ) ,脂 类常排列成双分子层( 脂质双层) ,蛋白质通过非共价键与其结合,构成膜的主体; 糖类通过共价键与膜的某些脂类或蛋白质组成糖脂或精蛋白。 图2 1 膜的流动镶嵌模型 细胞膜在细胞中承担着多种重要的功能,对生命来说必不可缺。其主要功能有: ( a )隔离细胞和细胞与外界,使细胞有一个相对独立的环境; ( b )跨膜运输功能。细胞膜是一个高选择性的通透屏障,可以调节细胞内 介质的分子和离子浓度:它可以有选择地让某些重要的离子或分子逆 梯度从细胞膜外传送到细胞膜内,也可以阻碍某些离子或分子顺梯度 扩散到细胞外; ( c )信号传导功能。细胞膜可以通过细胞膜上的受体控制细胞与周围环境 间的信息交流; ( d )对生物界来说两个最重要的能量转换过程:在叶绿体( c h l o r o p l a s t s ) 1 4 上海交通大学硕士学位学位论文 第二章膜蛋白及其二级结构预测进展及现状 内膜的光合反应以及在线粒体( m i t o c h o n d r i a ) 内膜的氧化磷酸化作 用都是由膜系统执行的; 以上这些功能对细胞乃至整个生命体来说都是必不可少的,任何一个功能失效 就会导致细胞以及机体的死亡。而这些功能往往是通过细胞膜上的膜蛋自来执行的。 2 。1 。2 膜蛋白的定义 膜蛋白是指某些区域永久地附着于膜上( 外周膜蛋白) 或插入膜内( 内在膜蛋 白) 的蛋白质。 2 1 3 膜蛋白的功能 插入细胞膜脂质双层的膜蛋白是细胞膜功能的主要承担者,其主要功能有受体、 生长因子、离子通道、离子泵、膜孔、运载体及各种膜酶。了解膜蛋白的功能不仅 有助于了解普通的细胞功能,而且更有助于理解许多医药制剂的机理。膜蛋自是许 多药剂的受体,据估计仅仅是膜蛋白中的一个家族一g 蛋白偶联受体( g - p r o t e i n c o u p l e dr e c e p t o r , g p c r ) 就成为7 0 药物的药靶。随着基因组计划的逐步完成,以及 蛋白质组学的兴起,膜蛋白的结构和功能越来越引起人们的注意。据估计,在大多 数基因组中,有2 0 3 0 的基因编码为膜蛋白【1 4 j 。 2 1 4 膜蛋白的分类 根据从膜上可分离的难易程度,膜蛋白可以分为外周膜蛋白0 e r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年度计算机四级题库检测试题打印含完整答案详解【网校专用】
- 个人歌唱活动策划与执行要点
- 物料能量衡算精要
- 酒店微笑问好服务培训纲要
- 2026届山东省曲阜市石门山镇中学九年级化学第一学期期中学业水平测试模拟试题含解析
- 2026届山东省德州市六校化学九上期末统考模拟试题含解析
- 2026届山东滨州阳信县九年级英语第一学期期末教学质量检测模拟试题含解析
- 2026届河南省驻马店九上化学期中预测试题含解析
- 河南省南阳市宛城区等2地2025-2026学年高二上学期开学英语试题(含答案)
- 2025年腔镜技能大赛试题及答案
- JT-T-795-2011事故汽车修复技术规范
- 宁夏红墩子煤业有限公司红二煤矿环评上报版
- (高清版)DZT 0437-2023 环境地质调查规范(1:50000)
- 《压力焊方法》课件
- 2024信息安全意识培训ppt课件完整版含内容
- JGT366-2012 外墙保温用锚栓
- 《动物比较生理学》课件
- 火龙罐综合灸疗法
- 化学锚栓承载力计算
- 肺部感染性疾病课件
- 医院健康体检表
评论
0/150
提交评论