




已阅读5页,还剩52页未读, 继续免费阅读
(计算机软件与理论专业论文)基于神经网络方法的蛋白质二级结构预测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 基于神经网络方法的蛋白质二级结构预测 摘要 生物信息学作为门新兴的学科,已成为这个世纪自然科学的l 河沿领域之 。 在生物信息学的众多研究方向中,蛋白质结构预;9 1 i l 一直是一个亟待解决的问题。 蛋白质结构预测是指从蛋白质的氨基酸序列预测出其三维空问结构。由丁蛋 白质的生物功能很大程度上取决于其空间结构,因而进行蛋白质结构预测对于理 解蛋白质结构与功能的关系,以及分子、发计、生物制药等领域有很重要的现实意 义。同时,由于蛋白质结果测定的速度远远落后于蛋白质序列增长的速度,使得 蛋白质结构预测成为一种迫切的需要。蛋白质二级结构预测是蛋白质结构预测的 重要组成部分,是三级结构预测的第一步。通过对这一课题的研究也可以让我们 对生物信息学这个领域有更深入、更深刻的认识,拓展我们的研究思路。 神经网络作为机器学习的重要方法,在生物信息学领域中取得了广泛的应用, 尤其是生物序列的模式分析中,如蛋白质的分类、启动子的识别与分类等等。神 经网络也同样被应用于蛋白质_ :二级结构预测中,神经网络通过学习现有的氨基酸 序列与二级结构间的关系,可以对蛋白质的二级结构做出预测。相比其它机器学 习方法,神经网络在这些应用中,具有高效准确的特点。 我们设计完成了用神经网络预测蛋白质二级结构的系统,我们在实现中着重 研究了两类问题,一是如何对氨基酸进行编码,二是如何根据生物特性列神经网 络的预测结果进行进一步的后处理以及如何合并多个神经刚络的预测结果。在第 一个问题上,我们分别根据概率和氨基酸的生物特性提出了多种编码方法:在后 处理及结果的台并上,我们根据蛋白质二级结构的生物特性,提出了预测结果的 修改规则。f 司吲,为了得到更准确的预测结果,我们在训练神经网络时采用了神 经网络集合的方法,并根据网络的效果提出了神经网络集合中各神经网络结粜的 合并规则。在三类分类器和并过程中,我们根据系统的实际情况提出了可行n ,j 合 并策略,并对各种合并策略的效果进行了比较利分析。 东北大学硕士学位论文摘要 我们的实现采用的是不基于同源信息的方法,我们的方法与此类的其他方法 相比达到了其他方法所达到的正确率,同时我们提出的编码及后处理过程较好的 改善了预测系统的s o v 指标,达到了采用同源信息方法所达到的水平。 关键词生物信息学蛋白质二级结构预测蛋白质结构预测氨基酸编码神经 网络 i l i 东北大学硕士学位论文 a b s 丁r a c r p r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o nb a s e d o nn e u r a ln e t w o r k s a b s t r a c t a sa ne m e r g i n gs u b j e c t ,b i o i n f o r m a t i c sh a sb e c o m eo n eo ft h el e a d i n ge d g e so f n a t u r a ls c i e n c e p r o t e i ns t r u c t u r ep r e d i c t i o ni sa l w a y sas t u b b o r np r o b l e ma m o n gt i r e 1 0 t so fd i r e c t i o no f b i o i n f o r m a t i c s p r o t e i ns t r u c t u r ep r e d i c t i o nm e a n s p r e d i c t i n gt h e3 - d i m e n s i o ns t r u c t u r ef r o mt h e g i v e ns e q u e n c eo fa m i n oa c i d t h ep r e d i c t i o no fp r o t e i ns t r u c t u r ei sv e r yi m p o r t a n tt o u n d e r s t a n dt h er e l a t i o n s h i pb e t w e e nt h es t r u c t u r ea n dt h ef u n c t i o no f p r o t e i ni nr e s p e c t t h a tb i o l o g i cf l l n c t i o no ft h ep r o t e i nl a r g e l yd e p e n d so ni t s s p a t i a l s t r u c t u r e f u r t h e r m o r e ,t h eg a pb e t w e e nt h en u m b e ro fp r o t e i n sf o rw h i c hs t r u c t u r ei sd e p o s i t e di n p u b l i cd a t a b a s e s ,a n d t h en u m b e ro fp r o t e i n sf o rw h i c h s e q u e n c e s a r ek n o w ni s i n c r e a s i n g a l l o ft h e s em a k ei t u r g e n t t o p r e d i c t t h e p r o t e i n s t r u c t u r e p r o t e i n s e c o n d a r ys t r u c t u r ep r e d i c t i o ni so n eo ft h em o s ti m p o r t a n tp a r t so fp r o t e i ns t r u c t u r e p r e d i c t i o na n di ti st h ef i r s ts t e po f 3 一d i m e n s i o ns t r u c t u r ep r e d i c t i o n a sa ne f f e c t i v em a c h i n e l e a r n i n gm e t h o d ,n e u r a ln e t w o r k sh a v eb e e n u s e dw i d e l y i nt h ef i e l do fb i o i n f o r m a t i c s ,e s p e c i a l l yi nt h ep a t t e r na n a l y s i so f b i o s e q u e n c e s ,f o r e x a n p l e ,t h ec l a s s i f i c a t i o no fp r o t e i ns e q u e n c e ,t h er e c o g n i t i o na n dc l a s s i f i c a t i o no f p r o m o t e r , a n de t c n e u r a ln e t w o r k sa l s oc a nb eu s e di np r o t e i ns e c o n d a r ys t r u c t u r e p r e d i c t i o n t h e y c a n p r e d i c t t h e s e c o n d a r y s t r u c t u r e b yl e a r n i n g t h e e x i s t i n g r e l a t i o n s h i p b e t w e e nt h ea m i n oa c i d s e q u e n c e s a n dt h e i r s e c o n d a r y s t r u c t u r e s c o m p a r e d w i t ho t h e rm a c h i n e l e a r n i n gm e t h o d s ,n e u r a ln e t w o r kh a st h ea d v a n t a g eo f h i g ha c c u r a c y w eh a v ec o n s t r u c t e das y s t e mf o rp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n ,a n dw e f o c u s eo nt w o p r o b l e m s ,o n ei sh o wt oe n c o d et h ea m i n oa c i d ,a n dt h eo t h e ri sh o wt o p r o c e s sa n dc o m b i n et h ep r e d i c t i o nr e s u l t so fn e u r a ln e t w o r k s w eh a v ee n c o d e dt h e a m i n oa c i db a s e do nb o t h s t a t i s t i ca n d b i o l o g i c a l m e t h o d sw ea l s o p r e s e n t p o s t p r o c e s s i n gr u l e sa c c o r d i n gt ot h eb i o l o g i c a lf e a t u r e s i no u r i m p l e m e n t a t i o nw e d i dn o tp u t h o m o l o g o u si n f o r m a t i o ni n t ot h ep r e d i c t i o n c o m p a r e d w i t ho t h e ro n e s ,o u r s y s t e mh a sa c h i e v e dt h ea c c u r a c ya tt h es a n l el e v e l ,i n i v 东北大学硕士学位论文 a s 1 1 r a c r w h i c ht h es o vi si m p r o v e ds on o t a b l yt h a tt h es o vr e s u l ti sc o m p a r a b l et ot h er e s u l t o ft h e s y s t e m si n c l u d i n g t h e h o m o l o g o u si n f o r m a t i o n ,b yu s i n g t h ea m i n oa c i d e n c o d i n ga n dt h ep o s t p r o c e s s i n gm e t h o d sp r e s e n t e db y u s k e y w o r d sb i o i n f o r m a t i c s ,p r o t e i ns t r u c t u r e p r e d i c t i o n ,p r o t e i ns e c o n d a r ys t r i c t u r e p r e d i c t i o n ,n e u r a ln e t w o r k ,a m i n oa c i de n c o d i n g v 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文 中取得的研究成果除加以标注和致谢的地方外,不包含其他人已 经发表或撰写过的研究成果,也不包括本人为获得其他学位而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。 本人签名:i 诵 日期: 撕斗耳1 日斗目 东北大学硕士学位论文 第一章引言 第一章引言 1 1 生物信息学 世纪之交,人类基因组计划取得了决定性的成功,这使更多的人开始关注和 了解生命科学。生物信息学是一门新兴的交叉学科,是在生命科学的研究中,以 计算机为工具对生物信息进行存储、检索和分析的科学 1 ,2 。可以说它所研究的 材料是生物学的数据,而它进行研究所采用的方法,则是从各种计算机技术衍生 出来的。生物信息学是2 0 世纪8 0 年代末,随着人类基因组计划的不断发展,基 因和蛋白质数据的急速增加,以及信息理论和计算机技术的不断发展而逐渐形成 n 3 ,4 1 。它是当今生命科学和信息科学的重大前沿领域之一,也是这个世纪自然 科学的核心领域之一。 1 1 1 生物信息学的发展简史 从1 9 6 2 年p a u l i n g 提出分子进化论到d a y h o f f 构建蛋白质序列替换矩阵到利 用计算机软件分析d n a 序列到g e n b a n k 的公开到b l a s t 的发布到人类基因组 测序的基本完成到许多生物信息学发展中的主要事件在生物信息学一词被提 出之前就发生了( 详细内容请参见表1 1 生物信息发展简史) 8 ,许多学者将生 物信息学的发展分为三个阶段:( 1 ) 萌芽阶段( 上世纪6 0 7 0 年代) :以d a y h o f f 的替换矩阵和n e l l e m a n w u n s c h 算法为代表,它们组成了生物信息学的最基本内 容和思路:序列比较。它们的出现代表了生物信息学的诞生,以后的发展基本上 是在这些内容上不断的改善;( 2 ) 形成阶段( 上世纪8 0 年代) :以分子数据库和 b l a s t 等相似性搜索算法为代表。1 9 8 2 年三大分子数据库的国际合作使数据共 享成为可能,同时为了有效管理与日俱增的数据,以b l a s t 和f a s t a 等为代表 的工具软件和相应的新算法被大量的提出和研制,极大的改善了人类管理和利用 分子数据的能力。在这个时期,生物信息学作为一个新兴的学科已经形成,并确 立了学科自身的特征和地位;( 3 ) 高速发展阶段( 上世纪9 0 年代至今) :这一阶 东北大学硕士学位论文 第一章引言 段以基组测序与分析为代表。尤其是人类基组计划的实施,分子数据剧增, 己达到以亿计的数量级;基组水平上的分析使生物信息学的优势得以充分表现, 基组信息学成为生物信息学中发展最快的科学前沿,在此阶段,生物信息学已 成为举世瞩目、竞相发展的热点学科。g e n b a n k 等数据库【3 ,5 ,6 ,7 1 中的数据在近十 年来直线上升,生物信息学在近十余年经历了长足的发展,并迅速成为生命科学 的新增长点。人类基组计划的实施和生物医药工业的介入是生物信息学迅猛发 展的主要推动力。 表11 生物信息学的发展简史 t a l b e l 1t h eh i s t o r yo fb i o i n f o r m a t i c s 1 9 6 2p a u l i n g 提出分子进化理论 1 9 6 7d a y h o f f 构建蛋自质序列替换矩阵 t 9 7 0n e e d l e m a n - w u n s c h 算法被提出 1 9 7 7s t a d e n 干u 用计算机软件分析d n a 序列 1 9 8 1s m i t h w a t e r m a n 算法出现 1 9 8 1序列模序( m o t i f ) 的概念被提出( d o o l i t t l e ) 1 9 8 2g e n b a n k 数据库( r e l e a s e 3 ) 公开。三人核酸数据库( g e n b a n k 、e m b l 和b j ) 1 9 8 2 一噬菌体基因组被测序 1 9 8 3w i l b u r 和l i o m a n 提出序列数据库的搜索算法( 1 ;i l h e r l i o m a n 算法) 1 9 8 5快速序列相似性搜索程度f a s t p f a s t n 发布 1 9 8 8美国家生物技术信息中心( n c b i ) 创立 1 9 8 8欧洲分子生物学网络e n b n e t g u 立 1 9 9 0 快速序列相似性搜索程序b l a s t 发布 1 9 9 l表达序列标签( e s t 概念被提出,从此开创e s t | | ! q 序 1 9 9 3英国s a n r e r 中心迁址英国h i n x t o n 1 9 9 4 欧洲生物信息学研究所在英国h i n x t o n 成立 1 9 9 5 第一个细菌基因组测序完成 1 9 9 6 酶母基因组删序完成 1 9 9 7p s i b l a s t ( b l a s t 系列程序之一) 发布 1 9 9 8 p h i l g r e e n 等人研制的自动测序组装系统p h r e d p h r a p c o n s e d 系统止式发 】9 9 8 多细胞线虫基因组测序完成 1 9 9 9 果蝇基因组测序完成 2 0 0 0 人类基因组测序基本完成 2 0 0 1人类基因组初步分析结果公布 2 查! ! 垄兰翌主兰堡丝苎 1 1 2 生物信息学的内涵 第一章引言 j “义上,生物信息学从事对生物信息的获耿、加1 、存储、分配、分析和释 读,j 综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含 义的目标1 ,2 。具体地,生物信息学从对基因组d n a 序列信息分析开始,找到 基因组序列中代表蛋白质和r n a 信息的编码区( 即分子生物学中的d n a 序列的 外显子区域) ,阐明非编码区( 即分子生物学巾d n a 序列的内含子区域) 的信息 实质,破译隐藏在d n a 序列中的遗传规律;同时,归纳、整理与遗传相关的信 息,达到认识代谢、进化等过程的规律。生物信息学综合基凶信息和大规模蛋白 质空间结构预测及蛋白质相互作用检测的数据,进行蛋白质空间结构及蛋白质功 能的预测,进而将这些信息与生物体和生命过程的生理生化信息相结合,阐明蛋 白质的分子机制,最终进行分子设计、药物设计等。从描述我们可以进一步体会 到,在基因组研究的时代,生物信息学包含三个层次上的重要内容:基因组生物 学、蛋白质的结构计算与模拟以及分子与药物设计。 基因组信息学是生物信息学的源头和基i i t i 1 ,2 ,8 。人类基因组计划自1 9 9 0 年 启动伊始,就确定了基因组信息学的重要意义和工作方向,它是一个科学领域, 包含綦因组信息的获取、处理、存储、分配、分析和解释的所有方面。这个方向 包含两方面的内容,一方面是发展强大的信息分析工具,构建适用于基因组研究 的数掘库,以便收集、管理和使用人类基因组和模式生物基因组的海量数据;另 一方面是配合人类基因组计划的各项实验研究,确定人类基因组完整的核苷酸顺 序,找出人类全部基因在染色体上的位骨以及包括基因在内的各种d n a 片断的 功能。随着人类基因组草图的绘制完成,基因组信息学的研究重心已从结构基因 组学转到功能基因组学。结构基因组学主要是建立生物体高分辨率的遗传、物理、 序列和转录阁潜;而功能基因组学是利用前者提供的大量信息,系统研究基因的 功能,解读由4 个核苷酸组成的人类遗传信息。刚以说,人们特别是科学家存惊 叹基因组信息学所取得的巨大成就的同时,也充分意识到了生物信息学所面临的 新的挑战的严峻性。 蛋白质结构计算与模拟是基因组信息学发展的必然结果。虽然编码蛋白质的 j 。 查! ! 垄芏堡主兰堡笙查 堑二兰! ! 王 基因序列仅占高等真核生物基因组的1 j 足i o ,但这确足最重要的基因组信息之 一蛋白质是由d i q a 经转录过程合成的。蛋白质的功能离不丌= 蛋白质的空f 日j 结构以及蛋白质与蛋f ;i 质或蛋白质与配体的相互作用( 传统的生物学认为,蛋白 质序列决定了其三维结构,进而决定了它的功能) 。虽然用品体衍射和核磁共振技 术测定蛋白质的三维结构,以及用生化方法研究蛋白质的功能效率不高,但随着 大规模蛋白质空间结构测定工作的发展人类模拟和预测蛋白质结构的能力不断 提高,从蛋白质一级结构预测蛋白质的三维结构的始终是科学家致力研究的领域, 并取得了定的成果。 分子和药物设计是利用蛋白质结构与功能信息,造福人类健康和农业发展的 强有力方法。近年来,由于计算机技术的飞速发展,利用蛋白质三维结构及其功 能进行分子和药物设计已经成为实现蛋白质的人工进化、发展新药的必不可少的 工具。例如,通过了解蛋白质的结构、功能、相互作用以及与疾病之间的关系, 可以实现基于生物大分予结构的药物设计,现在人类已经开始从中受益。 生物信息学的研究对认识生命的起源、遗传、发育与进化的本质有重要的意 义。发展生物信息学不仅有助于认识遗传语言,解读人类基因组全部d n a 序列, 认识人类本身,以及遗传、发育和进化的联系,而且它将丰富和发展现有的物理 学、生物学、化学、数学、计算机科学、信息科学和系统科学的理论和方法,从 而推动学科群的发展,成为自然科学中多学科交叉的、有影响、充满活力的新领 域,它已逐渐成为最具吸引力的新兴学科之一。 1 1 3 生物信息学的研究内容 生物信息的收集、管理以及生物数据的分析处理可以说是最初生物信息学产 生的主要原因。各类数据库和生物计算构成如今生物信息学的主要内容,同时, 互联网的产生和发展为现今生物信息网上资源的发展创造了机会。因此,目前生 物信息学的研究主要从三个方面进行 1 ,2 , 8 ,9 。 ( 1 ) 数据库的开发与应用 主要包括核酸序列数据库、氨基酸序列数据库、蛋白质结构数据库、蛋f ,_ ;| 质 4 东北大学硕士学位论文 第一章引言 片段数据库、蛋白质家族数据库、各类功能数据库、一些生物体的专门数据库等。 生物数据的海量性、复杂性及其指数增k 的趋势决定了生物信息数据库的特点: 首先,爆炸式增长足生物信息学数据的重要特征。到1 9 9 7 年底,g e n b a n k 有1 8 92 力条核酸序列数据,s w i s s p r o t 有6 9 0 0 0 条蛋白质序列,p d b 有7 0 0 0 套结构,而 如今p d b 的蛋白质结构已经超过1 2 0 0 0 套;其次,数据库的复杂度也在不断增加, 在第3 5 版的s w i s s p r o t 中,注释项涉及蛋白质的功能、结构域和活性位点、二级 结构、阴级结构、翻译后的修饰、与其他蛋白质的相似性、相关疾病、序列冲突 等,与之交叉引用的数掘库达2 6 个。数掘库结构屡次的加深客观上要求管理的进 步,当今面向对象数据库管理方法诈逐步取代旧的模式。 ( 2 ) 生物计算与分析 利用数学、信息科学的各种方法对生物数据进行分析处理和计算,获取生命 过程的内在联系和本质规律,是生物信息学的重要研究内容。生物计算有待解决 的基本问题是:序列的对比,对两个或多个序列进行比较,找出其相似性,这 是其他许多研究的基础。在对比策略问题上,n e e d l e r n a n 和w u n s c h 提出的动态 规划算法被成功地应用于两个序列的比对,但是多序列比对仍然是一个难题。 基因识别与d n a 序列分析,基因是参与蛋白质编码的d n a 片段。给定d n a 序 列,要找出哪一段是编码区,编码区确定了,他所编码的氨基酸序列就清楚了, 这是进行蛋白质结构预测的基础。同时,到目前为止非编码区的功能还不清楚, 这些占基因组9 5 以上的“j u n k ”d n a 有可能包含着大量的生命规律。蛋白质 结构预测,现阶段遗传信息从d n a 经r n a 合成氨基酸序列的过程已经基本清楚, 然而仅有氨基酸序列还无法说明蛋白质的功能,从氨基酸到具有一定空间结构的 蟹闩质的过程被称为蛋白质折叠阅题,这是生物信息学中一个亟待解决的问题, 在后面的章节中将有详细的介绍。分子进化,主要是指通过比较不同物种基因 缀中d n a 或氨基酸序列的异同来研究生物的进化。 ( 3 ) 网络资源的开发和利用 互联网的发展为生物信息学提供了无限的发展空j 、日j 。它不仅提供了数据共享 的方便途径,而且提供了各种生物计算和分析工具,还可以通过网络以新闻组、 。 东北大学硕士学位论文 第一章引言 消息组的形式组成虚拟会场,供世界各地的科学家进行交流。目前网络资源主要 包括:文献查阅、数据库检索、软件下载、在线服务、学术交流、生物信息引擎 等。, 1 1 4 生物信息学与人类基因组计划 现代遗传学家认为,基因是d n a 分子、 = - 具有遗传效应的特定核苷酸序列的 总称,是具有遗传效应的d n a ( 脱氧核糖核酸) 分子片段。基因位于染色体上, 并在染色体上呈线性排序。基因不仅可以通过复制把遗传信息传递给下一代,还 町以使遗传信息得到表达,也就是遗传信息以一定的方式反映到蛋白质的分子结 构中,从而使后代表现出与亲代相似的性状 8 ,1 0 。 人类基因组计划是美国科学家于1 9 8 5 年率先提出的,在1 9 9 0 年这一被誉为 生命科学“阿波罗登月计划”的伟大1 :程f 式启动 3 ,4 。人类基因组计划的科学 宗旨与“定时、定量、定质”的具体目标,是测定组成人类基因组的3 0 亿个核苷 酸的序列,发现所有人类基因并搞清其在染色体上的位置。从而奠定阐明人类基 因组及所有基因的结构与功能,解凄人类的全部遗传信息,奠定揭开人体奥秘的 基础。1 9 9 9 年,中国获准d i x 人类基因组计划,承担1 的测序任务,成为参与 这一计划的惟一发展中国家 1 1 。2 0 0 0 年6 月2 6 阿,中、美、日、德、法、英等 6 国科学家联合宣布,首次绘成人类基因组“工作框架图”。2 0 0 3 年4 月1 4n ,6 国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。 随着后基因组时代的到来,科学家预计在未来的若干年生物信息学将变得越 来越重要,越来越引起人们的重视。科学家将生物信息学在基因组计划中的应用 规划为近期任务和远期任务。 ( 1 )近期任务 由于未来几年蛋白质和核酸的测序数据将以指数方式增长,近期生物信息学 将在以下几个方面迅速发展:大规模基因组测序中的信息分析,测序的每个环 肯都与信息分析紧密相关,都依赖基因组信息学的软件和数据库;新基因和新 s n p s ( i i l i l l l l i 态性) 的发现与鉴定,所谓s n p 是指在不同人种间基因有什么 6 查! ! 查兰壁主堂堡堡查墨二兰生量一 差别、作常人和病人基因有什么差别等;生物大分子的结构模式与药物设计:完 整基因组的比较研究,现在的生物信息学家不仅有大量的序列和基因而且有越来 越多的完整基因组,有了这些资料人们就能对若干重大生物学问题进行分析,如 研究生命的起源、进化,遗传密码的起源,研究为何人种之间基因组的差别仪为 0 ,l 、人猿闻为1 而他们表型问的差异十分显著这些例子说明l 丰f 完整基因 组研究所导致的比较基因学必将为基凶组研究开辟瓤的领域。 ( 2 )远期任务 生物信息学的远期任务是读懂人类基因组,发现人类遗传语言的根本规律。 主要有两方面的内容:非编码区信息结构分析,近年来的研究表明,高等生物 和人的基因组中非编码区都占到基因组序列的绝大部分。从生物进化的观点看, 随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明;这部分序列 必定具有重要的生物功能。因此寻找这些区域的编码特征以及信息调节与表达舰 律是未来相当长时间内的热点课题。遗传密码起源和生物进化的研究,上世纪 中叶以来,随着分子生物学的发展,进化论的研究进入了分子水平。当前分子进 化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信 息的理论方法。几年来,随着序列数据的大量增加对序列差异和进化关系的争 论越来越激烈,不少研究结果并不支持分子钟的假设。同时,对垂直进化和水平 演化之间若系的讨论也越发引起人们的重视。当前的资料向我们展示了一个更为 复杂也更为丰满的进化模式,它启示我们要彻底了解进化的规律必须使用整个基 因组的信息,同时要相应地发展新的理论方法。总之,当前是生物信息学研究的 一个有活力的新时代,很多科学家还说它是人类基因组研究的收获时代,它不仅 将赋予人们各种基硎 研究的重要成果,也会带来巨大的经济效益和社会效益。 1 2 机器学习在生物信息学中的应用 机器学习的观点是设计出一种像人类一样可以学习的机器,从经验中获取智 慧,从而在有用的资料中挖掘信息 9 ,1 2 】。而生物信息学的研究课题涉及到高度复 杂的生物系统,机器学习的观点可能会比较适用。这主要有两方面的原因,首先, 1 。 东北大学硕士学位论文第一章引言 机器学爿是以任务为导向的,同时生物学系统中的许多问题,除了使用例子或实 验资料,无法给出满意的答复。人们可以对匹配的输入、输出进行描述,但是搞 不清楚它们之间的关系( 如蛋白质的折叠机制) ,而机器学习可以通过自动调整其 内部结构,对特定的问题给出近似的解。其次,机器学习很容易适应新的q :境。 这对生物信息学很重要,每天都有新的资料形成,而且这些新资料可能会对原来 的概念或学习得到的假设进行修改,不断的修正就显得尤其重要。这对于具有自 适应特征的机器学习来说很容易做到。机器学习方法可以处理生物信息学中遇到 的大部分问题。主要的机器学习方法有: 1 ,神经网络,神经网络是生物信息学中厂泛使用的机器学习方法之- 一,也是 最早应用于生物学分析领域的技术之一。神经网络的优势在于有能力学习和解决 现实中的许多问题,并有很强的适应性;网络的缺点是缺乏解释能力,要对做出 的决定和网络中每个节点所用的方法做出解释是很困难的。神经网络主要用于蛋 白质结构和功能的预测等领域; 2 决策树,决策树是一种简单的诱导型学习系统,使用近似的离散函数对样 本进行估计和分类。这种方法实现简单,在机器学习中应用也相当广泛,但缺点 是很难进行优化。决策树已被使用于对蛋白质编码基因定位、蛋白质结构预测等 应用中; 3 贝叶斯网络,贝叶斯网络是一种在一组有关的变量中表达概率关联的图示 模型。贝叶斯网络为资料分析处理提供了一种可视化工具,其优点是有能力处理 不完整资料,可以预测漏失数据。与其它机器学习算法相比,它可以提供标准的 最优化策略。贝叶斯网络可以用于d n a 序列的结合位点的建模; 4 隐马尔科夫链,上世纪7 0 年代,h m m 主要用于语音识别,自从9 0 年代 早期这种方法介绍到生物信息学领域后,h m m 在序列建模、多重阵列、蛋白质 结构预测等方面得到了广泛使用; 5 聚类,聚类通过组织和鉴别将资料进行分类,其派生出的聚类算法也可以 用以预测和解释复杂资料,聚类方法主要有分层聚类和k 一聚类两种。聚类可以认 为是一种描述和表达的方法,得到的结果容易被生物学家了解和接受; 8 查! ! 查兰翌主堂堡堡查 一墨二主上圭一 6 支持向量机,支持向量机是一种建立在统计学理论基础上的机器学习方 法。通过学习算法,支持向量机可以自动找到那些对分类有较好区分能力的支持 向量,出此构造出的分类器可以最大化类与类的间隔。支持向量机的主要思想是 针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小 的分类错误率。而且支持向量机的一个重要的优点是可以处理线性不可分的情况。 在生物信恳学研究中,它在蛋白质折叠识别、转录起始点以别等方面有着j 、泛的 应用。 1 3 蛋白质结构预测 1 3 1 蛋白质简介 十九世纪初,当科学家第一次把注意力转向营养时,就很快发现含氮的天然 产物是动物生存所必需的。1 8 3 8 年,荷兰化学家m u l d e r 为这类化合物取名为 “p r o t e i n ”,中文翻译为蛋白质。蛋白质是含量最丰富的生物大分子,约占细胞干 重的5 0 以上 9 ,l o 】。现今,虽然人类还远未了解生命现象的全部,但所有已被 揭示的人类生命活动均与蛋白质密切相关。 蛋白质是台氮的有机化合物,是由氨基酸构成的生物大分子。通过分析各种 不同来源的蛋白质的氨基酸组成,发现构成蛋白质的氨基酸共有2 0 种。这2 0 种 氨基酸都有相应的遗传密码子编码,通常把这2 0 种氨基酸称为标准氨塾酸。 和所有的多聚物分子一样,蛋白质的结构水平也是分级的,其结构可分为- 级、二级、三级和四级 1 0 。蛋白质的级结构是指蛋白质肽链上的氨基酸顺序; 蛋白质的二、三、四级结构统称为空间结构和空间构象,是蛋白质不同层次的折 叠结构( 如图1 1 ) 蛋白质的二级结构( s e c o n d a r ys t r u c t u r e ) 是指蛋白质多肽链丰链在空问的走 向一般呈现有规律的空间折叠,这级结构水平不涉及侧链基团在空间的位置。1 9 5 1 年p a u l i n g 等人应用x 射线晶体衍射技术剥小肽进行分析,提出了两种有规律的 主链结构,周期性肽结构o 螺旋( o h e l i x ) 结构和1 3 :t i f f ( bp l e a t e ds h e e t ) 结 构。o 螺旋是蛋白质分子结构中最常见,也是最稳定的一种螺旋,它是蛋rj 质分 9 东北大学硕士学位论文 第一章引言 图1 1 蛋白质豹结构水平 f i g u r e1 1t h es t r u c t u r el e v e lo fp r o t e i n 予中普遍存在的一种典型的二级结构。b 折叠在蛋白质分子中存在反平行式和平 行式两种,在每种折叠中,每对扭角都是分别相等的,这两种有规则的主链构象 是另一种典型的蛋白质二级结构。大多数蛋白质都是球状的,因此,多肽链必须 具有弯曲、转角和自我改变方向的能力,以便产生紧凑的球状结构。在许多蛋白 质中都可以观察到一种叫做p 转角的结构,它有4 个连续的氨基酸残基组成。 蛋白质的三级结构和四级结构通常是针剥球状蛋白质而言的。球状蛋白质构 成了蛋白质种类的大多数,在天然状态下,它们都是以紧密的球形分予形成存在 的,并且细胞内的大多数生物化学过程多是由它们完成的。球状蛋白质比纤维蛋 白质复杂得多,这与它们作为生物活性物质的功能密切相关。蛋白质的三级结构 是指分子中的所有原子的三维空间排列,包括二级结构要素和侧链在空问上的关 系。三级结构的主要特征是:通常含有a 螺旋和b 折叠两种基本的结构要素:球 状蛋白质的氨基酸侧链根据它们的极性来安排其空问位置;在许多球状蛋白质中 - 1 0 查! ! 查兰翌主堂堡垒查 茎二主堕 都经常观察到二级结构要素的组合( 即超二级结构或基元) 。 蛋白质的四级结构,四级结构是为研究寡聚蛋白质而提出的。生物体内的许 多蛋臼质都含有两条或多条折叠的多肽链,它们彼此聚集,构成一个完整的功能 实体,这种蛋白质称作寡聚蛋白质。在寡聚蛋白质中,每个折叠的多肽链称为亚 鐾,亚基可以相同也可以不同。由于寡聚蛋白质是由多个亚基组成的,而每个亚 基有其本身的折叠结构( 三级结构) ,研究寡聚蛋白质中的亚基的数目和亚基间的 相互关系( 即它们的空间位置) 就构成了蛋白质四级结构研究的主要内容。 对了_ 各级结构问的关系,传统理论( a f r i c a n 的理论) 认为蛋白质级结构决 定二、三、四结构,即初级结构决定次级结构。这一理论曾获得诺贝尔奖,但现 在正面临各种挑战。蛋白质结构之问的关系实质是蛋自质折叠的机理,这是一个 世界难题。在人类基因组测序完成之后,科学家开始着手从头设计( 完全按照人 的意志设计合成) 超自然的蛋白质,人们还需要探究蛋白质折叠的奥秘。 1 3 2 蛋白质结构预测简介 蛋白质结构预测,是指从蛋白质的氨基酸序列预测出其空间三维结构。传统 的生物学认为,蛋白质的氨基酸序列决定了其三维结构,进而决定了它的功能。 因此,进行蛋白质的结构预测,对于理解蛋白质结构与功能的关系,在此基础上 进行蛋白质复性、突变体设计以及基于蛋白质结构的药物设计等有重要的意义 1 , 2 ,9 ,1 0 。 蛋白质结构预测的有关研究是基于两方面的需要发展起来的。首先,分子生 物学的1 :p 心法则( 遗传信息从d n a 到r n a 再形成蛋白质的过程) 只是确定了 d n a 序列与氨基酸序列之剧的关系,通常被称作第一套遗传密码了:进f “需要确 定的是蛋白质的氨基酸序列与蛋白质的三维结构之问的关系,也被称为第_ 二套遗 传密码予,氨基酸序列与蛋白质三维结构之问的关系可以看作分子生物学中心法 则的延仲,对于理解生命的本质有重要的意义。其次,众所周知现有的生化方法 的蛋白质结构测定速度远跟不上序列增长的速度( 大约相差2 0 倍) ,而f 如前而 介纠的蛋白质三维结构信息对于研究蛋白质结构与功能的关系、分子药物设训等 东北欠学硕士学位论丈 第一章 i 言 都是必需的,因此蛋白质结构预测成为一利,迫切的需要。 蛋白质结构预测的主要包括以下内容: 1 序列比对在蛋白质数据库中攫索同源蛋白质序列; 2 二级结构预测从蛋白质的氨基酸序列出发标注出序列中每个氨基酸是 否出现在螺旋或折叠结构巾; 3 三级结构预测即三维结构的预测。在能够找到同源序列的实验测定结构 时,可以利用比较预测的方法;在找不到同源或类似结构时,对于小蛋白质可采 用二级结构堆积计算等方法; 4 蛋白质结构建模由于蛋白质分子的稳定状态是分子能量最低的状态,因 此,可利用能量优化等算法对预测所得的结果进行建模、优化; 5 蛋白质结构预测的检验将预测结构与实验结构或其他实验数据相对照: 以及在预测的各个环节根据研究者的经验进行人工参与。 蛋白质是基因的产物,在后基因组时代对于蛋白质结构预测提出了许多要求 与展望,归纳起来总要有如下几个方面: 1 对基因组数据进行归类分析的方法。对高同源性的蛋白质归类时,可以采 用序列比对的方法,并利用同源蛋白质结构预测的方法建立蛋白质结构模型;对 于低同源性蛋白质归类时,可采用类似的三维结构的蛋白质的归类: 2 如何根据实验测定或预测的蛋白质三维结构进行蛋白质功能的预测分析。 在后基因组时代,有大量功能未知的蛋白质亟待研究,如何根据这些蛋白质的结 构或仅从它们的氨基酸序列预测出它们的功能,成为迫切需要解决的问题; 3 如何从对单个蛋白质结构和功能的预测,过渡到蛋白质问的互相作用于调 控的分析,预测: 4 高准确率的同源蛋白质结构预测方法。虽然现有的同源结构的预测被认为 是成熟的,但准确性距结构与功能关系预测及分了药物设计的要求还相差很远。 主要问题之一就是非保守区的结构计算: 5 蛋白质结构从头预测的研究。这始终是一个有诱惑力并且有可能会有重大 突破的领域。这方面的研究将有助于人们理解蛋白质折叠的形成过程,以及影l j 日 1 2 东北大学硕士学位论文 第一章引言 蛋白质稳定性的因素等问题。 1 3 3 蛋白质二级结构预测 蛋白质的二级结构是蛋白质的晶体通过x 射线衍射后发现的。目前的实验证 实,在自然界的蛋白质二级结构有规则的:级结构和不规则_ 二级结构两大类。蛋 白质的规则:级结构主要有有。螺旋( qh e l i x ) 年1 口折叠( bp l e a t e ds h e e t ) 及日折 叠的转角即1 3 转角( dt u m ) 8 ,l o 。蛋白质二级结构的预测问题就是对于某一给定 蛋白质的氨基酸序列,通过预测分析器的分析预测,预测出每一个氨基酸是否出 现在。螺旋或b 折叠中,图1 2 给出了预测示意图。 图1 2 蚩白质二级结构预测过程示意图 f 1 9 u 。e1 , 2t h ep r o c e s s i n go fp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n 蛋白质二级结构预测是蛋白质结构预测的主要组成部分之,对于新测定的 未知结构的蛋白质序列可以迅速得到些有用的信息。同时,蛋白质二二级结构预 测不仅仅可以给出二级结构的信息,在实际中也有,、。泛的用途。如,由蛋白质二 级结构统计分析得到的规则可用于全新蛋白质的设计或蛋白质突变体的设计:当 同源性较低时,二级结构的指认有助于确定蛋白质结构与功能的关系:在基于二 级结构堆积的三级结构预测中,正确的二级结构预测是第一步;二级结构的预测 1 3 东北大学硕士学位论文第一章引言 也有助于多维核磁共振中二级结构的指认和品体结构的解析。 早在上个世纪7 0 年代,人们就发现不同的氨基酸对于不同的二级结构具有不 同的倾向性,由此发展出来许多二级结构预测方法。如基于经验统计的方法,基 于信息论的方法,基丁蛋白质结构的物理及化学原理的预测方法,基于机器学习 的方法等。总体上说,蛋白质二级结构预测的发展可以分为三个阶段。 第一阶段 在人类发现蛋白质的螺旋和折叠结构不久科学家试图找到在螺旋结构中的 脯氨酸,并且在2 0 世纪6 0 年代,人们丌始把这个想法拓展到寻找出现在所有结 构中的所有氨基酸,从此蛋白质二级结构预测这一研究领域诞生了。 第阶段的主要特点是将对单个氨基酸残基的统计分析用于预测。由于已知 的结构非常有限,导致只有很少的数据库可用于统计;其结果是预测有很大的偏 差,对某些状态的某些氨基酸残基有较好的预测,其他的效果却很糟糕 1 3 1 。虽 然最早的一些结果被认为有效,事实表明第阶段的预测诈确率被过高的估训了。 c h o u 。f a s m a n 方法 在第一阶段的方法中,较为有名的是c h o u 和f a s m a n 于1 9 7 8 年发表的 c h o u f a s m a n 方法 1 4 】,它曾经是最为普遍应用的方法。这种方法的出发点是对 于蛋白质2 0 种不同的氨基酸残基在不同二级结构中出现的概率进行统计( 从已知 结构的蛋白质数据库中得到有用的信息) ,得出残基在不同二级结构中出现的倾向 性。在对新的蛋白质序列预测时,利用这利j f 顷向性,加之周围残基的信息,在 定规则的指导下就可以完成了。 第二阶段 已知结构的蛋白质在数量上的增加,使蛋白质二级结构预测过渡到第二阶段。 在第二阶段中刘+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江地区中石化2025秋招面试半结构化模拟题及答案油气储运与管道岗
- 中国联通来宾市2025秋招供应链采购类专业追问清单及参考回答
- 小学语文必知的52组神话故事成语+歇后语释义
- 自贡市中石化2025秋招面试半结构化模拟题及答案安全环保与HSE岗
- 恩施自治州中石油2025秋招笔试模拟题含答案油气储运与管道岗
- 2025年内经选读考试试题及答案
- 阿拉善盟中石油2025秋招面试半结构化模拟题及答案炼油工艺技术岗
- 辽阳市中石化2025秋招笔试综合知识专练题库及答案
- 丽江市中石化2025秋招笔试模拟题含答案市场营销与国际贸易岗
- 国家能源资阳市2025秋招笔试思维策略题专练及答案
- 2025年合肥市社会化工会工作者招聘34人笔试备考题库及答案解析
- 2025年度陕西煤业化工集团有限责任公司高校毕业生(技能操作岗)招聘1868人笔试参考题库附带答案详解
- 河北省金太阳2025-2026学年高三上学期9月联考化学试卷(含答案)
- 物业管理安全生产责任制细则
- 2025四川金川集团股份有限公司技能操作人员社会招聘400人考试参考试题及答案解析
- 2025浙江嘉兴市海宁经济开发区、海昌街道网格员招聘1人考试参考题库及答案解析
- 动物防疫法解读
- (正式版)DB32∕T 5160-2025 《传媒行业数据分类分级指南》
- 2025年检查检验项目分级审核制度
- 辽沈战役精简课件
- 第1课 高效传输秘籍-漫谈TCPIP和包交换教学设计-2023-2024学年初中信息技术(信息科技)七年级上册(2024)清华大学版(2024)(青海)
评论
0/150
提交评论