(生物医学工程专业论文)蛋白质序列中rna结合位点的预测.pdf_第1页
(生物医学工程专业论文)蛋白质序列中rna结合位点的预测.pdf_第2页
(生物医学工程专业论文)蛋白质序列中rna结合位点的预测.pdf_第3页
(生物医学工程专业论文)蛋白质序列中rna结合位点的预测.pdf_第4页
(生物医学工程专业论文)蛋白质序列中rna结合位点的预测.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t h e s i st i t l e : g r a d u a t es t u d e n tn a m e : s u p e r v i s o rn a m e : s c h o o ln a m e : a b s t r a c t p r e d i c t i o no f r n a - b i n d i n gs i t e si np r o t e i n s t o n gj m g l u z u - h o n g s o u t h e a s tu n i v e r s i t y w i t ht h ea r r i v a lo f t h ep o s t - g e n o m ee r a , r e s e a r c h e r sb e g i nt od e v e l o pv a r i o u st o o l si na n a l y z i n g b i o l o g i c a ld a t ai no r d e rt ot u r ni ti n t ok n o w l e d g e i nt h i ss t u d y ,w ep r e s e n tan o v e lh y b r i dm e t h o db y u s i n gs u p p o r tv e c t o rm a c h i n e ( s v m ) i nc o n j u n c t i o nw i t hf e a t u r e ss e l e c t i o no f p r o t e i ns e q u e n c e sf o r p r e d i c t i o no f p r o t e i nr n a - b i n d i n gs i t e sa tt h er e s i d u el e v e l p r o t e i n - r n ai n t e r a c t i o n sp l a ys i g n i f i c a n tr o l e si nan u m b e ro fb i o l o g i c a la c t w i f i e s ,s u c ha s p r o t e i ns y n t h e s i s ,r e g u l a t i o no fg e n ee x p r e s s i o n i no r d e rt op r e d i c tt h er n a b i n d i n gs i t e sa n dn o n r n a b i n d i n gs i t e sb a s e do nt h ep r o t e i ns e q u e n c ei n f o r m a t i o n , w ec o n s t r u c tan o v e lr n a b i n d i n g s i t e sp r e d i c t i o nm o d e lr i s pb yc o m b i n i n gp o s i t i o ns p e c i f i cs e n d n gm a t r i c e s ( p s s m ) w i t hs u p p o r t v e c t o rm a c h i n e ( s v m ) t h er e s u l t ss h o wt h a t0 1 1 1 r i s pm o d e lh a s7 2 2 n e tp r e d i c t i o n ( 6 1 o s e n s i t i v i t ya n d8 3 3 s p e c i f i c i t y ) w h e nc o m p a r e dw i t hp r e v i o u st w os t u d i e sa tt h er e s i d u el e v e l , o u rn o v e lm o d e la p p e a r sm o r ea c c u r a t ea n db e t t e rg e n e r a l i z a t i o na b i l i t i e s o nt 1 1 eb a s i so fn o v e lc o n s t r u c t e d r n a b i n d i n gs i t e sp r e d i c t i o nm o d e l w e ec o m p u t e r n e t w o r kt e c h n o l o g yt o d e v e l o p aw e b - b a s e ds e r v e rr i s pa n di t i s f r e e l y a v a i l a b l ea t h t t p :g r c s e u e d u c n r i s n 一g i v e nap r o t e i ns e q u e n c e ,r i s pd e c i d e sw h e t h e rr e s i d u ei nt h ep r o t e i ni s r n a b i n d i n go rn o t ,a n dg i v e st h ec o n f i d e n c ev a l u e ,h i g h s p e c i f i c i t y p r e d i c t i o na n d h i g h s e n s i t i v i t y p r e d i c t i o n k e y w o r d s :p r o t e i nr n a b i n d i n gs i t e ,p o s i t i o ns p e c i f i cs c o r i n gm a t r i x ,s u p p o r tv e c t o rm a c h i n e , m a c h i n el e a r n i n g ,b i o i n f o r m a t i c s ,r i s p n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 研究生签名:二童鱼e t 期:兰竺。切 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、 子文档的内容和纸质论文的内容相一致。 缩印或其他复制手段保存论文。本人电 除在保密期内的保密论文外,允许论文 被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:生! 查导师签名:e t 期:少。户上b 第一章绪论 第一章绪论 人类在我们这个地球上已经存在了几十万年乃至几百万年。在人类的文明史中,人们从 未停止过对生命本质的思索和探求。尽管如此,人类真正从分子结构的角度来认识生命还是 从上个世纪六十年代以后才开始的。1 9 5 3 年w a t s o n 和c r i c k 提出了脱氧核糖核酸( d n a ) 的 双螺旋模型,阐明了它是遗传信息的携带者,从而开辟了现代分子生物学的新纪元。六十年 代初,随着“遗传密码”的破译,人们发现,尽管生命现象千姿百态,但生命体的本质却有着高 度的一致性。行使生命功能的蛋白质由2 0 种氨基酸以肽链形式连接而成,而编码蛋白质的 d n a 分子由4 种核苷酸以磷酸链形式构成。在d n a 转录和翻译成最终的蛋白质产物过程中, 蛋白质和r n a 的相互作用发挥了重要的作用。它们不仅在蛋白质合成、m r n a 前期加工和病 毒复制过程中起着关键作用,而且近来发现蛋白质和r n a 的相互作用在细胞防御和发育调控 过程中也发挥了重要功能。 蛋白质和r n a 的相互作用,作为后基因组时代的一个热门话题,受到了各国科学家高度 的重视。与此同时也提出了一个棘手的问题:在只给定一条蛋白质序列的情况下,如何判断 它的哪些位点是r n a 结合高发区,哪些是不容易发生r n a 结合的位点。这个问题用传统的 经典统计方法是很难得出满意的结果的。生物大分子之间的相互作用是在生物信息控制之下 的复杂且有序的过程,这就使得我们必须去利用信息学手段对这个问题进行研究。本文正是 使用了在近代得到了迅速发展的机器学习方法对这个问题的几个分支进行了研究。 i i 生物信息学1 枷i 2 0 世纪后期,生物科学技术迅猛发展,无论在数量上还是在质量上都极大地丰富了生物 科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以 利于储存、加工和进一步利用。而海量的牛物学数据中必然蕴含着重要的生物学规律,这些 规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据 的分析工作。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展并 日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科一生物 信息学悄然兴起。 生物信息学( b i o i n f o r m a t i c s ) 广义的概念是指研究生物体系和生物过程中信息的内涵和 信息的传递,狭义的概念是指生物分子信息的组织和分析,包括对生物分子信息的获取、存 储、分配、处理、分析和解释。 生物信息学以核酸、蛋白质等生物大分子为主要研究对象,以数学、物理、计算机、信 息科学为主要研究手段,以计算机网络为主要研究环境,以计算机软件为主要研究工具。它 的研究范畴包括: 1 对序列数据进行存储、管理、注释、加工; 东南大学硕士学位论文 2 对各种数据库进行查询、搜索、比较、分析; 3 构建各种类型的专用数据库信息系统; 4 研究开发面向生物学家的新一代计算机软件; 5 利用数理统计、模式识别、动态规划、密码解读、词法分析、神经网络、遗传算法 以及隐马氏模型等各种方法来研究生物遗传上的问题,并且不断发现新的、更有效 的算法: 6 对序列、结构数据进行定性和定量分析,从中获取基因编码、基因调控、序列一结 构一功能关系等信息; 7 阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时空关系; 8 探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”。 构成和维持一个生物有机体所必备的基本信息包含于它的基因组之中,由细胞内进行的 多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分翻译成蛋白质和 r n a ,其它部分调控这些大分子的表达。翻译出来的蛋白质及r n a 折叠成高度专一的三维结 构,在体内的特定位置上实现它的功能。这些过程的大量细节都是在分子生物学研究的实验 室里揭示出来的,所形成的大量数据,存储于数据库中。生物信息学试图从这些数据中提取 新的生物学信息和知识。生物信息学的核心内容是基因组信息学,包括基因组信息的获取、 处理、存储、分配和解释。基因组信息学的关键是通过对基因组的核苷酸顺序进行分析,也 就是要了解全部基因在染色体上的确切位置以及各d n a 片段的功能,以及在发现了新基因信 息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计,未来药 物研究的过程将是基于生物信息知识挖掘的过程。我们所得到的生物分子信息的特征是信息 数据量大,信息复杂程度高以及信息相互之间存在着密切联系。因此,如何利用生物信息学 更好地处理各种生物分子信息数据已经成为整个生命科学发展的重要组成部分,成为了生命 科学研究的前沿。图l 一1 是生物信息的具体处理流程。 魁冈。l :科 绂1 7 l 质 设讨 疾病诊断 疾病治,7 丌发沥约 图1 - 1 生物信息处理流程 2 第一章绪论 生物信息学研究是从理论上认识生物本质的必要途径。通过生物信息学研究和探索,可 以更为全面和深刻地认识生物科学中的本质问题,连接生物分子信息的组织和结构,破译基 因组信息,阐明生物信息之间的关系,使得人类对生物界的认识跨上一个新台阶。 1 2 蛋白质一r n a 相互作用的生物信息学分析中面临的问题 蛋白质和r n a 的相互作用不仅在蛋白质合成、m r n a 前期加工和病毒复制过程中起着关 键作用,而且近来发现它们在细胞防御和发育调控过程中也发挥重要功能0 1 , 1 2 】。对蛋白质和 r n a 相互作用的研究,主要集中在对其相互结合后结构上的分析u 。通过对已知的蛋白质 r n a 复合物相互作用的分子接触面的生物化学性质计算分析以及与d n a 双链和蛋白质d n a 复合物的比较,已经发现在蛋白质和r n a 相互作用中,范德华力比氢键作用更加普遍,而且 蛋白质和r n a 的相互作用有鸟嘌呤和尿嘧啶的偏向性。除此之外,含正电荷的氨基酸残基、 精氨酸、含单个芳香基氨基酸残基、苯基丙氯酸以及酪氨酸都在蛋白质和r n a 相互作用中起 着重要作用。虽然这些生物化学性质已经越来越多的运用到蛋白质r n a 相互作用的生物信息 学分析中来,但是相对于d n a 结合蛋白位点预测0 4 , t 5 1 中所利用的多样化的信息,如保守性区 域的进化信息和二级结构的相关信息等,目前r n a 结合位点预测1 1 6 j 7 1 中所利用的信息还存在 着一定的局限性。其中大多数预测的信息都是来自于蛋白质序列的氨基酸组成、氨基酸残基 的分子质量和侧链的p k 。值等一些生化信息。虽然目前蛋白质r n a 相互作用的预测水平已经 由判断蛋白质序列是否是r n a 结合蛋白提高到更准确的在蛋白质序列中预测r n a 结合位点, 但是在r n a 结合蛋白位点预测方法的准确性等方面还有待提高,特别是在敏感性和特异性两 方面都得到较高的预测水平这一点上目前还是比较难实现的。 因此,现在蛋白质r n a 相互作用的生物信息学分析中的主要问题还是在于能否提供一种 更好的预测方法,能够更准确地分析出任意一条蛋白质序列每个氨基酸残基位点的r n a 结合 情况,并在此基础上提供分析软件或者在线预测系统,以方便生物学家的使用。 1 3 关于本课题 1 3 1 论文的主要创新点 本论文的主要创新点主要是以下两个方面 我们建立了一个基于支持向量机的分类模型,用于预测蛋白质序列中的r n a 结合位 点。考虑到氨基酸位点受邻近其他氨基酸位点的影响,我们使用了被预测位点及其 邻近的6 个氨基酸残基位点的信息。我们使用的位置特异性打分矩阵和支持向量机 相结合的方法比其他预测方法更为准确,特别是净预测值( 敏感性和特异性的平均 值) 方面。 东南大学硕士学位论文 ( 2 )在此基础上,我们又开发了基于此分类模型的在线预测系统:r i s p ( 丛卫;丝鉴:錾女:翅女:鲤缝墅) 。用户提交任意一条蛋白质序列,在线系统将反馈给用 户预测到的蛋白质序列中的每个氨基酸残基位点r n a 结合情况( 以+ ,或者t 来表 示) 以及预测结果的可信度。除了提供最佳预测结果,还可以满足用户在敏感性和 特异性方面不同的要求,同时提供给用户高敏感性预测结果和高特异性预测结果。 1 3 2 论文的组织结构 本文后面的部分组织如下:第二章介绍机器学习以及支持向量机相关的理论和算法;第 三章介绍我们建立的蛋白质序列中r n a 结合位点的预测模型,其对应于创新点( 1 ) ;第四 章介绍我们在此基础上开发的r n a 结合位点的在线预测系统r i s p ,其对应于创新点( 2 ) ; 第五章总结全文并指出未来的研究计划。 4 第二章支持向量机基础 第二章支持向量机基础 随着人类基因组计划及其他模式生物基因组测序计划的实施,以及分子生物学和生物工 程技术的飞速发展,生物学数据正以前所未有的速度呈爆炸式增长。因此,探索和解释隐藏 在分子生物学数据库中的有用信息是对生物信息学的巨大挑战。为了解决分子生物学遇到的 这些难题,寻找到一种有效及便利的方法是非常必要的。机器学习是一种自动的、具有智能 学习技术的方法,有助于我们利用已有的先验知识来挖掘新的信息。机器学习的基本目标是 使计算机具有学习能力,模拟或实现人类的学习活动,其主要工作是发展学习的计算理论, 建造学习系统。计算机系统改善自身性能的任何过程都成为学习,如获取知识、积累经验、 发现规律、适应环境等。而支持向量机正是近年来发展迅速的机器学习的新方法。支持向量 机结构简单“并且具有全局最优性和较好的泛化能力”,自2 0 世纪9 0 年代中期提出以来得到了 广泛的研究,支持向量机方法是求解模式识别和函数估计问题的有效工具1 1 。本章主要介绍 本课题的主要研究方法支持向量机。我们首先从机器学习的理论出发,给出机器学习的 基本概念,并简要地介绍一些关于传统统计理论的机器学习算法;然后着重描述了基于统计 学习理论的支持向量机方法的基本思想以及相关算法;最后简要地介绍了支持向量机方法在 生物信息学中的应用。 2 1 机器学习0 9 - 3 7 i 2 1 1 基本概念 机器学习的核心是学习。然而关于学习,至今仍没有一个明确的、能被公认的定义。这 是因为进行这一研究的人们分别来自不同的学科,更重要的是学习是一种多侧面,综合性的 心理活动,它与记忆、思维、知觉、感觉等多种心理行为都有着密切的联系,使得人们难以 把握学习的机理与实现。美国心理学家h a s i m o n 曾给出学习的定义:学习是系统的变化, 这种变化可使系统做同样的工作时更有效。机器学习的目的是从数据中自动地获得相应的理 论,通过采用如推理、模型拟合等方法从样本中学习,尤其适用于缺乏一般性的理论、“噪声” 模式及大规模数据集。学习的基本模型就是基于这一观点建立起来的。机器学习就是要使计 算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。 机器学习研究的就是如何使机器通过识别和利用现有知识来获取新知识的新技能。 2 1 2 机器学习的学习系统 为了使计算机系统具有某种程度的学习能力,能通过学习增长知识,改善性能,提高智 能水平,需要为其建立相应的学习系统。根据h a s i m o n 对学习的阐述,我们可以得出,一 5 东南大学硕士学位论文 个学习系统应该满足的一些基本要求。 1 具有合适的学习环境。所谓学习环境就是指学习系统进行学习时的信息来源。 2 具有一定的学习能力。学习环境为学习系统提供了相应的信息和基础,学习系统还 必须具备一定的学习能力和适当的学习方法,否则也学不到知识或不会有好的学习 效果。 3 能够运用所学到的知识来求解问题。学习系统的意义就在于可以学以致用。学习系 统应该能够将所学到的信息用于未来的估计、分类、决策和控制,以便改进系统的 性能。 4 通过学习提高自身的性能。改进系统性能是学习的三个要点之一,一个学习系统应 该能够通过学习增长知识、提高技能和改进性能,使自己能够做一些原来无法作到 的事,或者可以将原先能做到的事做得更好。 通过以上分析,可以得出一个学习系统至少应该包括四个重要环节:环境、学习单元、 知识库和执行单元,它们之间的关系如图2 一l 所示。 图2 1 机器学习的基本模型 图2 1 中给出学习系统的基本模型,它由四个部分组成,其中环境是向系统提供信息,它 可以是系统的工作对象,也可以是工作对象或客体所处的外界条件。环境所提供信息的水平 和质量是适应新学习系统设计的一个非常重要的因素。所谓信息水平是指学习的普遍化程度, 环境所提供的信息无论水平高低,它们与执行单元所需要的信息往往都是有差距的,学习单 元就是要缩小这种差距。信息的质量是指信息的正确性以及组织上的合理性。知识库里存放 的是指导执行单元动作的一般规则,但环境向学习系统提供的信息是多样的。信息质量高, 与一般规则的差别小,则学习单元比较容易处理,如果信息质量低,例如向学习系统提供的 示例有干扰、或示例的次序不合理,则学习单元则很难进行归纳。 知识库是影响学习系统设计的第二个重要的因素。知识库的形式与知识的表示直接相关, 常用的表示方法有特征向量、谓词逻辑、产生式规则、语义网络和框架等。在选择表示方式 时要兼顾以下四个方面:首先,表达能力要强,也就是说,所选择的表达方式能很容易地表 达有关的知识:其次,易于推理,为了使学习系统的计算代价比较低,希望知识表达方式能 使推理较为容易;再次,知识库要易于修改。学习系统的本质要求它不断地修改自己的知识 库,当推广得到一般执行规则后,要加入知识库中;最后,知识的表示方法也要易于扩展。 一个学习系统不能在全然没有任何知识的情况下凭空获取知识,它总是在具有一定知识的基 础上,根据环境所提供的信息,理解、分析和比较,做出假设,检验并修改这些假设。因此, 学习系统实质是对现有知识的扩展和改进。 执行单元是整个学习系统的核心。学习单元的目的是改善执行单元的动作,执行单元的反 馈作用又反过来影响学习单元。与执行单元相关的问题有任务的复杂性、反馈和透明性。复 6 第二章支持向量机基础 杂的任务需要更多的知识。所有学习系统都必须要有从执行单元到学习单元的反馈信息,即 以某种方式评价学习单元提出的假设。这种反馈信息是根据执行单元的执行情况对学习单元 所提出的假设进行评价。学习单元根据这些反馈信息决定是否还需要从环境中进一步获取信 息,以修改、完善知识库中的知识。透明性是指系统执行单元的动作效果是否可以很容易地 对知识厍的规则进行评价。显然,执行单元的透明性越高越好。 2 1 3 机器学习的主要策略 机器学习的发展极为迅速,应用日益广泛,有很多优秀的学习算法,学习过程和推理过 程是紧密相连的,按照学习中使用推理的多少,机器学习策略大体可分为以下几大类:机械 学习、指导学习、演绎学习、归纳学习、类比学习及解释学习。机器学习中所使用的推理越 多,系统的学习能力越强。 随着人工智能研究的进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习, 因而引入了一些模拟进化的方法来解决复杂优化的问题,其中富有代表性的是遗传算法。遗 传算法的生物基础是人类生理的进化和发展,这种方法被称为进化主义;另一方面,神经网 络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,此方法被称为连 接主义。这两种方法与传统方法大相径庭,因而近年来许多科学家致力于这两种方法的研究。 另外统计学习理论的迅速发展,导致了支持向量机学习算法的出现,由于其出色的学习 性能尤其是其泛化性能,从而引起了人们对这一领域的极大关注。该技术己成为机器学习界 的研究热点,并在很多领域都得到了成功的应用。 2 1 3 1 机械学习 机械学( r o t el e a r n i n g ) 是一种最基本的学习策略。这种学习策略就是记忆,不需要任何 推理过程,也就是死记硬背式的学习。它把环境提供的知识存储起来,外界输入知识的表示 方式与系统内部表示方式完全一致,不需做任何处理扣转换,以后所做的工作只是检索,不 需要任何计算和推理。机械学习的过程是这样的:当机械学习系统的执行单元解决好一个问 题后,系统就会记住这个问题和它的解。当以后再遇到这类问题时,系统就不必重新进行计 算,只要直接找出原来的解去使用。如果我们将学习系统的执行单元抽象成一个函数f 将由 环境得到的输入模式记为( x i ,x 2 ,x 0 ,由该输入模式经f 计算后得到输出模式记为( y 1 , y 2 ,y n ) 。机械学习就是要将这一输入输出模式对( x l ,x 2 ,) ( n ) ,( y t ,y 2 , y n ) 】存储到知识库中。机械学习简单的工作模型如图2 - 2 所示。 1 5 2 2 简单的机械学习模型 机械学习是基于记忆和检索的方法,学习方法很简单,但学习系统需要几种能力:能 实现有组织的存储信息;能进行信息结合;能控制检索方向。对于机械式学习,需要注 7 东南大学硕士学位论文 意三个重要的问题:存储组织信息、环境的稳定性与存储信息的适用性以及存储与计算之间的 权衡。机械学习的学习程序不具有推理能力,只是将所有的信息存入计算机来增加新知识, 其实质上是用存储空间换取处理时间,虽然节省了计算时间,却过多占用了存储空问。当因 学习而积累的知识逐渐增多时,占用的空间就会越来越大,检索的效率也将随之下降。所以, 在机械学习中要全面权衡时间与空间的关系。 2 1 3 2 指导学习 指导学n ( l e a r n i n gb yb e i n gt o l d ) 方式下,由外部环境向系统提供一般性的指示或建议, 系统把它们具体地转换为细节知识并送入知识库。在学习过程中要反复对形成的知识进行评 价,使其不断完善。 对于使用指导学习策略的系统而言,外界输入知识的表达方式与内部表达方式并不完全 一致,系统在接收外部知识时需要一点推理、翻译和转换工作。m y c i n 、d e n d r a l 等专家系统 在获取知识上都采用这种学习策略。一般地说,指导学习系统需要通过如下步骤实现其功能: 请求征询指导者的指示或建议;解释消化吸收指导者的建议并把它转换成内部表示; 实用化把指导者的指示或建议转换成能够使用的形式;并入并入到知识库中;评价 评价执行部分动作的结果,并将结果反馈到第一步。 指导学习是一种比较实用的学习方法,可用于专家知识获取。它既可避免由系统自己进 行分析,归纳从而产生新知识所带来的困难,又无需领域专家了解系统内部知识表示和组织 的细节,因此目前应用得较多。 2 1 3 3 演绎学习 演绎学习( d e d u c t i v el e a r n i n g ) 是指以演绎推理为基础的学习。演绎推理是从已知的一般 性知识出发,推出蕴含在这些已知知识中的适合于某些个别情况的结论。它是一种由一股到 个别的推理方法,其核心是三段论,常用的三段论是由一个大前提、一个小前提和一个结论 三部分组成的。其中,大前提是已知的一般性知识或推理过程得到的判断;小前提是关于某 种具体情况或具体实例的判断;结论是由大前提推出的,并且适合于小前提的判断。在演绎 学习中,学习系统由给定的知识进行演绎的保真推理,并存储有用的结论。 2 1 3 4 归纳学习 归纳学习( i n d u c t i v el e a r n i n g ) 是指以归纳推理为基础的学习,它表示从例子设想出假设 的过程。归纳推理是应用归纳方法所进行的推理,即从足够多的事例中归纳出一般性的知识, 它是一种从个别到一般,从部分到整体的一类推论行为。由于在进行归纳时,多数情况下不 可能考虑全部有关的事例因而归纳出的结论不能绝对保证它的正确性,只能以某种程度相信 它为真,这是归纳推理的一个霞要特性。在进行归纳学习时,学习者从所提供的事实或观察 到的假设进行归纳推理,获得某个概念。归纳学习也可按其有无教师指导分为示例学习以及 观察与发现学习。 8 第二章支持向量机基础 ( 1 ) 示例学习( l e a r n i n g f r o m e x a m p l e s ) 示例学习( 图2 3 ) 又称概念获取或从例子中学习,它是通过从环境中取得若干与某概念有 关的例子,经归纳得出一般性概念的一种学习方法。在这种学习方法中,外部环境( 教师) 提供的是一组例子( 正例和反例) ,这些例子实际上是一组特殊的知识,每一个例子表达了 仅适用于该例子的知识,示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性 知识,它将覆盖所有的正例并排除所有的反例。 图2 - 3 示例学习的模型 其学习过程是:从示例空间( 环境) 中选择合适的训练示例;经解释归纳出一般性 的知识;再从示例空间中选择更多的示例对它进行验证,宣到得到可实用的知识为止。 在示侧学习系统中,有两个重要概念:示例空间和规则空间。示铡空间就是我们向系统 提供的训练例集合。规则空间是例子空间所潜在的某种事物规律的集合,学习系统应该从大 量的训练例中自行总结出这些规律。可以把示例学习看成是选择训练例去指导规则空间的搜 索过程,直到搜索出能够准确反映事物本质的规则为止。 = s g n 乏:z ”( t x ) + 6 + ( 2 1 3 ) l = l 其中,b 是分类阈值,可以用任一个支持向量( 满f f :( 2 9 ) 式中的等号) 求得,或通过两类中 任意一对支持向量取中值求得,面式中的求和实际上只对支持向量进行。通过此式,可以看 出,对于给定的未知样本x ,只需计算s g n ( w - x ) + 6 ,即可判定x 所属的分类。 对于线性不可分的样本,希望使误分类的点数最小,为此在式( 2 9 ) 中引入松弛变量盆= 0 ,即: 只w 薯) + 6 卜l + 参0 ,f = l ,卉( 2 1 4 ) 在式( 2 1 4 ) 中,对于给定的常数c ,求出使( w ,f ) :昙0 叫1 2 + c 【n 点】最小,即折衷考虑最 二t=l 少错分样本和最大分类间隔,就得到广义最优分类面。这一优化问题同样需要变换为用拉格 朗日乘子表示的对偶问题,变换的过程与前面线性可分样本的对偶问题类似,结果也几乎完全 相同,只是约束条件略有变化,条件( 2 1 l b ) 变为 0 q c ,f = 1 ,报 ( 2 i s ) 其中,c 0 是一个常数,它控制对错分样本惩罚的程度,反映了在复杂性和不可分样本所占比 例之间的折中。 2 2 2 2 支持向量机 支持向量机能够根据有限的样本信息在模型的复杂性( e p 对特定训练样本的学习精度, a c c u r a c y ) 和学习能力( 1 i p 无错误地识别任意样本的能力1 之间寻求最佳折衷,以期获得最好的推 广能力( g e n e r a l i z a t i o na b i l i t y ) 。 当我们处理n 维空间中的线性函数时,分析问题所得到的一些特点使得原本比较棘手的 高维问题的解决成为可能。我们知道,虽然n 维空间中的线性函数的v c 维为n + l ,但根据 式( 2 1 0 ) 的结论,在 1 w 8 a 的限制条件下v c 维可能大大减小,也就是说,即使在比较高 维数的空间中也可以得到较小v c 维的函数集,这一点可以保证有较好的推广性。与此同时, 1 7 东南大学硕士学位论文 我们还可以发现,通过把原问题转化为对偶问题,计算的复杂度不再取决于空间维数,而是 取决于样本数,尤其是样本中的支持向量数。这些特点使有效地对付高维问题成为可能。 对非线性问题的处理和以上所述的线性问题的处理方法不同。我们首先需要通过非线性 变换,把非线性问题转化为某个高维空间中的线性闯题,然后再在变换空间中求解闷题。这种 变换可能比较复杂,因此这种思路在一般情况下不易实现。但是同时我们又可以发现,在上面 的对偶问题中,不论是寻优函数( 2 1 2 ) 还是分类函数( 2 1 3 ) 都只是涉及到训练样本之间的内积运 算( 而x ,) 。也就是说,在高维空间问题的处理上,我们实际上只需进行内积运算,而这种内 积运算是可以用原空间中的函数实现的因此我们甚至可以不去深究有关变换的形式的问题。 根据理论,只要一种核函数足( 而x j ) 满足m e r c e r 条件,它就对应莱一变换空间中的内积【3 9 】。 所以,用内积函数世( t 工) 代替最优分类面中的点积,就相当于把原特征空间变换到了某一 新的特征空间,而与此同时,实际上所进行的计算复杂度并没有增加,这时优化函数f 2 1 2 ) 7 变换为 ) = 嘶一妄q 吁以乃k ( 一只) ( 2 1 6 ) t f f i l 厶i j 。i 与之对应的判别函数也变为 n ( 膏) = s g n q 咒k ( x ) + 矿 ( 2 1 7 ) f ,l 算法的其他条件均不变,这就是支持向量机。 支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间, 然后在这个新空问中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现 的。s v m 分类函数在形式上相当于一个神经网络,在这个网络中,中间节点的线性组合即为 输出,而其中每个中间节点对应一个支持向量,如图2 7 所示。 支持向量机方法的主要优点有以下三点: 1 ) 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数 趋于无穷大时的最优值; 2 ) 算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解决 了在神经网络方法中无法避免的局部极值问题; 3 ) 算法将实际问题通过非线性变换转换到高维的特征空间( f e a t u r es p a c e ) ,在高维空间中构 造线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推广能 力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。 在s v m 方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶斯分类器、径 向基函数( r a d i a lb a s i cf u n c t i o n , r b f ) 方法、多层感知器网络等许多现有学习算法。 1 8 第二章支持向量机基础 z 1 2 2 2 3 核函数 到 图2 7 支持向量机示意图 s v m 中不同的内积核函数将形成不同的算法,在实际使用中,以下几类核函数经常被用 1 ) 线性内积核函数 x q ,x 0 = x x i 线型核函数可视为以下的多项式内积核函数的特例; 2 ) 多项式内积核函数 k ( x ,t ) = 【( x 五) + 1 r ( 2 1 8 ) f 2 1 9 ) 根据式( 2 1 9 ) 所得到的是q 阶多项式分类器; 3 ) 径向基函数( r b f ) ,= 唧卜呼 根据式( 2 2 0 ) 所得到的r b f 函数与传统r b f 方法的重要区别是,每个基函数中心对应一个 支持向量,它们及输出权值都是由算法自动确定。 4 ) - - 层神经网络内积核函数 k ( x ,蕾) = t a n h k ( x x , ) + c 】( 2 2 1 ) 1 9 东南大学硕士学位论文 2 3 支持向量机软件 我们主要使用由j o a c h i m s l 45 】等人开发的支持向量机软件包s v m 蝴6 0 1 ( h t t p :s v m l i g h t j o a e h i m s o r g o 对数据进行训练学习以及分类预测。该软件包包括两个软件工 具:s v m _ l e a r n ,用于对训练样本进行学习、训练分类器;s v m _ e l a s s i f y ,用于对测试样本进行 分类。其工作流程如图2 8 所示。 图2 8 支持向量机工作流程图 2 4 支持向量机在生物信息学中的应用 从上个世纪末开始,支持向量机开始广泛用于生物信息学各领域。在对剪切位点识别m , 蛋白质远同源性检测”,蛋白质分类【“,蛋白质结构预测h 9 噜方面,支持向量机都得到了充 分的应用,并且得到了很好的结果。 使用支持向量机方法的主要步骤如下:首先,从生物学的角度出发,提出问题;然后是 提取信息特征,对目标数据如核酸序列,蛋白质序列等提取统计特征。在此之前,还需要对 原始数据进行一些预处理,如去除冗余序列等等;最后,使用支持向量机方法对数据进行学 习,然后再将学习得到的规则应用于未知功能数据的分类预测上。 在本课题中,我们希望能够应用支持向量机的方法,提取蛋白质序列的生物学特征,对 蛋白质序列中的r n a 结合位点进行分析研究,找到比较好的r n a 结合蛋白位点的预测模型, 并实现其对外在线服务功能。 第j 章蛋白质序列中r n a 结合位点预测模型的建立 第三章蛋白质序列中r n a 结合位点预 3 1 研究背景 测模型的建立 3 1 1 蛋白质、r n a 及其相互作用的分子生物学基础i 鲫l 蛋白质( p r o t e i n ) 是生命的物质基础,没有蛋白质就没有生命。因此,它是与生命及与各 种形式的生命活动紧密联系在一起的物质。组成蛋白质的基本单位是氨基酸,氨基酸通过脱 水缩合形成肽链。蛋自质是由一条或多条多肽链组成的生物大分子,每一条多肽链有二十至 数百个氨基酸残基不等,各种氨基酸残基按一定的顺序排列。而r n a ( 即核糖核酸) 是存在于 生物细胞以及部分病毒、类病毒中的遗传信息载体,由核糖核苷酸经磷酯键缩合而成长链状 分子。r n a 丰要分为t r n a 、r r n a 和m r n a 等。m r n a 是合成蛋白质的模板,内容按照细 胞核中的d n a 所转录it r n a 是m r n a 上碱基序列( 即遗传密码子) 的识别者和氨基酸的转 运者;r r n a 是组成核耱体的组分,是蛋白质合成的工作场所。这些r n a 在细胞内发挥着重 要的功能,例如r n a 有催化活性卧硎且能够形成核糖体 5 4 - 5 6 1 ( 图3 - i ) 和剪接体【5 7 , 5 5 1 的一部 分。但是,这些重要功能的实现都依赖于蛋白质和r n a 的相互作用。 图3 1 转录、翻译、蛋白质合成以及核糖体的作用 2 1 东南大学硕士学位论文 蛋白质和r n a 相互作用在许多方面起着重要的作用,如蛋白质的合成、m r n a 的合成和 转录过程中( 图3 1 和3 - 2 ) 、m r n a 的加工,病毒的复制过程中 5 9 , 6 0 1 等。除此之外,近来还 发现蛋白质和r n a 的相瓦作用还在细胞防御和发育调控过程中起着莺要的作用【1 l ”】。理解蛋 白质如何特异性识别和区分r n a 分子将会有利于我们进一步了解细胞内各种生物分子相互作 用功能的实现。而且,识别r n a 结合位点将会给需要结合蛋白质的r n a 药物的设计直接提 供有用信息1 6 1 “j 。 图3 2m r n a 合成及转录过程 近年来,越来越多的蛋白质r n a 相互作用的结构被人们所知道,这使得我们有机会在结 构上进一步地刻画出相互作用的生物大分子的一些特征。d r a p e r 等人l 1 结合之前的一些研究 成果将蛋白质r n a 相互作用的结构根据r n a 识别模式的不同分为两大类:沟槽结合和b 折 叠结合。这一基于识别模式的分类现今已经得到广泛的使用。而j o n e s 等人l l 那更在此基础上对 蛋白质r n a 在氨基酸残基和原子粒子水平上的相互作用做了进一步的分析。通过对已知的蛋 白质一r n a 复合物相瓦作用的分子接触面的生物化学性质计算分析以及与d n a 双链和蛋白质 d n a 复合物的比较,己经发现在蛋白质和r n a 相互作用中,范德华力比氢键作用更加普遍, 而且蛋白质和r n a 的相互作用有鸟嘌岭和尿嘧啶的偏向性。除此之外,含正电荷的氨基酸残 基、精氨酸、含单个芳香基氨基酸残基、苯基丙氨酸以及酪氨酸都在蛋白质和r n a 相互作用 中起着重要作用。 第三章蛋白质序列中r n a 结合位点预测模型的建立 3 1 2 研究现状和问题的提出 由于蛋白质- r n a 相互作用在生物调节中的重要作用,以及目前通过生物化学分析蛋白质 一r n a 复合物和体外实验方法实现对r n a 结合位点还存在不少困难,使得我们更加迫切地需 要得到一些基于蛋白质序列的识别r n a 结合位点的计算分析方法。 而与此同时,已有很多研究人员对蛋白) 贡- r n a 相互作用的计算分析方法进行了一系列的 研究,特别是在蛋白质序列水平上对r n a 结合蛋白的识别预测( 也就是判断一条蛋白质序列 是不是r n a 结合蛋白) 吸引了很多研究人员的目光【6 5 - 6 7 1 。利用支持向量机、贝叶斯、神经网 络等方法,研究人员现在已经可以实现对r n a d n a 结合蛋白的区分识别。并且可以识别不 同种类的r n a 结合蛋白,如r r n a 结合蛋白、m r n a 结合蛋白、t r n a 结合蛋白和s n r n a 结 合蛋白,准确率几乎都已达到9 5 以上。 随着p d b 数据库眦j 中越来越多的根据x 线衍射分析得到的蛋白质一r n a 复合物结构信息, 以及逐渐丰富的基于蛋白质一r n a 相互作用结构分析的生物化学性质,这些都给我们提供了更 多的资源去提出一个更有效的预测r n a 结合蛋白极其结合位点的方法。 相对于之前研究人员对r n a 结合蛋白预测方法的大量研究,在氨基酸残基水平上( 也就 是判断每一个氨基酸是不是r n a 结合位点) 对r n a 结合的准确预测则更为重要。获得有关 r n a 结合位点的信息对于理解蛋白质r n a 相互结合的机制是十分有益的,而且还可以进一 步了解一系列与蛋白质一r n a 相互作用有关的生物活动。此外,识别r n a 结合位点还将会给 需要结合蛋白质的r n a 药物的设计直接提供有用信息1 6 l ”j 。 t e r r i b i l i n i 等人u ”提出了一种预测蛋白质序列中r n a 结合位点的方法r n a b i n d r ,这 种方法主要使用了氨基酸序列组成作为特征建立了一个贝叶斯分类模型实现了对r n a 结合位 点的预测。w a n g 和b r o w n l l 6 也提供了一种在氨基酸残基水平上对r n a 结合位点的预测方法 b i n d n ,他们主要使用了一些氨基酸的生化性质作为特征,如侧链p k 。值,疏水性指数和 氨基酸分子质量,建立了一个支持向量机分类模型。虽然这两个预测器能够提供较高特异性 或者较高敏感性的r n a 结合位点的预测,但是目前实现对于r n a 结合位点较高净预测值( 敏 感性和特异性的平均值,被认为是一项较好的衡量预测效果的量度标准) 的预测还是一项相 当具有挑战性的工作。 本章中,我们使用了一种新的杂和的r i s p ( r n a i n t e r a c t i o ns i t ep r e d i c t i o n ) 方法,即位 置特异性打分矩阵和支持向最机相结合的方法来预测蛋白质序列中的r n a 结合位点。在此基 础上建立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论