




已阅读5页,还剩54页未读, 继续免费阅读
(信号与信息处理专业论文)蛋白质二级结构类预测中的信息提取与预测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
杭州电子科技大学硕士学位论文 摘要 测序技术的进步使得蛋白质序列数据与日俱增 然而人们对蛋白质高级结构和功能的认 识还不够 远远落后于对蛋白质序列的认识 同时 传统的生物实验方法己难以满足海量数 据的处理需求 因此发展理论与计算的方法来研究蛋白质结构和功能具有深远的意义 这也 成为计算分子生物学中最基本 最重要的课题之一 对于一条蛋白质而言 利用海量的序列信息预测出其空间三级结构是结构预测方法的最 终目的 然而在很多情况下 这个目标很难实现 由于蛋白质空间结构是由一些二级结构元 件组成的 人们希望先预测出蛋白质二级结构类型 了解蛋白质内部的局部结构信息 再进 一步预测其三级结构 因此 蛋白质二级结构类型预测工作是蛋白质三级结构预测的基础 具有着重要研究意义 同时 它作为蛋白质组学研究的一个分支 受到越来越多研究者们的 关注 目前 蛋白质二级结构类预测的研究主要集中在三个方面 提取蛋白质序列的特征信息 挑选多重信息中有代表性的特征以及发展合适的预测算法 近年来 国内外文献报道了很多 有效的方法 但从序列信息获取角度来看 现有方法所获取的信息较单一 各个层面的信息 没有得到很好的融合 因此如何系统地融合不同的信息来预测蛋白质结构类是一个迫切需要 解决的问题 此外对于融合后的信息 可能存在冗余信息 还应考虑如何挑选有效的特征信 息 剔除冗余的信息 针对以上问题 本研究基于信息处理方法 提取氨基酸出现频率信息 位置分布信息及二级结构的序列信息 并对多源信息进行有效地融合 挑选 通过设计合理 的预测方案 提高了蛋白质信息获取与结构类预测的效率 具体方法上 1 基于字统计模型及氨基酸的物化性质 获取蛋白质一级序列 缩氨基酸 序列及二级结构序列片段的位置信息 进而研究其位置分布函数 计算其数值特征 将各片 段的位置特征与频率特征相融合 构建出高效的蛋白质结构类预测模型 为有效提高分类率 奠定基础 2 在特征信息选择上 采用基于相对重要性的随机森林对多重特征信息进行挑选 尽可能减少信息的冗余 随机森林是一种通过建立多棵决策树来对数据进行分类判别的方法 其主要采用自助法重采样技术 按照特征的相对贡献这一指标来挑选关键特征 3 通过采用 支持向量机 肛近邻算法 b p 神经网络算法以及多分类器组合来进一步改善分类效果 并验 证该研究所提算法的有效性 实验结果表明 1 与传统经典方法相比 利用本研究提出的特征信息提取方法可涵盖序 列统计特征 氨基酸物理化学特征 氨基酸片段位置分布三方面的信息 此方法可以较为全 面地反映出蛋白质序列中有代表性的特征信息 2 通过采用有效的特征挑选算法以及分类算 法 既有效减少了信息的冗余 又提高了结构类预测模型的准确率 杭州电子科技大学硕士学位论文 综上 本研究从信息学角度出发 系统地解决蛋白质信息提取 多特征信息组合及结构 类预测等信息处理问题 有助于蛋白质的结构及功能研究 同时也对蛋白质序列分析 机器 学习领域的发展有很大的帮助 关键词 蛋白质二级结构类 特征提取 随机森林 特征挑选 机器学习 多分类器组合 h 杭州电子科技大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fh u m a ng e n o m es e q u e n c i n gt e c h n o l o g y ag r e a tg a pe m e r g e sb e t w e e n s h a r p l yi n c r e a s i n gk n o w np r o t e i ns e q u e n c e sa n ds l o wa c c u m u l a t i o no fs e n i o rp r o t e i ns t r u c t u r e sa n d f u n c t i o n s b e c a u s et h e r ea r el e s sp r o t e i ns t r u c t u r e so b t a i n e dt h r o u g ht h ee x p e r i m e n t i ti s m e a n i n g f u lt of i n dar e l i a b l ea n de f f e c t i v ec o m p u t a t i o n a la p p r o a c ht op r e d i c tp r o t e i ns t r u c t u r e sa n d f u n c t i o n s w h i c hi so n eo ft h em o s tf u n d a m e n t a la n di m p o r t a n tt a s ki nc o m p u t a t i o n a lm o l e c u l a r b i o l o g y h o w e v e r i ti sd i f f i c u l tt op r e d i c tt h et h r e e d i m e n s i o n a ls t r u c t u r e so fp r o t e i n sb a s e do na m i n o a c i ds e q u e n c e so fp r o t e i n sp r i m a r ys t r u c t u r e s s u c han e e dc a l l sf o r i n t e r r e s e a r c h b e t w e e n p r o t e i ns e q u e n c e sa n ds t r u c t u r e s i nb i o i n f o r m a t i c s r e s e a r c h e r sd i s c o v e r e dt h a tp r o t e i ns t r u c t u r a l c l a s si sv e r yi m p o r t a n tf o rp r o t e i ns t r u c t u r ep r e d i c t i o n s i n c et h et h r e e d i m e n s i o n a ls t r u c t u r e so f p r o t e i n sa r ef o r m e db ys o m es e c o n d a r ys t r u c t u r a le l e m e n t s t h u s t h ep r e d i c t e dp r o t e i ns e c o n d a r y s t r u c t u r a lc l a s si sc o n s i d e r e dt h e i n t e r r e s e a r c h w h i c hi sh e l p f u la n ds i g n i f i c a n tt of u r t h e r u n d e r s t a n dt h et h r e e d i m e n s i o n a ls t r u c t u r e sa n di t sf u n c t i o n a sab r a n c ho fp r o t e o m i c sr e s e a r c h p r o t e i ns t r u c t u r a lc l a s sp r e d i c t i o nb e c o m e s ah o t s p o tw h i c ha t t r a c t sm o r ea n dm o r ea t t e n t i o n sf r o m r e s e a r c h e r sr e c e n t l y p r o t e i ns t r u c t u r a lc l a s sp r e d i c t i o no r e nf o c u s e so nt h r e ea s p e c t s f e a t u r e se x t r a c t i o n f e a t u r e s s e l e c t i o nf r o mf e a t u r es e t sa n dc l a s s i f i c a t i o na l g o r i t h mu s e df o rp r e d i c t i o n v a r i o u ss i g n i f i c a n t e f f o r t sh a v e b e e nm a d ei nt h i sd o m a i n b u tf r o mt h ep e r s p e c t i v eo fi n f o r m a t i o na c q u i r i n g m o s to f t h ei n f o r m a t i o ng o tb ye x i s t e dm e t h o d si ss i n g l e a l lo ft h ei n f o r m a t i o ne x t r a c t i o nf r o md i f f e r e n t l e v e l ss h o u l db ec o m b i n e dt op r e d i c tp r o t e i ns t r u c t u r a lc l a s s m e a n w h i l e s o m ei n f o r m a t i o ni n c o m b i n e df e a t u r e si sr e d u n d a n tw h i c hs h o u l db ec o n s i d e r e dt or e m o v e a c c o r d i n gt ot h i sm o t i v a t i o n w ee x t r a c t i o ns o m ef e a t u r e sb a s e do nt h ei n f o r m a t i o np r o c e s s i n gm e t h o d i n c l u d i n gt h ec o m p o s i t i o n a n dp o s i t i o ni n f o r m a t i o no fa m i n oa c i ds e q u e n c ea n dt h ef e a t u r e so fp r e d i c t e ds e c o n d a r ys t r u c t u r a l s e q u e n c e t h e na l lt h ef e a t u r e se x t r a c t e df r o md i f f e r e n ts e q u e n c ea r ec o m b i n e di n t oaf e a t u r es e t a n daf e wf e a t u r e sa r es e l e c t e da st h ei n p u to fc l a s s i f i e r f i n a l l yt h ep r o t e i ns t r u c t u r a lc l a s s e sc a nb e p r e d i c t e db ye f f e c t i v ea n de f f i c i e n tc l a s s i f i c a t i o na l g o r i t h m g i v e na l la m i n oa c i ds e q u e n c e w ef i r s tt r a n s f o r mi ti n t oar e d u c e da m i n oa c i ds e q u e n c e t h e n w ec a l c u l a t et h ew o r df r e q u e n c i e sa n dw o r dp o s i t i o nf e a t u r e so fp r o t e i np r i m a r ys e q u e n c e r e d u c e d s e q u e n c ea n dp r e d i c t e ds e c o n d a r ys t r u c t u r a ls e q u e n c e af e a t u r es e ti sb u i l ta f t e rc o m b i n i n ga l l t h e s ei n f o r m a t i o n b a s e do nt h i sf e a t u r es e t w er e m o v et h er e d u n d a n ti n f o r m a t i o nb yr a n d o m 1 1 1 杭州电子科技大学硕士学位论文 f o r e s tm e t h o d u s i n gs u p p o r tv e c t o rm a c h i n e n e u r a ln e t w o r k k n e a r e s tn e i g h b o ra n dm u l t i p l e c l a s s i f i e r sc o m b i n a t i o n w ep r e d i c tt h ep r o t e i ns t r u c t u r a lc l a s sa n dv e r i f yt h ev a l i d i t yo fo u r m e t h o d sw h i c h p r o p o s e di nt h i sr e s e a r c h t h er e m i t sd e m o n s t r a t et h a t 1 c o m p a r i n gw i t he x i s t i n gm e t h o d s t h ep r o p o s e dn o v e lm e t h o d i se f f i c i e n t w h i c hh i g h l i g h tt h en e c e s s i t yf o rp r e d i c t i o nm e t h o dt oe x t r a c tm o r eu s e f u li n f o r m a t i o n t h i su n d e r s t a n d i n gc a nb eu s e dt og u i d ed e v e l o p m e n to fm o r e p o w e r f u lm e a s u r e sf o rp r e d i c t i o no f p r o t e i ns t r u c t u r a lc l a s s e s 2 w i t ht h ee f f e c t i v ef e a t u r es e l e c t i o nm e t h o d m o r er e d u n d a n tf e a t u r e s a r er e m o v e d w h i c he n h a n c e dt h ec l a s s i f i c a t i o na c c u r a c i e s s e e k i n gf r o mt h eb i o i n f o r m a t i c sp e r s p e c t i v e t h i ss t u d yu s ei n f o r m a t i o ne x t r a c t i o n i n f o r m a t i o n c o m b i n a t i o nt op r e d i c tp r o t e i ns t r u c t u r a lc l a s s w h i c hi sh e l p f u lt ot h er e s e a r c ho fp r o t e i ns t r u c t u r e a n df u n c t i o n t h ed o m a i n o f m a c h i n el e a r n i n ga n dt h ea r e ao f p r o t e i ns e q u e n c ea n a l y s i s k e y w o r d s p r o t e i ns e c o n d a r ys t r u c t u r a lc l a s s f e a t u r ee x t r a c t i o n r a n d o mf o r e s t f e a t u r es e l e c t i o n m a c h i n el e a r n i n g m u l t i p l ec l a s s i f i e r sc o m b i n a t i o n i v 杭州电子科技大学硕士学位论文 1 绪论 1 1 蛋白质结构类预测的研究背景与研究意义 1 1 1 研究背景 2 0 世纪9 0 年代以来 伴随着人类基因组计划的顺利实施和分子结构测定技术的突破 生 命科学研究得到了极大的发展 各类与生物信息学相关的研究如雨后春笋般发展起来 l 2 同时 海量具有丰富内涵并携带重要信息的生物分子数据涌现出来 如何通过处理 分析这 些生物分子数据 从中挖掘出有用的生物信息 加深对生命起源及进化的认识 探索人类生 命的奥秘 这对于生物信息学工作者来说是一个严峻的挑战 目前 生物信息学研究的重点是功能基因组学 其主要包括结构基因组研究和蛋白质组 研究等 勿庸置疑 蛋白质是生理功能的执行者 是生命现象的直接体现者 因此可以说蛋 白质组研究的开展不仅是后基因组时代生物信息学研究的核心内容之一 也成为了生命科学 研究进入后基因组时代的标志 蛋白质的功能是多种多样的 但其功能取决于蛋白质的三维空间结构 而蛋白质空间结 构又取决于氨基酸序列 这是目前基本共认的假设 所以我们可以认为氨基酸序列中蕴含着 和蛋白质三维空间结构相关的信息 人类所熟知的第一部遗传密码是指遗传信息由基因的 d n a 核酸序列传递到蛋白质的氨基酸序列这一过程 由于还存在着蛋白质序列与其空间结构 这一对应关系 因此该对应关系被人们看作成为了第二部遗传密码 图1 1 是对生物分子数 据及其关系的概括 第一部遗传密码 第二部遗传密码 獬d n a 列削氨黧列蚓撇结构吲蝴功能 核酸序歹l i r 川氨基酸序列r 卅5 8 r 卅 5 艘 阳 謦 0 二 翁 生命体系 渤 维持生命活动 鬟基孝的生物尊穆锈 予窭蔷 菇亿 k 4 1 赢雾 图1 1 生物分子数据及其关系概括 正是由于蛋白质在结构及功能上的复杂性 人们很难用简单的方法刻画出其整体特征来 实现对所有蛋白质的分类 虽然多年来解决该类问题的主要途径是利用生物实验的方法 但 实验方法存在价格昂贵和耗时的缺点 为了能够解决这一问题 新的思路是通过现有对蛋白 质结构和功能的了解及认识 利用理论计算方法得出之相关的辅助信息 并由这些信息模拟 和预测出蛋白质类别 基于这一思想 蛋白质分类问题作为蛋白质组学研究的一个热点 近 杭州电子科技大学硕士学位论文 年来受到越来越多的关注 这一研究不仅在分子生物学 医学和药理学等生命科学研究中发 挥着非常重要的作用 而且是全面掌握蛋白质序列与空间结构及功能之间关系的前提和基础 蛋白质预测研究的相关内容主要分为以下两类 即三维结构预测与非三维结构预测 前者主 要以统计学 人工智能 分子力学 分子动力学等方法为主 3 5 而后者以机器学习预测方 法为指导 主要包括了蛋白质结构的预测 亚细胞定位预测 6 二级结构类别的预测以及跨 膜螺旋预测 7 等方面的内容 本文主要研究的是蛋白质二级结构类预测 属于后者 结构域是在二级结构或超二级结构的基础上形成三级结构的局部折叠区 这些结构不一 定连续 却能结合成紧密的球形结构 8 其通常被认为是蛋白质中特异结构和独立功能的基 本单位 9 结构域有着一定的生物功能 但其结构体组织方式是一定的 这些组合常出现在 不同功能和序列的蛋白质中 从而使得蛋白质的结构域可以呈现出各种特定的类型 以此为 基础 在结构域的水平上 l e v i t t 及c h o t h i a 根据3 1 种已知结构的球蛋白质 将蛋白质分成 以下五种类型 1 0 全0 型结构 全p 型结构 p 型结构 叶p 型结构和无规则亏型 这其 中全0 型结构 全b 型结构 o p 型结构 时b 型结构是最重要也是最常见的四种类型 我们 的预测也是围绕这四种类型展开的 自蛋白质结构类概念提出后 科学家们就发现了蛋白质氨基酸组成与蛋白质结构类之间 的关系 并根据氨基酸序列预测蛋白质结构类 近年来 国内外文献报道了大量有效的模型 如p a r k 和k a n e h i s a 基于统计氨基酸成分和相邻氨基酸条件概率 运用支持向量机建立蛋白质 结构类顶测模型 1 1 在该方法中 虽然氨基酸组分和相邻氨基酸条件概率能够准确反映蛋白 质的成分信息 却忽略了氨酸酸之间的顺序 为此 z h a n g 和d i n g c h o u 和c a i y a n g 等人 分别采用伪氨基酸成分 功能区域成分 具有不同特点肽的成分等信息预测蛋白质结构类 1 2 1 4 最近 预测的蛋白质二级结构信息也被用来进行蛋白质结构类的预测 进而产生了 s c p r e d 和m o d a s 等一系列预测模型 1 5 1 8 结果都较为理想 此处 各种预测算法也相 继被引入 包括支持向量机 1 9 粗糙集 2 0 和l o g i t b o o s t 2 1 等 c h o u 综述和评价了各类预 测算法 2 2 如上所述 蛋白质结构类预测的关键点主要有三个部分 一是从多个层面来提取蛋白质 序列所包含的信息并对其进行有效融合 二是对于融合后的信息 可能存在冗余的信息 应 考虑如何挑选有效的特征信息 减少信息的重复性 提高信息的代表性 三是尽量选择高效 高精度的预测算法 只要有效解决了这三个关键问题 人们对蛋白质结构类预测这一课题的 本质的了解也将日益深入 从而逐渐了解各种疾病的发生机制 认识各种生命现象的变化 进而可以对疾病从根源上进行准确预测以及及时控制 尽可能地避免生命灾难的发生 造福 于人类社会 1 1 2 研究意义 人类基因组计划的顺利实施和分子结构测定技术的突破带来了蛋白质数据库存中海量的 序列信息 使得人们对蛋白质序列信息的认知远远高于对蛋白质高级结构和功能的认知 对 2 杭州电子科技大学硕士学位论文 于浩瀚的蛋白质序列数据与结构及功能认知之间的差距 我们亟需探索理论计算方法来对蛋 白质序列 结构及功能之间的关系进行研究 这一研究是后基因时代蛋白质研究方向的核心 内容 对生命信息科学的研究有着深远的意义 典型的蛋白质是由几百个氨基酸 上千个原子构成的 而大的蛋白质中包含的氨基酸个 数甚至超过4 5 0 0 这使得蛋白质从序列到结构这一过程中所有可能的对应关系将随着氨基酸 个数的增多而呈现出指数增长的趋势 由此可见 在海量预测数据的处理效率 预测的可解 释性以及提高预测精度等方面还迫切需要研究新的方法 对于一条结构和功能都未知的蛋白质 我们如果能够根据其序列信息准确地预测出该蛋 白质的结构类别 这不仅对二级结构分类准确率的提高有着推动作用 而且还可将蛋白质三 级结构预测识别中的构象搜索范围进行进一步的缩减 除此以外 蛋白质的结构类型还与其 一些特定的功能相关 例如丝氨酸属水解酶具有p 型结构 乳酸脱氢酶 醛缩酶具有 b 型 结构 而溶菌酶和核酸酶等具有时p 型结构 8 因此先预测出蛋白质二级结构类可以为进一 步预测三级结构提供良好的基础 对于蛋白质的结构和功能的认识也有着相当重要的价值 具有着深远的研究意义 图1 2 显示了蛋白质二级结构类预测的应用 图1 2 蛋白质二级结构类预测的应用 1 2 常用的蛋白质数据库及数据集 1 2 1 蛋白质数据库 蛋白质内在的生物信息千差万别 如此多的表现形式 究其本质 蛋白质的功能主要是 由它的结构所决定的 依据其结构层次 将蛋白质数据库分为 1 蛋白质序列数据库 如 s w i s s p r o t t r e m b l 这些数据库主要是以蛋白质序列条目为主 并给每个条目都赋予较 为详细的相应注释 2 蛋白质结构数据库 如p d b 等 这些数据库主要以蛋白质的结构测 量数据为主 3 蛋白质分类数据库 如s c o p c a t h 等 这些数据库种类有差别 但内部 是相互联系的 每个数据库都有指针指向其他数据库 而且数据库之间的序列以及相应的结 构是共享的 同一种蛋白质依次会出现在不同的数据库 这样的数据沟通有助于更深层地挖 掘蛋白质的内在生物信息 这些数据库是融序列信息的索取 处理 存储 输出于一身的 2 3 随着网络资源的日益丰富 不论蛋白质数据库中的数据形式如何 这些数据都具备了3 种功能 第一 注释功能 第二 检索功能 第三 生物信息分析功能 在数据库中 所有 3 杭州电子科技大学硕士学位论文 数据都是经过注释才可能发布的 然后 访问者通过搜索找到相应的蛋白质 通过数据库中 的生物信息工具分析预测序列中的未知数据 从本质上说 蛋白质结构类预测研究是对数据 进行挖掘的过程 挖掘的数据对象则主要来源于蛋白质数据库 目前在全世界与蛋白质相关 的数据库有很多 下面介绍几个常见的数据库 1 2 1 1s w i s s p r o t 数据库 s w i s s p r o t 由瑞士日内瓦大学于1 9 8 6 年创建 这一蛋白质序列数据库是经过注释的 f 2 4 2 5 现由瑞士生物信息学研究所 s w i s si n s t i t u t eo f b i o i n f o r m a t i c s s b 和欧洲生物信息 学研究所 e b i 共同维护和管理 目前己合并入u n i p r o t 数据库 s i b 和e b i 的研究队伍致 力于序列数据的收集 整理 分析 注释 发布 以期提供高质量且非冗余的序列数据注释 信息 s w i s s p o r t 数据库中每个蛋白质条目都有对应较为详尽的注释 包括功能位点 结 构域 二硫键位置 跨膜区域 翻译后修饰 突变体等 该数据库中还建立了与核酸序列数 据库 蛋白质结构数据库等3 0 多个数据库的交叉引用代码 数据库网址为 h t t p w w w e b i a c u k j s w i s s p r o t 1 2 1 2t r e m b l 数据库 蛋白质序列数据库t r e m b l 创建于1 9 9 6 年 2 5 该数据库是s w i s s p o r t 数据库的一个 由计算机自动注释的增补版 能很好的反映现有蛋白质序列的整体情况 该数据库分两部分 s p t r e m b l 和r e m t r e m b l s w i s s p o r t 数据库将最终把s p t r e m b l 中的条目归并进来 而其他剩余序列则属于r e m t r e m b l 其中包括有t 细胞受体 免疫球蛋白 合成序列 专 利序列等 由于t r e m b l 是由核酸序列通过计算机程序翻译生成的 其有着较高序列错误率 和序列冗余度 数据库网址为 h t t p w w w e b i a c u k s w i s s p r o t 1 2 1 3p d b p r o t e i nd a t ab a n k p d b 2 0 世纪7 0 年代 蛋白质结构数据库就已经问世 最初p d b 数据库是由美国b r o o k h a v e n 国家实验室负责维护和管理 2 6 后来为了适应及满足生物结构研究的需要 改由结构生物 学合作研究协会 r c s b 管理 p d b 这一数据库是现在最主要的蛋白质分子结构的数据库 同时随着x 射线和核磁共振技术的不断提高和改进 蛋白质三维结构测定的精度和速度也逐 步增高 且该数据库是以p d b 文本文件的方式存储数据的 每一个独立文件对应一个分子 其结构由以下几条信息组成 1 序列信息 2 原子坐标 3 分子结晶条件 4 通过 多种方法计算的三维结构近似值 5 衍生的几何数据 6 结构因数 7 三维结构立体 图像 8 与其他数据资源的链接等 对于蛋白质结构相关的研究来说 p d b 是目前最重要 的一个数据库 本研究的内容也主要基于这一数据库 其网址为 h t t p w w w r c s b o r g p d b 1 2 1 4s c o p s t r u c t u r a lc l a s s i f i c a t i o no fp r o t e i nd a t a b a s e s c o p 现有的结构和序列自动分析工具并不能确定蛋白质所有的结构及进化上的关系 蛋白质 结构分类数据库s c o p 2 7 2 8 对蛋白质的分类是通过蛋白质的可视化检测和结构比较来进行 的 并由一些辅助工具使分类工作可行性更高 更具有普遍性 但是由于数据库中所有条目 并不是按同源性进行分类的 从而使分类这份工作更具有挑战性 蛋白质分类即要反映结构 4 杭州电子科技大学硕士学位论文 与进化之间关系 这种关系在分类的很多水平上都能体现 主要是在家族 超家族 折叠子 三个水平上 蛋白质结构分类数据库是由英国分子生物学实验室和剑桥蛋白质工程中心建立 的 提供了详细全面的关于蛋白质结构和进化关系 其中常见的结构层次有家族 超家族 折叠子 簇等 s c o p 是本研究主要用到的数据库之一 其网址是 h t t p s c o p m r c l m b c a m a c u k s c o p 1 2 1 5c a t h 数据库 另外一个著名的蛋白质结构分类数据库就是c a t h 它是由英国伦敦大学u c l 负责开发 并维护的 2 9 c a t h 数据库依靠计算机程序和人工检查的共同作用而构建 其主要基于蛋白 质结构域按簇 c l a s s 构架 a r c h i t e c t u r e 拓扑结构 t o p o l o g y 和同源性 h o m o l o g y 四个水平 来分类 数据库网址为 h t t p w w w c a t h d b i n f o 1 2 2 数据集 蛋白质分子是生物体执行功能的重要分子 许多生物功能最终都要依赖于蛋白质 而非 基因来直接完成的 所以蛋白质分子中所蕴涵的生物信息种类繁多 信息复杂 只有充分研 究这些信息 才可能从这些信息中提炼出每种功能所具有的共性及相同信息中所包含的功能 将这些信息标准化 建立模型 同时研究出信息在不同生物或者不同状态下的特殊性 能更 充分地认识这些生物信息 建立更具有代表性的模型 因此数据的获取是预测未知信息这一 研究工作的第一步 为了对不同分类预测模型进行公正客观的比较分析 我们在建模时有必要选择合适的样 本数据集 在构建与选择样本数据集时 要考虑以下三个因素 3 0 1 非冗余性 分类模型对于序列相似度较高的蛋白质样本数据集进行预测时 准确率 会偏高 而对于序列相似度较低的数据集进行预测时 分类准确率可能较差 因此 使用高 同源性的序列来构建样本数据集 会使分类模型的泛化能力变差 影响最终分类效果 2 平衡性 样本数据集中各类蛋白质样本数目的分布应尽量均衡 避免因蛋白质样本 比例不均导致各类预测精度不理想的情况 3 易比较性 为了与已有文献中的结果进行客观公正的比较 在建立蛋白质样本数据 集时 还应考虑到要尽可能选取公共的标准数据集 特别是被研究者们广泛使用的数据集 本研究采用的数据集都是基于研究者们在已有成果中构建和广泛采用的标准数据集 用 以保证结果在比较衡量时的科学性及公正公平性 数据集主要包括了两部分 一部分是小样 本数据 其中的z 2 7 7 包含2 7 7 条蛋白质序列 和z 4 9 8 包含4 9 8 条蛋白质序列 是由z h o u 构建的 3 l c 2 0 4 包含2 0 4 条蛋白质序列 序列相似性为3 0 是由c h o u 构建的 3 2 1 另 一部分为大样本数据 由于包含了大量蛋白质 1 6 7 3 条蛋白质序列 及低序列相似性 平均 为3 0 数据集2 5 p d b 被认为是蛋白质二级结构类预测的标准数据集 数据集d 6 4 0 含 6 4 0 条蛋白质序列 序列相似性为2 5 1 1 8 9 含1 0 9 2 条蛋白质序列 序列相似性为4 0 和f c 6 9 9 含8 5 8 条蛋白质序列 序列相似性为4 0 也同样被采用 3 3 3 4 详细数据集的 5 杭州电子科技大学硕士学位论文 名称和具体构成参见表1 1 表1 1 蛋白质二级结构类预测中的数据集构成 1 3 论文的主要工作与安排 1 3 1 本文研究的主要内容 对于一条蛋白质 最终目的是要通过有效的理论计算方法预测出其空间三维结构 但由 于蛋白质结构较为复杂 这个目标一般来说很难实现 于是 人们希望通过对蛋白质内部某 些局部结构的认知来得出对空间结构预测有用的信息 研究表明某些二级结构元件也是蛋白 质空间结构组成的一部分 由此我们可以通过预测蛋白质二级结构类别来得到更多与三级结 构卡h 关的辅助信息 并为三级结构的精确预测提供有力基础 本论文的主要研究内容围绕蛋白质二级结构类预测问题 主要从以下三个方面展开 一 是设计有效的蛋白质信息提取方法 系统地获取蛋白质一级序列 缩氨基酸序列及二级结构 序列中各含量的频率和位置分布等信息 为有效提高分类率奠定基础 二是设计一个融合多 重信息 自动挑选有效信息的方法 尽可能地减少冗余的信息 三是基于多特征信息 设计 合理的预测方案 发展合适的机器学习算法 本研究的具体内容如下 1 蛋白质序列特征信息的提取 为了能更好地进行蛋白质二级结构类预测 本研究提出了一套有代表性 能较全面反映 蛋白质序列特性的特征信息 这些信息包括基于字统计模型 基于氨基酸位置片段分布以及 基于氨基酸的保守性质从不同序列中所获取的各特征 将各类特征进行不同的组合 可得出 不同的特征信息集 从而构建出高效的蛋白质结构类预测模型 为有效提高分类率奠定基础 2 蛋白质序列特征信息的选择 在信息选择上 采用随机森林来挑选特征信息 随机森林是一种利用多个决策树对数据 进行判别的方法 主要采用了自助法重采样技术 考虑决策树的分裂过程对样本的作用 通 过多次m o n t ec a r l o 选择 按照特征的相对重要性指标来挑选关键特征 3 基于机器学习的蛋白质二级结构类预测 本研究在分类过程中用到的机器学习方法有 支持向量机 最近邻算法 b p 神经网络算 6 杭州电子科技大学硕士学位论文 法以及多分类器组合 其中 支持向量机是本研究中主要使用的方法 用该方法可以横向比 较本研究与其他文献结构类的预测结果 通过与最近邻算法 b p 神经网络算法以及多分类器 组合结果进行比较 可发现支持向量机在分类时的有效性 1 3 2 本文组织结构 论文共分五章 各章的内容安排如下 第一章 绪论 首先介绍了蛋白质结构类预测的研究背景 阐述了课题的研究目的和意 义 接下来简单介绍了目前常见的蛋白质数据库以及数据集特性对分类模型的影响 最后介 绍了本研究的主要内容 以及本文的组织结构 第二章 蛋白质序列特征信息的提取 在详细地总结了当前在蛋白质结构分类研究方面 常见的蛋白质序列特征提取算法后 着重介绍了本研究提出及采用的三种序列信息提取方法 分别基于字统计模型 基于氨基酸片段位置分布 基于氨基酸保守属性的特征信息提取 同 时将传统特征提取方法与本研究中的特征提取方法进行了综合比较 以探求不同特征提取方 法的本质特征以及目前特征提取算法中存在的问题 分析表明 特征提取算法的改进能有效 克服信息的单一性 第三章 蛋白质序列特征信息的挑选 本章首先介绍了特征信息挑选常见的相关算法以 及蛋白质多重信息融合模型的构建 之后论述了以基于相对重要性的随机森林思想为基础的 特征挑选方法以及相关的参数设定 并详细分析讨论了实验结果 包括特征信息选择结果以 及分类率的比较 结果表明 经过对多重信息进行挑选后 有效降低了信息的冗余度 预测 模型的效率也有了显著提高 第四章 基于机器学习的蛋白质二级结构类预测算法 本章先对几种常见的机器学习算 法进行介绍后 分别对各分类器单独作用以及多分类器组合后作用进行实验 并对单分类器 作用结果和多分类器组合作用结果进行了比较和分析 期间采用多个标准数据集对分类模型 进行测试 并与已有的分类模型进行比对分析 结果表明分类算法的改进能有效改善分类模 型的性能 第五章 总结与展望 综述本论文的主要研究成果 指出现有工作的局限性和有待改进 和提高的方面 并阐述未来需要进一步深入研究的工作 7 杭州电子科技大学硕士学位论文 2 蛋白质序列特征信息的提取 2 1 引言 在蛋白质组学中 蛋白质序列本身决定了序列的结构 序列结构进而决定了其功能 这 是一条被广泛接受的规律 因此 从序列出发来预测蛋白质二级结构类型 关键在于找到合 适的方法 从蛋白质序列中提取能够代表序列信息的特征参数 实现将氨基酸字母序列转换 为在数学方法可以处理的数值序列 蛋白质二级结构类型预测研究中最重要最基本的的步骤就是蛋白质序列特征信息的提 取 这也是最具挑战性的难点问题 影响到最终预测质量 目前已有很多学者提出了各种不 同的序列特征提取方法以改进蛋白质二级结构类预测 这些方法主要可以分为三类 基于氨 基酸组成和位置的方法 基于氨基酸物理化学特性的方法 基于蛋白质二级结构信息的特征 提取方法 这些改进方法都有效改善了蛋白质二级结构类预测的性能 为了克服所提取信息的单一化和片面化 使得序列中氨基酸的信息能够尽可能地准确表 达 本章提出了三种不同的特征提取方法 基于字统计模型的方法 基于氨基酸片段位置分 布的方法 基于氨基酸保守属性的方法 此外 还将传统特征提取方法与本研究提出的特征 提取方法进行了综合比较 以探求不同特征提取方法的本质特征以及目前特征提取算法中存 在的问题 这将有助于加深对蛋白质序列与其结构及功能之间关系的理解 2 2 蛋白质相关理论基础 细胞中的含量最为丰富的就是蛋白质 其在人体中含量己达到人体干重的4 5 蛋白质 结构及功能比较复杂 且其种类众多 人体中的蛋白质种类约有1 0 万种以上 包括抗原 抗 体 酶 转运蛋白 细胞骨架和结构蛋白等 人体基因主要通过蛋白质来实现其基本功能 且蛋白质几乎参与了全部的生命活动 是各种生命活动的物质基础 因此 生命奥秘的探索 可通过深刻地阐明蛋白质结构和功能这一基本任务来实现 2 2 1 蛋白质的组成 蛋白质是由许多氨基酸聚合而成的链状生物大分子 氨基酸与氨基酸之间通过缩水而形 成肽键 进而形成多肽链 氨基酸是蛋白质的基本组成单位 所有氨基酸都可由一个通式来 表示 该通式由一个中心碳原子 与碳原子相连的一个氢原子 一个氨基 一个羧基和一个 侧链组成 自然界中的天然蛋白质水解得到的氨基酸有3 0 多种 但常见且基本的氨基酸只有2 0 种 其集合形式记为 f a c d e f g h i k l m n p q r s t v w y 具体见表2 1 中所示 8 杭州电子科技大学硕士学位论文 表2 1 常见的2 0 种氨基酸 2 2 2 蛋白质物理化学性质 2 0 种氨基酸之所以可以形成不同的序列 不同的结构及完成特定的生理功能 究其原因 是由于各种氨基酸侧链特性在负电性 疏水性等方面存在着差异 根据氨基酸的物理化学特 性 可以将其分为不同的类型 1 根据亲疏水性质进行分类 氨基酸的疏水性也称为极性 它与氨基酸的侧链有关 利用其在与水作用时是否溶于水 的表现可测定其疏水性 因为疏水性氨基酸的侧链具有远离水而接近同样具有疏水性的残基 故使得蛋白质内部最终在水溶液环境下呈现疏水的状态 同理 接近水的则为亲水性氨基酸 呈现疏水性的氨基酸包括a f i l m p v 和w 呈现亲水性的氨基酸包括c g n q s t 和y 2 根据氨基酸所带电荷的特性进行分类 氨基酸同时带有氨基和羧基 当羧基在水溶液中失去氢离子时 该氨基酸带负电荷 当 氨基得到氢离子时 该氨基酸带有正电荷 由此 我们可以把2 0 种氨基酸分为以下两类 带正电荷的氨基酸包括h k 和r 带负电荷的氨基酸包括d 和e 除了以上两种作用力外 氨基酸还存在如范德华力及二硫键等一系列可使蛋白质结构维 持稳定的作用力 2 2 3 蛋白质的结构层次和结构分类 2 2 3 1 蛋白质的结构层次 早在1 9 3 0 年左右 人们就开始了对蛋白质空间结构的研究 但直到丹麦生物化学家 l i n d e r s t r o n l a n g 在1 9 5 2 年第一次提出蛋白质一级结构 二级结构和三级结构的概念后 3 5 9 杭州电子科技大学硕士学位论文 才促使相关的研究有了更深层次的进展 随着近年来越来越多的蛋白质结构被测定 一些延 伸层次的概念如超二级结构 四级结构和结构域等也相继被提了出来 图2 1 为蛋白质四个 层次的结构示意图 图2 1 蛋白质结构层次图 1 蛋白质的一级结构 p r i m a r ys t r u c t u r e 蛋白质的一级结构是线性序列 指的是以肽键连接的多肽中氨基酸的排列顺序 该结构 是决定空间结构的基础 故又称基本结构 可以说 这是一个不涉及空间排列概念的结构 将蛋白质一级结构即氨基酸线性序列在空间进行折叠后就可构成三维的空间结构 这种具有 某种特定形式的空间结构通常被称为蛋白质的高级结构 其包括蛋白质二级结构 三级结构 以及四级结构 2 蛋白质的二级结构 s e c o n d a r ys t r u c t u r e 蛋白质的二级结构是指蛋白质分子中某一段肽链的局部区段的规则折叠 是蛋白质复杂 空间构象的基础 故也可称为构象单元 二级结构以一级结构为基础 其最常见的折叠类型 包括铲螺旋 a h e l i x p 折叠片 p s h e e t 部分有规则的b 转角和无规卷曲等 3 赍白质的三级结构 t e r t i a r ys t r u c t u r e 蛋白质的三级结构是指整条肽链中相距甚远以及彼此邻近的全部氨基酸的特殊空间排 布 也就是整条肽链所有原子在三维空间的排布位置 又称三维结构 空间结构 若一个蛋
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年环保产业项目投资合作协议范本模板
- 2025版专业挖掘机械租赁及操作培训协议
- 2025版健康养生饮品贴牌代加工合同
- 2025年度纯人工劳务分包工程分包服务合同
- 2025年度房地产并购购买委托代理合同
- 2025版威海市劳动合同社会保险缴纳范本
- 2025版速记服务合同-聚法通专业法律事务保密协议
- 2025电信用电远程抄表与数据采集服务合同
- 2025年代理招聘与校园招聘活动策划服务合同
- 2025年度新型防火门窗工程承包合同样本:安全认证
- 2023分布式光伏电站安装作业指导书
- 《七大营养素》课件
- 国际道路旅客运输经营许可申请表
- (2023版)电信智家工程师认证必备考试题库大全(含解析)-下(判断题汇总)
- 超高层带伸臂结构巨型环桁架施工技术总结附图
- 2乳的验收与预处理解析
- 三峡大学级本科电气工程及其自动化二本培养方案
- 架桥机安装与拆除安全技术交底
- GB/T 19839-2005工业燃油燃气燃烧器通用技术条件
- 伤口造口新进展课件
- (完整版)人工智能介绍课件
评论
0/150
提交评论