（分析化学专业论文）蛋白质组学质谱数据预处理新策略研究及应用.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：59 大小：9.62MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（分析化学专业论文）蛋白质组学质谱数据预处理新策略研究及应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要蛋白质是一切生命活动的执行体在各种生化反应控制遗传新陈代谢抵抗疾病等方面起着举足轻重的作用蛋白质组学研究已成为最重要的生命科学领域之一它旨在阐明细胞或者组织内所有表达的蛋白生物质谱技术在研究蛋白表达方面发挥着关键作用由于质谱实验过程中的大量的物理化学噪声同位素离子峰离子碎裂模式可能出现的不规则碎片离子峰和离子缺失数据库检索鉴定算法的缺陷等使得能有效利用的质谱数据只占整个谱峰数据的很少一部分因此必须采取合适的数据的预处理方法和搜索策略及搜索鉴定结果的优化策略以提高肽序列鉴定得分从而提高蛋白鉴定的覆盖率和准确度本文对质谱技术所产生的大规模实验数据和理论数据分别进行了预处理首先从理论上分别探讨了半小数规则色谱保留时间质谱峰强度衍生离子簇信号碎片离子的完整性以及多肽母离子质量等因素对蛋白质检索鉴定产生的影响并提出了利用半小数规则和结合色谱保留时间信息的滤波策略适当调整质谱峰强度完整碎片信息等策略对理论质谱数据及局部实验数据进行了预处理从微观层面验证策略的可行性由于理论模型是依据理想状况而建立而实验数据中掺杂了许多不可预测的影响因素本文又运用这些策略对大规模实验数据进行了预处理即从宏观角度上对以上策略进行了探讨针对实验数据的差异性我们又对这些策略加以组合和优化通过讨论分析策略中的参数设置和策略的组合方式得到最优的方案比较结果发现策略组合和优化的方案不仅能提高体系中真实蛋白的鉴定得分而且从一定程度上鉴别了伪存蛋白对简单二蛋白体系的相对鉴定准确率由3 3 3 3 提高到1 0 0 对于复杂度极大的1 8 蛋白体系的相对鉴定准确率由3 1 2 5 提高到了5 8 8 2 关键词蛋白质组学二级质谱半小数规则保留时间母离子扣除策略组合优化 b s 兀l c t a b s t r a c t a st h ep e r f o r m e ro fa l ll i f ef u n c t i o n s p r o t e i np l a y sav i t a lr o l li nb i o c h e r m c a l r e a c t i o n g e n e t i cc o n t r o l l i n g m e t a b o l i s mr e g u l a t i n ga n d d i s e a s ef i g h t i n g p r o t e o m i e s w h i c ha i m sa ti l l u s t r a t i n ga l lp r o t e i n si nac e l lo ro r g a m s m h a sb e e o t t l eo n eo ft h e m o s ti m p o r t a n tr e a l m so fl i f es c i e n c eb i o l o g i c a lm a s ss p e c t r u mi sc r u c i a lt op r o t e i n p r o f i l i n g p h y s i c a la n dc h e m i c a ln o i s e s i s o t o p i ci o n ss p e c t r u m s o m ea n e x p e e t e d i o n sw h i c hm a yr e s u l t e df r o mi r r e g u l a rd i s s o c i a t i o n a b s e n ti o n sa n dt h ed e f i c i t so f t h ed a t a b a s es e a r c h i n ga l g o r i t h mw i l lg r e a t l yd e c r e a s et h eu t i l i z a t i o nr a t eo f e x p e r i m e n td a t a f o rm u c hm o r es e q u e n c ec o v e r a g e h i g b e ri d e n t i f i c a t i o n8 c 0 1 ea n d a c c n l a e y s o m ep r e t r e a t m gp r o c e s sm u s tb ec a r r i e do u tb e f o r ep r o t e i ni d e n t i f i c a t i o n b yd a t a b a s es e a r c h i n g t h ea i mw o r ko f t h i sp a p e ri st op r e a e a tl a r g es c a l em s m sd a t a i nt h ef i r s tp a r t t h e o r e t i ed a t aa n df e wp a r to fe x p e r i m e n td a t aw a su s e d t h ee f f e e to fi o n s d i s t r i b u t i o n l ce l u f i o nt i m e i n t o n s i t yo f t h el l l a s ss p e c t r u m i n t e 鲥t yo f b yi o n sw a s s t u d i e d w e p r o p o s e d d a t a p r e t r e a t i n gs t r a t e g i e s i n c l u d e d a t a f i l t e r i n gb y h a l f d e c i m a lp l a c em l e sa n dl ce l u t i o nt i m e m o d u l a t i n gt h ei n t e n s i t yo fm a s s s p e c t r u ms i g n a l c o m p l e m e n t i n gt h ea b s e n tb ys i g n a l s i nt h i sp a r t w ei l l u s t r a t e dt h e f e a s i b i l i t ya n dv a l i d i t yo ft h e s es t x a t e g i e sj u s tf r o mat h e o r e t i cs t a g e i nt h es e c o n d p a r t w ed i s c u s s e dt h e mf r o mal a r g e rd a t as c a l e a sw e b w a l lm o d e l sw e r es e t t e d u pa c c o r d i n gt oa l li d e a ls t a t e b u td a t af r o me x p e r i m e n ta d u l t e r a t e sa m o u n to f u n c e r t a i nf a c t o r s i nt h i sp a r t w ep r e t r e a t e dm a s s i v ee x p e r i m e n td a t ab ys t r a t e g i e s r e f e r r e dj u s tn o w b e c a u s eo fo t h e m e s so fe x p e r i m e n td a t a w ec o m b i n e da n d o p t i m i z e dt h e s es t r a t e g i e s a tl a s t w eg o tf i n ea p p r o a c h e s a n dt h er e s u l t ss h o w e d t h a tt h e s ea p p r o a c h e sc a l lg r e a t l ye n h a n c e dr e a le x i s t e n tp r o t e i n s i d e n t i f i c a t i o n s c o r ea n da c c u r a c y r e d u c e dt h ef a l s ep o s i t i v ei d e n t i f i c a t i o n f o rat w o e o m l x m e n t s y s t e m t h er e l a t i v ea c c u r a c yr a t ew a ss t e p p e d3 3 3 u pt o1 0 0 f o rae i g h t e e n c o m p o n e n ts y s t e m t h er e l a t i v ea c c u r a c yr a t ew a se n h a n c e dt o5 8 8 2 f r o m3 1 2 5 k e yw o r d s p r o t e o m i e s m s m s h a l f d e c i m a lp l a c er u l e s l ce l u t i o nt i m e p r e c u r s o rm o d i f i c a t i o n s t r a t e g i e sc o m b i n i n ga n do p t i m i z i n g 玎学位论文版权使用授权书本人完全了解同济大学关于收集保存使用学位论文的规定同意如下各项内容按照学校要求提交学位论文的印刷本和电子版本学校有权保存学位论文的印刷本和电子版并采用影印缩印扫描数字化或其它手段保存论文学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版在不以赢利为目的的前提下学校可以适当复制论文的部分或全部内容用于学术活动学位论文作者签名勃馕畚妒莎年乡月f e t 经指导教师同意本学位论文属于保密在年解密后适用本授权书指导教师签名学位论文作者签名年月日年月日同济大学学位论文原创性声明本人郑重声明所呈交的学位论文是本人在导师指导下进行研究工作所取得的成果除文中已经注明引用的内容外本学位论文的研究成果不包含任何他人创作的已公开发表或者没有公开发表的作品的内容对本论文所涉及的研究工作做出贡献的其他个人和集体均已在文中以明确方式标明本学位论文原创性声明的法律责任由本人承担签名匆菸动d 2 年弓月i f 日第1 章前言第1 章前言 1 1 蛋白质组学研究现状与发展 2 0 0 3 年4 月人类基因组计划 h u m a ng e n o m ep r o j e c t h g p 宣布完成生命科学进入了以功能基因组学和蛋白质组学为主要研究内容的后基因时代 2 j 基因组学 g e n o m i c s 虽然在基因活性和疾病的相关性分析方面提供了有力根据但实际上大部分疾病并不是因为基因改变所造成的 3 蛋白的产生不仅取决于基因遗传密码子还和机体所处的环境以及机体本身的生理状态密切相关从d n a 到蛋白质存在三个层次的调控分别是转录水平调控 t r a n s c r i p t i o n a l c o n t r 0 1 翻译水平调控 t r a n s l a t i o n a lc o n t r 0 1 翻译后水平调控 p o s t t r a n s l a t i o n a l c o n t r 0 1 而m r n a 只是在转录水平上对蛋白进行调控因此它并不能完全代表蛋白质的表达水平再者蛋白质的动态修饰加工也不是完全来自基因序列蛋白质的翻译后修饰化蛋白质亚细胞定位蛋白质之间的相互作用等都无法根据m r n a 转录加以解释生物体基因数量很多人类基因大约有3 万至4 万个 f 4 如此众多的基因任意一个步骤发生微小的变化都将最终导致差异性蛋白的产生而蛋白质还有其自身特有的活动规律包括人体在内的绝大部分生物体中真正发挥生理功能的是蛋白质所有生命现象包括遗传健康疾病等的执行体都是蛋白质所以研究各种生命活动直接的分子基础必须研究生命活动的执行体一蛋白质这一重要环节阐明蛋白质的种类功能作用机理以及彼此间的关系蛋白质组学研究即旨在解决这一系列问题 6 j 蛋白质组学 p r o t e o m i c s 的概念首先由澳大利亚m a c q u a r i e 大学的w i l k i n s 和w i l l i a m s 于1 9 9 4 年提出来的 7 它是研究细胞或组织内所有表达的蛋白质组成及其活动方式的一门新兴学科国际上蛋白组研究的进展十分迅速不论是理论还是技术都在不断进步和完善到目前为止已经建立了相当多的蛋白质数据库如p d b i p i s w i s s p r o t p i r l i p d b m i p s 等同时相应的国际互联网站也层出不穷 1 9 9 6 年澳大利亚建立了世界上第一个蛋白质研究中心丹麦加拿大日本也先后成立了蛋白质组研究中心在美国各大药厂和公司在巨大财力的支持下也纷纷加入蛋白质的研究阵容 2 0 0 1 年4 月在美国成立了国际人类蛋白第1 章前言质研究组织 h u m a np r o t c o m co r g a n i z a t i o n h u p o 随后欧洲亚太地区都成立了区域性蛋白质研究组织试图通过合作的方式融合各方面的力量完成人类蛋白组计划 1 2 蛋白质组学研究的技术和手段蛋白质组学的迅速发展主要锝力于大规模高通量分离和分析技术的突破性发展到目前为止分离技术上已经发展了双向凝胶电泳技术 t w o d i m e n s i o n g e le l e c t r o p h o r c s i s 2 d e 1 8 1 1 9 1 毛细管电泳技术 c a p i l l a r y e l e c t r o p h o r e s i s c e b o 多维液相色谱技术 m u l t i d i m e n s i o nl i q u i dc h r o m a t o g r a p h y m u l t i l c i j 2 等 2 d e 分离蛋白的基本原理是基于蛋白质等电点不同蛋白质通过第一相等电聚焦分离由于各蛋白有特定的分子量从第一相分离开的蛋白再经由聚丙烯酰胺凝胶电泳按分子量的不同进行分离复杂样品中的蛋白质在二维平面上展开经过电荷和质量两次分离后可以得到分子的等电点和分子量两方面的信息 2 d e 技术是目前所有分离技术中分辨率最高信息量最多的技术但是由于其分离能力和染色方面还存在诸多不足该技术仍然有待改善色谱技术分离领域中应用也极为广泛对于分离生物大分子复杂体系现在已经发展出多维色谱技术与一维分离模式相比多维色谱分离技术极大地提高了峰容量从而达到较好的分离能力 l c 和c e 技术具有快速分离用量少易于和质谱检测技术联用的特点也广泛应用于蛋白质研究和分析蛋白质的分析鉴定主要建立在质谱技术之上二十世纪八十年代末两项软电离质谱技术一基质辅助激光解吸电离 m a t r i xa s s i s t e d l a s e r d e s o r p t i o n i o n i z a t i o n m a l d i 1 1 3 1 j 质谱和电喷雾 e l e c t r o ns p r a yi o n i z a t i o n e s i 5 质谱的发明使得传统的主要用于小分子物质的有机质谱技术得到突破性的进展 m a l d i 的原理是激光照射样品与基质形成的结晶薄膜基质从激光中吸收能量传递给分子而电离过程中将质子转移到生物分子或从生物分子转移到质子而使得生物分子电离这种电离技术应用于混合生物大分子的测定 e s i 的基本原理是通过高电场作用下将样品溶液在毛细管喷雾口处形成带电小液滴在干燥气体如氮气流的作用下小液滴逐渐被蒸发表面积缩小表面电荷密度不断增加直至产生的库仑力与液滴表面的张力达到雷利极限液滴爆裂为带电的子液滴这种细小的喷雾表面电场非常强使得分析物离子化并以第l 章前言单电荷或多电荷的离子形式进入质量分析器生物质谱的质量分析器主要有四种离子阱 i o nt r a p i t l 飞行时间 t i m eo f f l i g h t t o f j 7 四极杆 q u a d r u p o l e o l8 和傅立叶变换离子回旋共振 f o u r i e rt r a n s f o r mi o nc y c l o t r o n r e s o n a n c e f t i c r 1 9 1 1 2 0 这些技术具有简洁快速可靠和高灵敏度等特点传统的蛋白检测程序是复杂蛋白混合物经由特定的蛋白酶消化水解形成多肽混合物再通过分离系统得以分离后用质谱分析仪将多肽离子化并经电磁场分离在离子检测器上获得离子多肽的质苟比质荷比的集合形成质谱这是肽质量指纹 p e p t i d em a s sf i n g e r p r i n t p m f 1 2 1 2 2 1 的方法该方法只适合单一样品分析对复杂蛋白质混合物体系的鉴定一般继续选定被检测到的多肽中的某几个多肽离子进行碰撞诱导解离 c o l l i s i o ni n d u c e dd i s s o c i a t i o n c i d 2 3 碎裂并测得碎片离子的质荷比分布得到串联质谱 m s m s 2 4 3 所有的质谱数据可以通过特定的数据库搜索鉴定出相应的蛋白质在研究蛋白质与蛋白质之白j 的相互作用上已经运用了蛋白质芯片 p r o t e i n m i c r o a r r a y 1 2 5 1 2 6 1 技术基于功能的不同它分为分析芯片 a n a l y t i c a l m i c r o a r r a y 和功能性蛋白芯片 f u n c t i o n a lp r o t e i nm i c r o a r r a y 蛋白质芯片是将蛋白质列在玻璃片多孔胶片或微井上将标记后的探针靶分子与微点阵进行杂交用合适的检测系统即可确定蛋白质之间是否存在交互作用 1 3 蛋白质组学研究的内容蛋自质组学研究试图通过不同生理或病理条件下蛋白质的表达异同对相关蛋白质进行鉴定分类分析蛋白质之间的相互作用以及蛋白质的结构功能等 2 7 1 1 3 1 蛋白质鉴定蛋白质组学的核心内容之一就是蛋白质的鉴定 p r o t e i ni d e n t i f i c a t i o n 目前蛋白质的鉴定主要是利用电泳和色谱等分离技术结合生物质谱技术来确定蛋白质的组成结合其它的鉴定技术来确定蛋白质组成成分的性质结构和功能及各蛋白间的相互作用关系从而最终实现蛋白质组表达模式和功能模式的研究其表达模式的鉴定技术主要以蛋白质微测序氨基酸组成分析和质谱为第l 章前言核心技术 2 通过数据的分析来鉴定体系中可能存在的蛋白通过质谱技术测定蛋白质序列的过程基本是质谱仪检测蛋白样品的质量与电荷比获得样本的质谱信息然后据此进行计算和推理来获得蛋白质的一级结构信息目前其计算和推理主要包括两种方法数据库查询法 d a m b 髂es e a r c h i n g 2 9 j 1 3 0 j i 引和从头测序法 d en o v os e q u e n c i n g 3 2 o 对于蛋白质库中存在的蛋白通常用库搜索的方法而对于数据库中尚且不存在的蛋白唯有采取从头测序的方法利用蛋白质芯片和抗体芯片及免疫共沉淀等技术也是鉴定蛋白质的方法 1 3 2 翻译后修饰化由于m r n a 表达产生的蛋白可能要经历翻译后修饰化过程如磷酸化糖基化泛素化 3 5 1 酯基化甲基化乙酰化原酶激活等泛素化对于细胞分化与凋亡 d n a 修复免疫应答和应激反应等生理过程起着重要作用磷酸化涉及细胞信号转导神经活动肌肉收缩以及细胞的增殖发育和分化等生理病理过程糖基化在许多生物过程中如免疫保护病毒的复制细胞生长炎症的产生等起着重要的作用酯基化对于生物体内的信号传导过程起着非常关键的作用组蛋白上的甲基化和乙酰化与转录调节有关可以肯定翻译后修饰是蛋白质调节功能的重要方式因此对翻译后修饰化的研究对阐明蛋白质功能具有重要作用 1 3 3 蛋白质结构与功能的确定特定结构的蛋白执行特定的功能因此对蛋白结构的研究将有助于阐明其功能可以从蛋白质一级二级三级等几个层面上来研究蛋白质的结构到目前为止也已经发展了多种预测蛋白质结构和功能的方法如基于神经网络的序列预测 3 6 1 c h o u f a s r n a n 算法预测蛋白质二级结构同源建模预测蛋白质三级结构相似序列的数据库比对确定功能等方法 1 3 4 疾病蛋白组研究对于人类而言蛋白质组学的研究最终要服务于人类的健康疾病蛋白组学是以寻找各种特异性的标志蛋白为目的进而应用于临床诊断和药物开发等 4 第1 章前言方面将疾病人群和正常人群的蛋白组进行表达模式差异分析发现与疾病相关的生物标记物 b i o m a r k e r 加就可以在早期发现疾病应用质谱技术来寻找重大疾病利用模式识别技术通过对正常人和病人之间的蛋白质进行质谱分析处理来找到可以稳定区分病人与正常人的标志性蛋白迸而应用到早期的疾病诊断 1 4 基于质谱技术的蛋白质组学研究蛋白质组研究的宗旨是将组织或细胞所有蛋白分离与鉴定为了达成目的己引进了多种分离分析的技术涌现了多种蛋白质鉴定方法如氨基酸组成分析序列测定肽指纹图谱分子量精确测定数据库检索鉴定等目前主要采用了两种技术确定蛋白质氨基酸序列一种是e d m a n 降解法一种是生物质谱技术 e d m a n 降解法测定肽序列准确度非常高但是这种方法测序速度慢费用偏高灵敏度不及质谱技术且不能解决n 端封闭肽的测序问题质谱技术具有快速自动化高通量的特点可以同时分析多种蛋白混合物具有很高的灵敏度 4 h 用质谱确定多肽的序列产生的数据量是相当多的同时也无法将分子量相同的亮氨酸和异亮氨酸赖氨酸和谷氨酰胺区分开来但是质谱技术仍然是确定多肽及蛋白质序列进行蛋白质组学研究最重要的工具之一较早利用质谱技术来鉴定蛋白主要是基于m s 技术的方法也就是我们通常所说的肽质量指纹方法肽质量指纹是蛋白质被识别特异酶位点的蛋白酶水解后得到的肽片断的质量图谱由于每种蛋白的氨基酸序列都不同当蛋白被水解后产生的肽片断也各不相同因此各个蛋白都有其特征性的肽质量图谱但是由于基于m s 的蛋白质识别只适用于单一蛋白或者简单蛋白混合物的情况受蛋白质混合物和污染物部分酶解残基修饰质量精度等因素的影响往往误差较大导致检索错误故而不能单独依靠p m f 鉴定还需要结合序列信息串级质谱仪可以获取肽谱序列信息即在第一级质量分析器中选取某些多肽离子进行c i d 裂解这些多肽母离子在质谱仪的碰撞室里被高速惰性气体碰撞解离主要产生六种类型的碎片离子分别为a b c 和x y z 型离子保留肽链n 端的称之为a b c 型离子保留在肽链c 端的称之为x y z 型离子 a x b y e z 成对出现如图1 1 所示其中b y 型离子是在肽链的酰胺键处断裂形成的 a x 型离子是在酰胺键左侧断裂形成的与b y 型离子的质量差第1 章前言为2 8 d a c z 型离子是在酰胺键右侧断裂形成与b y 型离子的质量差为1 5 d a b y 型离子是占据谱图主要部分的离子类型成对出现的碎片离子在质量上呈阶梯分布图1 2 所示的是多肽v p q v s t p t l v e v s r 在酰胺键处断裂产生的所有 b y 离子碎片随着氨基酸个数的增加或者减少碎片质量呈递增或递减变化 1 一土洲 v p 口v s t p t l v e v 孓r d r o t o n a t o dm a 硒1 5 1 28 4 0 2 m a 豁b i o n s y i o n s m a 髓 1 0 00 7 5 9 0vp q v s t p t l v e v s r1 4 1 27 8 0 2 1 9 71 2 8 9 0v pq v s t p t l v e v s r1 3 1 57 2 7 2 3 2 51 8 7 9 0v p q v s t p t l v e v s r1 1 8 76 2 4 2 42 5 5 9 0v p q vs t p t l v e v s r1 0 8 86 0 0 2 5 1 12 8 7 9 0v p q v st p t l v e v s r1 0 0 15 6 8 2 6 1 23 3 5 9 0v p q v s t p t l v e v s r9 0 05 2 0 2 0 7 0 93 8 8 9 0v p q v s t pt l v e v s r8 0 3 4 6 7 2 0 8 1 04 3 6 9 0v p q v s t p tl v e v s r7 0 24 1 9 2 0 9 2 35 2 0 9 0v p q v s t p t l v e v s r5 8 93 3 5 2 0 1 0 2 25 8 8 9v p q v s t p t l ve v s r4 9 02 6 7 2 0 1 1 5 16 3 1 9v p q v s t p t l v ev s r3 6 12 2 4 2 0 1 2 5 06 9 9 9v p o v s t p t l v e v s r2 6 21 5 6 2 0 1 3 3 77 3 1 9v p q v s t p t l v e v sr1 7 51 2 4 2 0 图1 2 碎片离子互补关系二级质谱是目前蛋白鉴定的最常用有效的方法利用串联质谱鉴定蛋白质身份方面主要有两种方法一种是对数据进行数据库搜索这也是最常用的方法第二种是从头测序 d en o v op e p t i d es e q u e n c i n g 的方法这种方法主要针对数据库里面没有的新蛋白或发生了翻译后修饰化等情况的蛋白质它是一种不依赖数据库而直接利用质量较高的串级质谱推理来获得蛋白质氨基酸序列信息的方法一套完整的基于串级质谱鉴定蛋白质的基本步骤包括质谱数据的预处理数据库搜索或者从头测序结果评价和优化由于质谱数据中存在大量的物理化学噪声不规则离子谱峰缺失谱峰重叠现象质谱数据预处理的目的就是对m s m s 数据进行噪声滤波提取特征数据确定谱峰类型数据库搜索即 6 第1 章前言通过计算机和互联网的手段将m s m s 数据提交到蛋白质数据库中进行肽序列匹配打分肽序列打分是数据库搜索算法的核心目前有交叉互相关 s e q u e s t 3 0 1 基于统计概率 m a s c o t x t a n d e m 1 4 2 1 基于质量点积 p f i n d 1 3 1j 等多种打分算法 1 4 1 串级质谱数据库查询 d a t a b a s es e a r c h j n g 蛋白鉴定串级质谱数据库查询是通过比对实验质谱数据与蛋白质序列数据库中的理论谱数据来鉴定蛋白质的方法用串级质谱查询数据库鉴定蛋白质的核心部分是实验串级质谱与理论串级质谱的匹配打分算法理论串级质谱是将数据库中已有的蛋白序列做模拟酶切酶解后的多肽沿酰胺键断裂生成的二级质谱然后将实验中的蛋白串级质谱与理论串级质谱进行比对打分从而获得实验蛋白的序列信息数据库搜索法鉴定蛋白快速简便常用的利用串级质谱进行蛋白质鉴定分析的软件有s e q u e s t m a s c o t 4 x t a n d e m p f i n d 等 s e q u e s t 打分算法思想由美国华盛顿大学s c r i p p s 研究所细胞生物部的 j o h n y a t e s 和j i m m y e n g 等人率先提出是目前最常用的实验室蛋白质搜索鉴定软件之一 y a t e s 实验室与t h e r m of i n n i g a n 公司合作共同开发出来的s e q u e s t 软件已经商品化这种软件只能通过和实验仪器的连接共同使用该软件运用互相关联 c r o s sc o r r e l a t i o n 分析打分算法来计算所测到的质谱数据与数据库中蛋白质序列的相似性得到候选序列它首先对搜索到的肽序列进行粗打分印 e i n 1 罗 1 力抖 1 1 其中n 为理论谱与实验谱相匹配的碎片离子数目 f 为得到匹配实验谱的强度为连续离子因子 p 为亚氨基离子因子 n 为所有预测的碎片离子数目然后再用互相关函数勋分数排前5 0 0 的多肽序列产生的理论谱与实验谱相似性进行精细打分得到x c o r r 值胁善删朋一击玺7 4 i 0 桃 f r 2 0 f 其中 my i 分别表示理论谱峰和实验谱峰 f 表示两个峰的相对位移这种粗打分考虑了连续离子和谱峰强度由于实验串联质谱存在的测量误差和噪音以及序列的多样性匹配得分很高的结果有可能是错误的因此必须对结果进彳亍评价以确定其正确匹配 s e q u e s t 没有对肽鉴定结果进行评价的模第1 章前言块只能依靠人工进行后续鉴定结果评判和过滤而这种评判过滤还缺乏统一的标准删 m a s c o t 和x t a n d e m 都是运用基于概率的打分算法 m a s c o t 是由英国m a t r i x s c i e n c e 实验室提出并开发的蛋白序列鉴定分析软件该软件的最大优点是可以通过互联网进行数据库搜索来鉴定蛋白极大地方便了生物质谱分析者的研究这也是m a s c o t 受到普遍欢迎的原因之一 m a s c o t 是基 j m o w s e l 4 5 1 的打分算法通过计算实验数据集与序列库中的搜索条目之间的匹配概率 p r o b a b i l i t y p 来确定鉴定的蛋白 m a s c o t 认为有着最低概率的匹配是最佳匹配结果换算成得分为一l o x l g p 1 3 也就是说最佳匹配结果得分最高 m a s c o t 简单规则认为一种随机匹配的可能性为o 0 5 处于该范围内结果认为是可信 s i g n i f i c a n t 的 x t a n d e m 是另外一种基于概率的蛋白质鉴定打分软件和s e q u e s t m a s c o t 软件一样它也是通过谱图与数据库中所有可能的多肽进行比对它只考虑所有匹配上的b y 离子谱峰 x t a n d e m 粗打分计算式为 s c o r e 只 1 4 t o 其中j 是真实谱蜂强度只表示匹配与否匹配上则等于1 没有匹配上则等于0 这种粗打分在经过修饰变动后为 h y p e r s c o r e i 异 n b e n 1 5 i 0 和n 分别为b y 离子的个数的阶乘然后对这些h y p e r s c o r e 进行排序一般地x t a n d e r f l 认为得分最大的为正确的鉴定为了进一步验证再对其进行对数转换当对数值小于0 的时候则认为该得分具有显著性意义即可能是偶然的修饰化多肽这也就是x t a n d e m 的优点所在 p f i n d 是由中国科学院计算技术研究所的研究出来的它采取一种名为核谱向量点积 k e r n e ls p e c t r u md o tp r o d u c t k s p d 的方法是对普通打分算法谱向量点积 s d p 的扩展借助机器学习领域中的核函数技术巧妙利用连续离子匹配信息进行匹配打分的算法也就是说如果连续匹配的离子峰越多则鉴定的可靠性就会越高其粗打分函数为 c s k x 以 1 6 1 1 其中m 为理论串联质谱在实验串联质谱中匹配的谱峰数为第i 个匹第l 章前言配谱峰的强度值上卸为肽序列的长度为了降低噪声对结果的影响以及消除不同实验质谱在总强度上的差别该打分算法先对提交进去的原始谱图进行了谱峰降噪和归一化处理最后通过训练好的s v m 算法对每个质谱的粗打分鉴定结果进行分类利用s v m 的决策值来排名确定匹配的真假但是对于不同的质谱仪产生的串联质谱数据需要训练不同的模型 1 4 2 从头测序方法 d en o v os e q u e n c i r i g 从头测序方法不借助于任何基因及蛋白质序列数据库信息直接解读串级质谱数据重建多肽氨基酸序列利用库搜索引擎进行数据库查询来鉴定蛋白质并不是完全准确可靠的其结果需要进一步确认到目前为止存在数据库中的蛋白数量还是非常有限的当数据库中没有目标序列样品蛋白出现未知修饰以及未知的或非特异性裂解的生成多肽时数据库查询方法显然无能为力了此时需要对其m s m s 数据通过从头测序的方法进行重新解释以获得其多肽序列信息目前应用d en o v o 方法的测序软件有 s h e r e n g a 4 6 j s p e c t r u m m i l l d e n o v ox 4 7 t h c r m of i n n i g a p e a k s 例等商业化软件和l u t e f i s k 4 9 1 p e p n o v o 5 们 a u d e n s 5 1 等学术研究用的软件 d en o v o 的基本思想是将所有的谱峰都看作是可能的b 或y 离子并将每个离子峰视为一个节点当两个节点之间相隔一个或几个氨基酸将两个节点连接起来构建一张氨基酸序列谱图如图1 3 所示对每个节点打分使用动态规划算法找到节点最多即路径最长的序列因此得到得分最高的肽段如图1 4 所示图1 3 氨基酸序列谱图但是d en o v o 的方法难点在于它要求实验质谱数据质量相当高肽断裂 9 第1 章前言状况良好更重要的是 d e n o v o 测序需要耗费大量的时间和精力受制于这些硬件因素的影响 d en o v o 方法的测序结果不够准确无法应用于大规模高通量的蛋白组学数据中因此目前尚没有得到广泛实际应用图1 4 动态规划算法计算氨基酸序列 1 4 3 本课题研究的目的和范围质谱技术的出现和使用提供了包括蛋白质序列及相关信息的海量数据本研究课题旨在从计算的角度对蛋白质测序实验产生的海量质谱数据进行预处理提高蛋白质的准确度和蛋白质序列鉴定覆盖率由于质谱实验过程中的诸多因素影响如多肽分离不完全酶切不完全物理化学噪声离子碎裂模式可能出现的不规则碎片离子峰和离子缺失序列库检索软件搜索计算算法的缺陷蛋白质数据库的不完善等使得质谱数据利用率偏低鉴定覆盖率不高和相当水平的伪存鉴定结果因此必须采取合适的数据的预处理方法和搜索策略以提高肽序列得分和蛋白序列覆盖率提高鉴定准确度 1 4 4 本文主要内容借助串级质谱数据及蛋白质序列库来鉴定蛋白质的技术平台本文着重研究了几种有效的蛋白质二级质谱数据预处理策略这些策略在一定程度上提高了蛋白的鉴定可靠性和数据的利用率本文所做的工作主要包括首先从理论上分别探讨了半小数规则色谱保留时间包括衍生碎片信 1 0 第1 章前言号在内的二级质谱信号强度碎片离子的完整性以及多肽母离子质量等因素对蛋白质检索鉴定产生的影响并提出了 1 利用半小数规则的滤波策略 2 结合色谱保留时间信息组合数据 3 适当调整质谱峰强度 4 补充可能缺失的碎片信息 5 修改可能产生偏移的母离子质量等5 种不同角度的蛋白质组学质谱数据的预处理解析策略每种策略都能在一定程度上对蛋白质的鉴定产生积极成效因此在处理较复杂的数据集时各个策略的有效组合将更好的效果对于不同价态的多肽质谱数据采用不同的组合策略分别处理再将分别处理得到的各个新数据集合并以保证整个数据集的完整性本文第2 3 章中运用理论数据集和局部实验数据加以了验证并得到令人满意的结果不管是序列库检索软件还是我们所提出的策略都是建立在理论模型之上的这些模型往往处于十分理想的状况而实验数据中参杂了太多不可预测的影响因素例如蛋白分离不完全仪器的背景噪声杂质蛋白信号高丰度蛋白信号对低丰度蛋白信号的淹埋蛋白质自身的化学构成等因素都将对蛋白的鉴定产生巨大影响上述策略对实验数据究竟能否起作用本文第4 章运用这些策略对大规模的实验数据进行了讨论我们采用组合策略的方式对数据集加以一一处理处理过程中数据集中各个价态的多肽质谱数据用不同策略组合分别处理最后将分别处理后的新数据合并成一个完整的数据集比较结果发现这些策略所组成的方案不仅能提高体系中真实蛋白的鉴定得分而且从一定程度上鉴别了伪存蛋白对简单二蛋白体系的相对鉴定准确率由3 3 3 3 提高到1 0 0 对于复杂度极大的1 8 蛋白体系的相对鉴定准确率由3 1 2 5 提高到了 5 8 8 2 第2 章串级质谱预处理解析策略分析 2 1 概述第2 章串级质谱预处理解析策略分析利用蛋白酶水解多肽质谱识别蛋白质混合物是目前最主要的蛋白质鉴定方法之一由于肽质量指纹图谱单从分子量上考虑多肽序列使得其氨基酸组合有很大的不确定性因此肽质量指纹图谱并不足以确定一个多肽现在串级质谱已经发展成为鉴定多肽序列的主流方法该方法是基于对多肽及其碎片离子分子量分析的但是其氨基酸组成的确定性大大提高了多肽在断裂的时候遵循了一定的规律低能量碰撞下的多肽离子主要在肽键骨架上且主要在酰胺键处断裂形成具有分子量梯度的碎片离子谱图谱图解析可以借助计算机对二级质谱的从头测序 d en o v os e q u e n c i n g 鉴定也可以通过蛋白质序列数据库检索 d a t a b a s es e a r c h i n g 鉴定本论文工作都是依靠数据库检索的方法鉴定多肽和蛋白质使用m a s c o t 作为鉴定搜索软件在线搜索网址 h t t p w w w m a t r i x s e i e n e e c o r n s e a r c h f o r m s e l e c t h t m l 质谱数据质量不高软件算法本身的不足都会导致搜索结果存在相当程度的伪存和假阴性因此很有必要对实验数据进行预处理本文采取不同的策略从不同角度对质谱数据进行库搜索前预处理 1 将半小数规则延伸应用到二级质谱数据的滤波上对于偏离理论值范围的数据利用半小数规则进彳亍筛选过滤 2 多肽在色谱分离过程中其保留时间是连续的因此色谱保留时白j 也作为一种滤波手段在本文中应用对于质荷比相近色谱保留时间连续的多肽组合其二级质谱数据 3 在实验过程中 c i d 可能导致多肽母离子化学键裂解不完全造成某些b y 离子不完整对于缺失的离子采取配对离子互相补充的策略 4 考虑到一个多肽可能产生多种离子类型在不改变实验谱峰的情况下提高可能的肽段离子峰峰高在一定程度上起到了强化特征谱峰的作用 5 对于修饰化多肽由于多肽母离子带上了修饰化基团从而偏离了理论谱的质量导致谱库检索不到对应的多肽我们拟采取的对策是修改多肽母离子质量但此策略尚不成熟在本文中未应用于大规模数据集处理通过对理论上的以及实验所得的真实质谱数据进行预处理从一定程度上提高了真实蛋白第2 章串级质谱预处理解析策略分析的鉴定准确率 2 2 质谱数据 2 2 1 实验数据集所有串级质谱实验数据均来自于复旦大学化学系杨芄原教授及张翔民教授课题组一共采用了4 个实验数据集包括牛血清标准蛋白数据集牛血清马肌球蛋白混合物体系数据集十八标准蛋白混合体系数据集实验人类肝脏组织蛋白数据集其中牛血清标准蛋白牛血清蛋白和马肌球蛋白二蛋白混合物十八标准蛋白混合体系先由胰蛋白酶酶解成肽段形成多肽混合物该混合体系经过液相色谱分离经过电喷雾 e s i 使多肽带电带电的多肽通过质谱得以检测即通常所说的肽质量指纹图谱 p m f 在p m f 谱上选取质荷比及强度在一定范围内的多肽离子打出二级质谱本文采用的为该体系的二级质谱数据未知人类肝脏组织蛋白亦是先经过胰蛋白酶酶解成多肽混合物采用两维色谱分离后通过m a l d i 使多肽带电并得到二级质谱数据 1 牛血清a b b o s m s d bi d 标准蛋白数据集一共包含1 6 9 个多肽母离子 3 8 0 6 条二级质谱其中3 8 个 1 价多肽母离子对应7 4 9 条二级质谱 7 7 个 2 价多肽母离子对应1 7 7 8 条二级质谱 5 4 个 3 多肽母离子对应1 2 7 9 条二级质谱 2 牛血清a b b o s 马肌球蛋白m y gh o r s e m s d bi d 混合物体系数据集一共包含7 9 个多肽母离子 6 6 6 9 条二级质谱其中1 9 个 1 价多肽母离子对应1 1 7 9 条二级质谱 3 5 个 2 价多肽母离子对应3 2 0 5 条二级质谱 2 5 个 3 多肽母离子对应2 2 8 5 条二级质谱 3 1 8 标准蛋白混合体系数据集该数据集由9 部分组成分别为9 个色谱馏分的二级质谱数据 l c m s m s 整个数据集一共包含1 3 3 2 个多肽母离子对应6 4 5

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（分析化学专业论文）蛋白质组学质谱数据预处理新策略研究及应用.pdf

文档简介

温馨提示

最新文档

评论

（分析化学专业论文）蛋白质组学质谱数据预处理新策略研究及应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档