(分析化学专业论文)蛋白质组学质谱数据预处理新策略研究及应用.pdf_第1页
(分析化学专业论文)蛋白质组学质谱数据预处理新策略研究及应用.pdf_第2页
(分析化学专业论文)蛋白质组学质谱数据预处理新策略研究及应用.pdf_第3页
(分析化学专业论文)蛋白质组学质谱数据预处理新策略研究及应用.pdf_第4页
(分析化学专业论文)蛋白质组学质谱数据预处理新策略研究及应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(分析化学专业论文)蛋白质组学质谱数据预处理新策略研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 蛋白质是一切生命活动的执行体 在各种生化反应 控制遗传 新陈代谢 抵抗疾病等方面起着举足轻重的作用 蛋白质组学研究已成为最重要的生命科 学领域之一 它旨在阐明细胞或者组织内所有表达的蛋白 生物质谱技术在研 究蛋白表达方面发挥着关键作用 由于质谱实验过程中的大量的物理化学噪声 同位素离子峰 离子碎裂模式可能出现的不规则碎片离子峰和离子缺失 数据 库检索鉴定算法的缺陷等 使得能有效利用的质谱数据只占整个谱峰数据的很 少一部分 因此 必须采取合适的数据的预处理方法和搜索策略及搜索鉴定结 果的优化策略 以提高肽序列鉴定得分 从而提高蛋白鉴定的覆盖率和准确度 本文对质谱技术所产生的大规模实验数据和理论数据分别进行了预处理 首先 从理论上分别探讨了半小数规则 色谱保留时间 质谱峰强度 衍生离 子簇信号 碎片离子的完整性以及多肽母离子质量等因素对蛋白质检索鉴定产 生的影响 并提出了利用半小数规则和结合色谱保留时间信息的滤波策略 适 当调整质谱峰强度 完整碎片信息等策略对理论质谱数据及局部实验数据进行 了预处理 从微观层面验证策略的可行性 由于理论模型是依据理想状况而建立 而实验数据中掺杂了许多不可预测的 影响因素 本文又运用这些策略对大规模实验数据进行了预处理 即从宏观角 度上对以上策略进行了探讨 针对实验数据的差异性 我们又对这些策略加以 组合和优化 通过讨论分析策略中的参数设置和策略的组合方式 得到最优的 方案 比较结果发现 策略组合和优化的方案不仅能提高体系中真实蛋白的鉴 定得分 而且从一定程度上鉴别了伪存蛋白 对简单二蛋白体系的相对鉴定准 确率由3 3 3 3 提高到1 0 0 对于复杂度极大的1 8 蛋白体系的相对鉴定准确率 由3 1 2 5 提高到了5 8 8 2 关键词 蛋白质组学 二级质谱 半小数规则 保留时间 母离子扣除 策 略组合优化 b s 兀l c t a b s t r a c t a st h ep e r f o r m e ro fa l ll i f ef u n c t i o n s p r o t e i np l a y sav i t a lr o l li nb i o c h e r m c a l r e a c t i o n g e n e t i cc o n t r o l l i n g m e t a b o l i s mr e g u l a t i n ga n d d i s e a s ef i g h t i n g p r o t e o m i e s w h i c ha i m sa ti l l u s t r a t i n ga l lp r o t e i n si nac e l lo ro r g a m s m h a sb e e o t t l eo n eo ft h e m o s ti m p o r t a n tr e a l m so fl i f es c i e n c eb i o l o g i c a lm a s ss p e c t r u mi sc r u c i a lt op r o t e i n p r o f i l i n g p h y s i c a la n dc h e m i c a ln o i s e s i s o t o p i ci o n ss p e c t r u m s o m ea n e x p e e t e d i o n sw h i c hm a yr e s u l t e df r o mi r r e g u l a rd i s s o c i a t i o n a b s e n ti o n sa n dt h ed e f i c i t so f t h ed a t a b a s es e a r c h i n ga l g o r i t h mw i l lg r e a t l yd e c r e a s et h eu t i l i z a t i o nr a t eo f e x p e r i m e n td a t a f o rm u c hm o r es e q u e n c ec o v e r a g e h i g b e ri d e n t i f i c a t i o n8 c 0 1 ea n d a c c n l a e y s o m ep r e t r e a t m gp r o c e s sm u s tb ec a r r i e do u tb e f o r ep r o t e i ni d e n t i f i c a t i o n b yd a t a b a s es e a r c h i n g t h ea i mw o r ko f t h i sp a p e ri st op r e a e a tl a r g es c a l em s m sd a t a i nt h ef i r s tp a r t t h e o r e t i ed a t aa n df e wp a r to fe x p e r i m e n td a t aw a su s e d t h ee f f e e to fi o n s d i s t r i b u t i o n l ce l u f i o nt i m e i n t o n s i t yo f t h el l l a s ss p e c t r u m i n t e 鲥t yo f b yi o n sw a s s t u d i e d w e p r o p o s e d d a t a p r e t r e a t i n gs t r a t e g i e s i n c l u d e d a t a f i l t e r i n gb y h a l f d e c i m a lp l a c em l e sa n dl ce l u t i o nt i m e m o d u l a t i n gt h ei n t e n s i t yo fm a s s s p e c t r u ms i g n a l c o m p l e m e n t i n gt h ea b s e n tb ys i g n a l s i nt h i sp a r t w ei l l u s t r a t e dt h e f e a s i b i l i t ya n dv a l i d i t yo ft h e s es t x a t e g i e sj u s tf r o mat h e o r e t i cs t a g e i nt h es e c o n d p a r t w ed i s c u s s e dt h e mf r o mal a r g e rd a t as c a l e a sw e b w a l lm o d e l sw e r es e t t e d u pa c c o r d i n gt oa l li d e a ls t a t e b u td a t af r o me x p e r i m e n ta d u l t e r a t e sa m o u n to f u n c e r t a i nf a c t o r s i nt h i sp a r t w ep r e t r e a t e dm a s s i v ee x p e r i m e n td a t ab ys t r a t e g i e s r e f e r r e dj u s tn o w b e c a u s eo fo t h e m e s so fe x p e r i m e n td a t a w ec o m b i n e da n d o p t i m i z e dt h e s es t r a t e g i e s a tl a s t w eg o tf i n ea p p r o a c h e s a n dt h er e s u l t ss h o w e d t h a tt h e s ea p p r o a c h e sc a l lg r e a t l ye n h a n c e dr e a le x i s t e n tp r o t e i n s i d e n t i f i c a t i o n s c o r ea n da c c u r a c y r e d u c e dt h ef a l s ep o s i t i v ei d e n t i f i c a t i o n f o rat w o e o m l x m e n t s y s t e m t h er e l a t i v ea c c u r a c yr a t ew a ss t e p p e d3 3 3 u pt o1 0 0 f o rae i g h t e e n c o m p o n e n ts y s t e m t h er e l a t i v ea c c u r a c yr a t ew a se n h a n c e dt o5 8 8 2 f r o m3 1 2 5 k e yw o r d s p r o t e o m i e s m s m s h a l f d e c i m a lp l a c er u l e s l ce l u t i o nt i m e p r e c u r s o rm o d i f i c a t i o n s t r a t e g i e sc o m b i n i n ga n do p t i m i z i n g 玎 学位论文版权使用授权书 本人完全了解同济大学关于收集 保存 使用学位论文的规定 同意如下各项内容 按照学校要求提交学位论文的印刷本和电子版 本 学校有权保存学位论文的印刷本和电子版 并采用影印 缩印 扫描 数字化或其它手段保存论文 学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版 在不以赢利为目的的前 提下 学校可以适当复制论文的部分或全部内容用于学术活动 学位论文作者签名 勃馕畚 妒莎年乡月f e t 经指导教师同意 本学位论文属于保密 在年解密后适用 本授权书 指导教师签名 学位论文作者签名 年月 日年 月日 同济大学学位论文原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师指导下 进行 研究工作所取得的成果 除文中已经注明引用的内容外 本学位论文 的研究成果不包含任何他人创作的 已公开发表或者没有公开发表的 作品的内容 对本论文所涉及的研究工作做出贡献的其他个人和集 体 均已在文中以明确方式标明 本学位论文原创性声明的法律责任 由本人承担 签名 匆 菸 动d 2 年弓月i f 日 第1 章前言 第1 章前言 1 1 蛋白质组学研究现状与发展 2 0 0 3 年4 月人类基因组计划 h u m a ng e n o m ep r o j e c t h g p 宣布完成 生 命科学进入了以功能基因组学和蛋白质组学为主要研究内容的后基因时代 2 j 基因组学 g e n o m i c s 虽然在基因活性和疾病的相关性分析方面提供了有力根 据 但实际上大部分疾病并不是因为基因改变所造成的 3 蛋白的产生不仅取决 于基因遗传密码子 还和机体所处的环境以及机体本身的生理状态密切相关 从d n a 到蛋白质存在三个层次的调控 分别是转录水平调控 t r a n s c r i p t i o n a l c o n t r 0 1 翻译水平调控 t r a n s l a t i o n a lc o n t r 0 1 翻译后水平调控 p o s t t r a n s l a t i o n a l c o n t r 0 1 而m r n a 只是在转录水平上对蛋白进行调控 因此 它并不能完全代 表蛋白质的表达水平 再者 蛋白质的动态修饰加工也不是完全来自基因序列 蛋白质的翻译后修饰化 蛋白质亚细胞定位 蛋白质之间的相互作用等都无法 根据m r n a 转录加以解释 生物体基因数量很多 人类基因大约有3 万至4 万个 f 4 如此众多的基因 任意一个步骤发生微小的变化都将最终导致差异性蛋白的 产生 而蛋白质还有其自身特有的活动规律 包括人体在内的绝大部分生物体 中 真正发挥生理功能的是蛋白质 所有生命现象 包括遗传 健康 疾病等 的执行体都是蛋白质 所以研究各种生命活动直接的分子基础 必须研究生命 活动的执行体一蛋白质这一重要环节 阐明蛋白质的种类 功能 作用机理以 及彼此间的关系 蛋白质组学研究即旨在解决这一系列问题 6 j 蛋白质组学 p r o t e o m i c s 的概念首先由澳大利亚m a c q u a r i e 大学的w i l k i n s 和w i l l i a m s 于1 9 9 4 年提出来的 7 它是研究细胞或组织内所有表达的蛋白质组 成及其活动方式的一门新兴学科 国际上蛋白组研究的进展十分迅速 不论是理论还是技术 都在不断进步 和完善 到目前为止 已经建立了相当多的蛋白质数据库 如p d b i p i s w i s s p r o t p i r l i p d b m i p s 等 同时相应的国际互联网站也层出不穷 1 9 9 6 年 澳大利亚建立了世界上第一个蛋白质研究中心 丹麦 加拿大 日本 也先后成立了蛋白质组研究中心 在美国 各大药厂和公司在巨大财力的支持 下 也纷纷加入蛋白质的研究阵容 2 0 0 1 年4 月 在美国成立了国际人类蛋白 第1 章前言 质研究组织 h u m a np r o t c o m co r g a n i z a t i o n h u p o 随后欧洲 亚太地区都成 立了区域性蛋白质研究组织 试图通过合作的方式 融合各方面的力量 完成 人类蛋白组计划 1 2 蛋白质组学研究的技术和手段 蛋白质组学的迅速发展主要锝力于大规模高通量分离和分析技术的突破性 发展 到目前为止 分离技术上已经发展了双向凝胶电泳技术 t w o d i m e n s i o n g e le l e c t r o p h o r c s i s 2 d e 1 8 1 1 9 1 毛细管电泳技术 c a p i l l a r y e l e c t r o p h o r e s i s c e b o 多维液相色谱技术 m u l t i d i m e n s i o nl i q u i dc h r o m a t o g r a p h y m u l t i l c i j 2 等 2 d e 分离蛋白的基本原理是 基于蛋白质等电点不同 蛋白质通过第一相等 电聚焦分离 由于各蛋白有特定的分子量 从第一相分离开的蛋白再经由聚丙 烯酰胺凝胶电泳 按分子量的不同进行分离 复杂样品中的蛋白质在二维平面 上展开 经过电荷和质量两次分离后 可以得到分子的等电点和分子量两方面 的信息 2 d e 技术是目前所有分离技术中分辨率最高 信息量最多的技术 但是 由于其分离能力和染色方面还存在诸多不足 该技术仍然有待改善 色谱技术 分离领域中应用也极为广泛 对于分离生物大分子复杂体系 现在已经发展出 多维色谱技术 与一维分离模式相比 多维色谱分离技术极大地提高了峰容量 从而达到较好的分离能力 l c 和c e 技术具有快速分离 用量少 易于和质谱检 测技术联用的特点 也广泛应用于蛋白质研究和分析 蛋白质的分析鉴定主要建立在质谱技术之上 二十世纪八十年代末 两项 软电离质谱技术一基质辅助激光解吸电离 m a t r i xa s s i s t e d l a s e r d e s o r p t i o n i o n i z a t i o n m a l d i 1 1 3 1 j 质谱和电喷雾 e l e c t r o ns p r a yi o n i z a t i o n e s i 5 质谱的发明 使得传统的主要用于小分子物质的有机质谱技术得到突破性的 进展 m a l d i 的原理是激光照射样品与基质形成的结晶薄膜 基质从激光中吸 收能量传递给分子 而电离过程中将质子转移到生物分子或从生物分子转移到 质子 而使得生物分子电离 这种电离技术应用于混合生物大分子的测定 e s i 的基本原理是通过高电场作用下将样品溶液在毛细管喷雾口处形成带电小液 滴 在干燥气体如氮气流的作用下 小液滴逐渐被蒸发 表面积缩小 表面电 荷密度不断增加 直至产生的库仑力与液滴表面的张力达到雷利极限 液滴爆 裂为带电的子液滴 这种细小的喷雾表面电场非常强 使得分析物离子化并以 第l 章前言 单电荷或多电荷的离子形式进入质量分析器 生物质谱的质量分析器主要有四 种 离子阱 i o nt r a p i t l 飞行时间 t i m eo f f l i g h t t o f j 7 四极杆 q u a d r u p o l e o l8 和傅立叶变换离子回旋共振 f o u r i e rt r a n s f o r mi o nc y c l o t r o n r e s o n a n c e f t i c r 1 9 1 1 2 0 这些技术具有简洁 快速 可靠和高灵敏度等特点 传统的蛋白检测程序是 复杂蛋白混合物经由特定的蛋白酶消化水解 形成多 肽混合物 再通过分离系统得以分离后 用质谱分析仪将多肽离子化并经电磁 场分离 在离子检测器上获得离子多肽的质苟比 质荷比的集合形成质谱 这 是肽质量指纹 p e p t i d em a s sf i n g e r p r i n t p m f 1 2 1 2 2 1 的方法 该方法只适合单 一样品分析 对复杂蛋白质混合物体系的鉴定 一般继续选定被检测到的多肽 中的某几个多肽离子进行碰撞诱导解离 c o l l i s i o ni n d u c e dd i s s o c i a t i o n c i d 2 3 碎裂 并测得碎片离子的质荷比分布 得到串联质谱 m s m s 2 4 3 所有的质 谱数据可以通过特定的数据库搜索鉴定出相应的蛋白质 在研究蛋白质与蛋白质之 白j 的相互作用上已经运用了蛋白质芯片 p r o t e i n m i c r o a r r a y 1 2 5 1 2 6 1 技术 基于功能的不同 它分为分析芯片 a n a l y t i c a l m i c r o a r r a y 和功能性蛋白芯片 f u n c t i o n a lp r o t e i nm i c r o a r r a y 蛋白质芯片是将蛋白质列 在玻璃片 多孔胶片或微井上 将标记后的探针靶分子与微点阵进行杂交 用 合适的检测系统即可确定蛋白质之间是否存在交互作用 1 3 蛋白质组学研究的内容 蛋自质组学研究试图通过不同生理或病理条件下蛋白质的表达异同 对相 关蛋白质进行鉴定 分类 分析蛋白质之间的相互作用以及蛋白质的结构功能 等 2 7 1 1 3 1 蛋白质鉴定 蛋白质组学的核心内容之一就是蛋白质的鉴定 p r o t e i ni d e n t i f i c a t i o n 目 前蛋白质的鉴定主要是利用电泳和色谱等分离技术结合生物质谱技术来确定蛋 白质的组成 结合其它的鉴定技术 来确定蛋白质组成成分的性质 结构和功 能及各蛋白间的相互作用关系 从而最终实现蛋白质组表达模式和功能模式的 研究 其表达模式的鉴定技术主要以蛋白质微测序 氨基酸组成分析和质谱为 第l 章前言 核心技术 2 通过数据的分析来鉴定体系中可能存在的蛋白 通过质谱技术测 定蛋白质序列的过程基本是 质谱仪检测蛋白样品的质量与电荷比 获得样本 的质谱信息 然后据此进行计算和推理来获得蛋白质的一级结构信息 目前 其计算和推理主要包括两种方法 数据库查询法 d a m b 髂es e a r c h i n g 2 9 j 1 3 0 j i 引 和 从头测序法 d en o v os e q u e n c i n g 3 2 o 对于蛋白质库中存在的蛋白通常用库搜 索的方法 而对于数据库中尚且不存在的蛋白唯有采取从头测序的方法 利用蛋白质芯片和抗体芯片及免疫共沉淀等技术也是鉴定蛋白质的方法 1 3 2 翻译后修饰化 由于m r n a 表达产生的蛋白可能要经历翻译后修饰化过程 如磷酸化 糖基化 泛素化 3 5 1 酯基化 甲基化 乙酰化 原酶激活等 泛素化对于细胞 分化与凋亡 d n a 修复免疫应答和应激反应等生理过程起着重要作用 磷酸化 涉及细胞信号转导神经活动肌肉收缩以及细胞的增殖发育和分化等生理病理过 程 糖基化在许多生物过程中如免疫保护病毒的复制细胞生长炎症的产生等起 着重要的作用 酯基化对于生物体内的信号传导过程起着非常关键的作用 组 蛋白上的甲基化和乙酰化与转录调节有关 可以肯定 翻译后修饰是蛋白质调 节功能的重要方式 因此对翻译后修饰化的研究对阐明蛋白质功能具有重要作 用 1 3 3 蛋白质结构与功能的确定 特定结构的蛋白执行特定的功能 因此 对蛋白结构的研究将有助于阐明 其功能 可以从蛋白质一级 二级 三级等几个层面上来研究蛋白质的结构 到目前为止 也已经发展了多种预测蛋白质结构和功能的方法 如基于神经网 络的序列预测 3 6 1 c h o u f a s r n a n 算法预测蛋白质二级结构 同源建模预测蛋白质 三级结构 相似序列的数据库比对确定功能等方法 1 3 4 疾病蛋白组研究 对于人类而言 蛋白质组学的研究最终要服务于人类的健康 疾病蛋白组 学是以寻找各种特异性的标志蛋白为目的 进而应用于临床诊断和药物开发等 4 第1 章前言 方面 将疾病人群和正常人群的蛋白组进行表达模式差异分析 发现与疾病相 关的生物标记物 b i o m a r k e r 加 就可以在早期发现疾病 应用质谱技术来寻 找重大疾病 利用模式识别技术通过对正常人和病人之间的蛋白质进行质谱分 析处理 来找到可以稳定区分病人与正常人的标志性蛋白 迸而应用到早期的 疾病诊断 1 4 基于质谱技术的蛋白质组学研究 蛋白质组研究的宗旨是将组织或细胞所有蛋白分离与鉴定 为了达成目的 己引进了多种分离分析的技术 涌现了多种蛋白质鉴定方法 如氨基酸组成分 析 序列测定 肽指纹图谱 分子量精确测定 数据库检索鉴定等 目前主要 采用了两种技术确定蛋白质氨基酸序列 一种是e d m a n 降解法 一种是生物质谱 技术 e d m a n 降解法测定肽序列准确度非常高 但是这种方法测序速度慢 费用 偏高 灵敏度不及质谱技术 且不能解决n 端封闭肽的测序问题 质谱技术具有 快速 自动化 高通量的特点 可以同时分析多种蛋白混合物 具有很高的灵 敏度 4 h 用质谱确定多肽的序列产生的数据量是相当多的 同时也无法将分子 量相同的亮氨酸和异亮氨酸 赖氨酸和谷氨酰胺区分开来 但是质谱技术仍然 是确定多肽及蛋白质序列 进行蛋白质组学研究最重要的工具之一 较早利用质谱技术来鉴定蛋白主要是基于m s 技术的方法也就是我们通常 所说的肽质量指纹方法 肽质量指纹是蛋白质被识别特异酶位点的蛋白酶水解 后得到的肽片断的质量图谱 由于每种蛋白的氨基酸序列都不同 当蛋白被水 解后 产生的肽片断也各不相同 因此 各个蛋白都有其特征性的肽质量图谱 但是由于基于m s 的蛋白质识别只适用于单一蛋白或者简单蛋白混合物的情况 受蛋白质混合物和污染物 部分酶解 残基修饰 质量精度等因素的影响 往 往误差较大 导致检索错误 故而不能单独依靠p m f 鉴定 还需要结合序列信 息 串级质谱仪可以获取肽谱序列信息 即在第一级质量分析器中选取某些多 肽离子进行c i d 裂解 这些多肽母离子在质谱仪的碰撞室里被高速惰性气体碰 撞解离 主要产生六种类型的碎片离子 分别为a b c 和x y z 型离子 保 留肽链n 端的称之为a b c 型离子 保留在肽链c 端的称之为x y z 型离 子 a x b y e z 成对出现 如图1 1 所示 其中b y 型离子是在肽链的酰胺键 处断裂形成的 a x 型离子是在酰胺键左侧断裂形成的 与b y 型离子的质量差 第1 章前言 为2 8 d a c z 型离子是在酰胺键右侧断裂形成 与b y 型离子的质量差为1 5 d a b y 型离子是占据谱图主要部分的离子类型 成对出现的碎片离子在质量上呈阶 梯分布 图1 2 所示的是多肽v p q v s t p t l v e v s r 在酰胺键处断裂产生的所有 b y 离子碎片 随着氨基酸个数的增加或者减少 碎片质量呈递增或递减变化 1 一 土洲 v p 口v s t p t l v e v 孓r d r o t o n a t o dm a 硒1 5 1 28 4 0 2 m a 豁b i o n s y i o n s m a 髓 1 0 00 7 5 9 0vp q v s t p t l v e v s r1 4 1 27 8 0 2 1 9 71 2 8 9 0v pq v s t p t l v e v s r1 3 1 57 2 7 2 3 2 51 8 7 9 0v p q v s t p t l v e v s r1 1 8 76 2 4 2 42 5 5 9 0v p q vs t p t l v e v s r1 0 8 86 0 0 2 5 1 12 8 7 9 0v p q v st p t l v e v s r1 0 0 15 6 8 2 6 1 23 3 5 9 0v p q v s t p t l v e v s r9 0 05 2 0 2 0 7 0 93 8 8 9 0v p q v s t pt l v e v s r8 0 3 4 6 7 2 0 8 1 04 3 6 9 0v p q v s t p tl v e v s r7 0 24 1 9 2 0 9 2 35 2 0 9 0v p q v s t p t l v e v s r5 8 93 3 5 2 0 1 0 2 25 8 8 9v p q v s t p t l ve v s r4 9 02 6 7 2 0 1 1 5 16 3 1 9v p q v s t p t l v ev s r3 6 12 2 4 2 0 1 2 5 06 9 9 9v p o v s t p t l v e v s r2 6 21 5 6 2 0 1 3 3 77 3 1 9v p q v s t p t l v e v sr1 7 51 2 4 2 0 图1 2 碎片离子互补关系 二级质谱是目前蛋白鉴定的最常用有效的方法 利用串联质谱鉴定蛋白质 身份方面 主要有两种方法 一种是对数据进行数据库搜索 这也是最常用的 方法 第二种是从头测序 d en o v op e p t i d es e q u e n c i n g 的方法 这种方法主要 针对数据库里面没有的新蛋白或发生了翻译后修饰化等情况的蛋白质 它是一 种不依赖数据库而直接利用质量较高的串级质谱推理来获得蛋白质氨基酸序列 信息的方法 一套完整的基于串级质谱鉴定蛋白质的基本步骤包括 质谱数据的预处理 数据库搜索或者从头测序 结果评价和优化 由于质谱数据中存在大量的物理 化学噪声 不规则离子谱峰缺失 谱峰重叠现象 质谱数据预处理的目的就是 对m s m s 数据进行噪声滤波 提取特征数据 确定谱峰类型 数据库搜索 即 6 第1 章前言 通过计算机和互联网的手段 将m s m s 数据提交到蛋白质数据库中进行肽序列 匹配打分 肽序列打分是数据库搜索算法的核心 目前有交叉互相关 s e q u e s t 3 0 1 基于统计概率 m a s c o t x t a n d e m 1 4 2 1 基于质量点积 p f i n d 1 3 1j 等多 种打分算法 1 4 1 串级质谱数据库查询 d a t a b a s es e a r c h j n g 蛋白鉴定 串级质谱数据库查询是通过比对实验质谱数据与蛋白质序列数据库中的理 论谱数据来鉴定蛋白质的方法 用串级质谱查询数据库鉴定蛋白质的核心部分 是实验串级质谱与理论串级质谱的匹配打分算法 理论串级质谱是将数据库中 已有的蛋白序列做模拟酶切 酶解后的多肽沿酰胺键断裂生成的二级质谱 然 后将实验中的蛋白串级质谱与理论串级质谱进行比对打分 从而获得实验蛋白 的序列信息 数据库搜索法鉴定蛋白快速简便 常用的利用串级质谱进行蛋白 质鉴定分析的软件有s e q u e s t m a s c o t 4 x t a n d e m p f i n d 等 s e q u e s t 打分算法思想由美国华盛顿大学s c r i p p s 研究所细胞生物部的 j o h n y a t e s 和j i m m y e n g 等人率先提出 是目前最常用的实验室蛋白质搜索鉴定 软件之一 y a t e s 实验室与t h e r m of i n n i g a n 公司合作共同开发出来的s e q u e s t 软件已经商品化 这种软件只能通过和实验仪器的连接共同使用 该软件运用 互相关联 c r o s sc o r r e l a t i o n 分析打分算法来计算所测到的质谱数据与数据库中 蛋白质序列的相似性 得到候选序列 它首先对搜索到的肽序列进行粗打分 印 e i n 1 罗 1 力 抖 1 1 其中n 为理论谱与实验谱相匹配的碎片离子数目 f 为得到匹配实验谱的 强度 为连续离子因子 p 为亚氨基离子因子 n 为所有预测的碎片离子数 目 然后再用互相关函数勋分数排前5 0 0 的多肽序列产生的理论谱与实验谱相 似性进行精细打分 得到x c o r r 值 胁 善删朋一击玺7 4 i 0 桃 f r 2 0 f 其中 my i 分别表示理论谱峰和实验谱峰 f 表示两个峰的相对位移 这种粗打分考虑了连续离子和谱峰强度 由于实验串联质谱存在的测量误差和 噪音以及序列的多样性 匹配得分很高的结果有可能是错误的 因此 必须对 结果进彳亍评价 以确定其正确匹配 s e q u e s t 没有对肽鉴定结果进行评价的模 第1 章前言 块 只能依靠人工进行后续鉴定结果评判和过滤 而这种评判过滤还缺乏统一 的标准 删 m a s c o t 和x t a n d e m 都是运用基于概率的打分算法 m a s c o t 是由英国m a t r i x s c i e n c e 实验室提出并开发的蛋白序列鉴定分析软件 该软件的最大优点是 可 以通过互联网进行数据库搜索来鉴定蛋白 极大地方便了生物质谱分析者的研 究 这也是m a s c o t 受到普遍欢迎的原因之一 m a s c o t 是基 j m o w s e l 4 5 1 的打分算 法 通过计算实验数据集与序列库中的搜索条目之间的匹配概率 p r o b a b i l i t y p 来确定鉴定的蛋白 m a s c o t 认为有着最低概率的匹配是最佳匹配结果 换算 成得分为 一l o x l g p 1 3 也就是说最佳匹配结果得分最高 m a s c o t 简单规则认为一种随机匹配的可 能性为o 0 5 处于该范围内结果认为是可信 s i g n i f i c a n t 的 x t a n d e m 是另 外一种基于概率的蛋白质鉴定打分软件 和s e q u e s t m a s c o t 软件一样 它也 是通过谱图与数据库中所有可能的多肽进行比对 它只考虑所有匹配上的b y 离 子谱峰 x t a n d e m 粗打分计算式为 s c o r e 只 1 4 t o 其中j 是真实谱蜂强度 只表示匹配与否 匹配上则等于1 没有匹配上 则等于0 这种粗打分在经过修饰变动后为 h y p e r s c o r e i 异 n b e n 1 5 i 0 和n 分别为b y 离子的个数的阶乘 然后对这些h y p e r s c o r e 进行排 序 一般地x t a n d e r f l 认为得分最大的为正确的鉴定 为了进一步验证 再对 其进行对数转换 当对数值小于0 的时候 则认为该得分具有显著性意义 即 可能是偶然的修饰化多肽 这也就是x t a n d e m 的优点所在 p f i n d 是由中国科学院计算技术研究所的研究出来的 它采取一种名为核谱 向量点积 k e r n e ls p e c t r u md o tp r o d u c t k s p d 的方法 是对普通打分算法谱向 量点积 s d p 的扩展 借助机器学习领域中的核函数技术 巧妙利用连续离子 匹配信息进行匹配打分的算法 也就是说 如果连续匹配的离子峰越多 则鉴 定的可靠性就会越高 其粗打分函数为 c s k x 以 1 6 1 1 其中m 为理论串联质谱在实验串联质谱中匹配的谱峰数 为第i 个匹 第l 章前言 配谱峰的强度值 上卸为肽序列的长度 为了降低噪声对结果的影响以及消除不 同实验质谱在总强度上的差别 该打分算法先对提交进去的原始谱图进行了谱 峰降噪和归一化处理 最后通过训练好的s v m 算法对每个质谱的粗打分鉴定结 果进行分类 利用s v m 的决策值来排名确定匹配的真假 但是对于不同的质谱 仪产生的串联质谱数据需要训练不同的模型 1 4 2 从头测序方法 d en o v os e q u e n c i r i g 从头测序方法不借助于任何基因及蛋白质序列数据库信息 直接解读串级 质谱数据 重建多肽氨基酸序列 利用库搜索引擎进行数据库查询来鉴定蛋白 质并不是完全准确可靠的 其结果需要进一步确认 到目前为止 存在数据库 中的蛋白数量还是非常有限的 当数据库中没有目标序列 样品蛋白出现未知 修饰 以及未知的或非特异性裂解的生成多肽时 数据库查询方法显然无能为 力了 此时 需要对其m s m s 数据通过从头测序的方法进行重新解释 以获得 其多肽序列信息 目前应用d en o v o 方法的测序软件有 s h e r e n g a 4 6 j s p e c t r u m m i l l d e n o v ox 4 7 t h c r m of i n n i g a p e a k s 例等商业化软件和l u t e f i s k 4 9 1 p e p n o v o 5 们 a u d e n s 5 1 等学术研究用的软件 d en o v o 的基本思想是 将所有的 谱峰都看作是可能的b 或y 离子 并将每个离子峰视为一个节点 当两个节点之 间相隔一个或几个氨基酸 将两个节点连接起来 构建一张氨基酸序列谱图 如 图1 3 所示 对每个节点打分 使用动态规划算法找到节点最多 即路径最长 的序列 因此得到得分最高的肽段 如图1 4 所示 图1 3 氨基酸序列谱图 但是d en o v o 的方法难点在于 它要求实验质谱数据质量相当高 肽断裂 9 第1 章前言 状况良好 更重要的是 d e n o v o 测序需要耗费大量的时间和精力 受制于这些 硬件因素的影响 d en o v o 方法的测序结果不够准确 无法应用于大规模 高通 量的蛋白组学数据中 因此目前尚没有得到广泛实际应用 图1 4 动态规划算法计算氨基酸序列 1 4 3 本课题研究的目的和范围 质谱技术的出现和使用 提供了包括蛋白质序列及相关信息的海量数据 本 研究课题旨在从计算的角度对蛋白质测序实验产生的海量质谱数据进行预处 理 提高蛋白质的准确度和蛋白质序列鉴定覆盖率 由于质谱实验过程中的诸多因素影响 如多肽分离不完全 酶切不完全 物理化学噪声 离子碎裂模式可能出现的不规则碎片离子峰和离子缺失 序列 库检索软件搜索计算算法的缺陷 蛋白质数据库的不完善等 使得质谱数据利 用率偏低 鉴定覆盖率不高和相当水平的伪存鉴定结果 因此 必须采取合适 的数据的预处理方法和搜索策略 以提高肽序列得分和蛋白序列覆盖率 提高 鉴定准确度 1 4 4 本文主要内容 借助串级质谱数据及蛋白质序列库来鉴定蛋白质的技术平台 本文着重研 究了几种有效的蛋白质二级质谱数据预处理策略 这些策略在一定程度上提高 了蛋白的鉴定可靠性和数据的利用率 本文所做的工作主要包括 首先 从理论上分别探讨了半小数规则 色谱保留时间 包括衍生碎片信 1 0 第1 章前言 号在内的二级质谱信号强度 碎片离子的完整性以及多肽母离子质量等因素对 蛋白质检索鉴定产生的影响 并提出了 1 利用半小数规则的滤波策略 2 结合色谱保留时间信息组合数据 3 适当调整质谱峰强度 4 补充可能缺 失的碎片信息 5 修改可能产生偏移的母离子质量等5 种不同角度的蛋白质 组学质谱数据的预处理解析策略 每种策略都能在一定程度上对蛋白质的鉴定 产生积极成效 因此 在处理较复杂的数据集时 各个策略的有效组合将更好 的效果 对于不同价态的多肽质谱数据 采用不同的组合策略分别处理 再将 分别处理得到的各个新数据集合并 以保证整个数据集的完整性 本文第2 3 章中运用理论数据集和局部实验数据加以了验证 并得到令人满意的结果 不管是序列库检索软件还是我们所提出的策略都是建立在理论模型之上 的 这些模型往往处于十分理想的状况 而实验数据中参杂了太多不可预测的 影响因素 例如蛋白分离不完全 仪器的背景噪声 杂质蛋白信号 高丰度蛋 白信号对低丰度蛋白信号的淹埋 蛋白质自身的化学构成等因素都将对蛋白的 鉴定产生巨大影响 上述策略对实验数据究竟能否起作用 本文第4 章运用这 些策略对大规模的实验数据进行了讨论 我们采用组合策略的方式对数据集加 以一一处理 处理过程中 数据集中各个价态的多肽质谱数据用不同策略组合 分别处理 最后将分别处理后的新数据合并成一个完整的数据集 比较结果发 现 这些策略所组成的方案不仅能提高体系中真实蛋白的鉴定得分 而且从一 定程度上鉴别了伪存蛋白 对简单二蛋白体系的相对鉴定准确率由3 3 3 3 提高 到1 0 0 对于复杂度极大的1 8 蛋白体系的相对鉴定准确率由3 1 2 5 提高到了 5 8 8 2 第2 章串级质谱预处理解析策略分析 2 1 概述 第2 章串级质谱预处理解析策略分析 利用蛋白酶水解多肽质谱识别蛋白质混合物是目前最主要的蛋白质鉴定方 法之一 由于肽质量指纹图谱单从分子量上考虑多肽序列 使得其氨基酸组合 有很大的不确定性 因此肽质量指纹图谱并不足以确定一个多肽 现在串级质 谱已经发展成为鉴定多肽序列的主流方法 该方法是基于对多肽及其碎片离子 分子量分析的 但是其氨基酸组成的确定性大大提高了 多肽在断裂的时候遵循了一定的规律 低能量碰撞下的多肽离子主要在肽 键骨架上且主要在酰胺键处断裂 形成具有分子量梯度的碎片离子谱图 谱图 解析可以借助计算机对二级质谱的从头测序 d en o v os e q u e n c i n g 鉴定 也可 以通过蛋白质序列数据库检索 d a t a b a s es e a r c h i n g 鉴定 本论文工作都是依靠 数据库检索的方法鉴定多肽和蛋白质 使用m a s c o t 作为鉴定搜索软件 在线搜 索网址 h t t p w w w m a t r i x s e i e n e e c o r n s e a r c h f o r m s e l e c t h t m l 质谱数据质量不高 软件算法本身的不足都会导致搜索结果存在相当程度 的伪存和假阴性 因此很有必要对实验数据进行预处理 本文采取不同的策略 从不同角度对质谱数据进行库搜索前预处理 1 将半小数规则延伸应用到二 级质谱数据的滤波上 对于偏离理论值范围的数据利用半小数规则进彳亍筛选过 滤 2 多肽在色谱分离过程中 其保留时间是连续的 因此色谱保留时 白j 也 作为一种滤波手段在本文中应用 对于质荷比相近 色谱保留时间连续的多肽 组合其二级质谱数据 3 在实验过程中 c i d 可能导致多肽母离子化学键裂解 不完全 造成某些b y 离子不完整 对于缺失的离子 采取配对离子互相补充 的策略 4 考虑到一个多肽可能产生多种离子类型 在不改变实验谱峰的情 况下 提高可能的肽段离子峰峰高 在一定程度上起到了强化特征谱峰的作用 5 对于修饰化多肽 由于多肽母离子带上了修饰化基团 从而偏离了理论谱 的质量 导致谱库检索不到对应的多肽 我们拟采取的对策是修改多肽母离子 质量 但此策略尚不成熟 在本文中未应用于大规模数据集处理 通过对理论 上的以及实验所得的真实质谱数据进行预处理 从一定程度上提高了真实蛋白 第2 章串级质谱预处理解析策略分析 的鉴定准确率 2 2 质谱数据 2 2 1 实验数据集 所有串级质谱实验数据均来自于复旦大学化学系杨芄原教授及张翔民教授 课题组 一共采用了4 个实验数据集 包括牛血清标准蛋白数据集 牛血清 马肌球蛋白混合物体系数据集 十八标准蛋白混合体系数据集 实验人类肝脏 组织蛋白数据集 其中牛血清标准蛋白 牛血清蛋白和马肌球蛋白二蛋白混合 物 十八标准蛋白混合体系先由胰蛋白酶酶解成肽段 形成多肽混合物 该混 合体系经过液相色谱分离 经过电喷雾 e s i 使多肽带电 带电的多肽通过质谱 得以检测 即通常所说的肽质量指纹图谱 p m f 在p m f 谱上选取质荷比及强 度在一定范围内的多肽离子 打出二级质谱 本文采用的为该体系的二级质谱 数据 未知人类肝脏组织蛋白亦是先经过胰蛋白酶酶解成多肽混合物 采用两 维色谱分离后 通过m a l d i 使多肽带电 并得到二级质谱数据 1 牛血清a b b o s m s d bi d 标准蛋白数据集 一共包含1 6 9 个多肽 母离子 3 8 0 6 条二级质谱 其中3 8 个 1 价多肽母离子 对应7 4 9 条二级质谱 7 7 个 2 价多肽母离子 对应1 7 7 8 条二级质谱 5 4 个 3 多肽母离子 对应1 2 7 9 条二级质谱 2 牛血清a b b o s 马肌球蛋白m y gh o r s e m s d bi d 混合物体系 数据集 一共包含7 9 个多肽母离子 6 6 6 9 条二级质谱 其中1 9 个 1 价多肽母 离子 对应1 1 7 9 条二级质谱 3 5 个 2 价多肽母离子 对应3 2 0 5 条二级质谱 2 5 个 3 多肽母离子 对应2 2 8 5 条二级质谱 3 1 8 标准蛋白混合体系数据集 该数据集由9 部分组成 分别为9 个色 谱馏分的二级质谱数据 l c m s m s 整个数据集一共包含1 3 3 2 个多肽母离子 对应6 4 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论