




已阅读5页,还剩120页未读, 继续免费阅读
(计算机应用技术专业论文)蛋白质鉴定中串联质谱数据预处理的算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 当前蛋白质鉴定的研究中,通过串联质谱鉴定多肽序列从而鉴定蛋白质足最广泛使 用的技术。实验中,从色谱中分离出来的多肽经过c i d 过程被裂解成碎片离子,这些离 子的质量,电荷比值( m z ) 被质谱仪器检测到,形成串联质谱。采用数据库搜索方法或者 d en o v o 从头解序方法,可从这些碎片离子的m z 值中鉴定出多肽的序列来。 然而,不管采用什么计算方法进行多肽序列的鉴定,高分辨率串联质谱数据的特点 决定了其在计算上的困难。质谱中大量的物理噪声和离子的同位素峰,增加了多肽序列 鉴定过程的计算量,而且使得随机匹配的可能性增高,从而导致鉴定的结果可靠性降低。 此外,质谱中数据中的质量测量误差直接影响多肽鉴定结果。因此,在进行多肽序列鉴 定之前,对质谱数据进行预处理非常关键。 本文从理论、算法和应用三个层次来讨论对串联质谱数据的预处理技术,实现对质 谱数据的多种预处理,包括过滤质谱中的物理噪声、过滤同位素峰、预测离子对应的分 子式、识别质谱的测鼍误差等。通过这些预处理,最终降低序列鉴定过程的计算量、提 高单个质谱的鉴定可靠性、以及提高能能鉴定出多肽的质谱个数,从而提高蛋白质鉴定 的可靠性。 本文首先提出一个关键的同位素模式概念,可以定量地刻画离子的一系列同位素在 质量、丰度上的特征;并给出了计算离子的理论和实验同位素模式的公式,在此基础上 可进行多种讨论,比如区分质谱中离子和噪声对应的谱峰、预测离子的分子式、估计质 谱质量测量误差等。 基于同位素模式概念,本文提出了从质谱中挑选潜在的离子单同位素峰的算法 p e a k s e l e c t 。本文从理论上讨论了噪声和离子谱峰的本质区别以及质谱中离子同位素峰重 叠的分布情况,并讨论了噪声谱峰在强度上的分布。在此基础上,本文提出多个有效的 特征来区别噪声、孤立的离子谱峰、重叠的离子谱峰,并建立谱峰分类的决策树,从质 谱中挑选潜在的离子的单同位素峰。实验结果表明p e a k s e l e c t 能准确地挑选质谱中的离 子单同位素谱峰,不仅能够大大缩短鉴定软件在多肤序列鉴定上所需的计算时间,并且 能大大增加可靠鉴定出的多肽的个数,提高了质谱的利用率,也提高了所鉴定的蛋白质 序列的覆盖率,从而提高了鉴定结果的可靠性。此外,本算法性能较之现有的商用软件, 比如p r o t e i n l y n x t mg l o b a ls e r v e r 对质谱有效峰选取的预处理效果更好。 在估计质谱质量误差之前,本文先提出了预测离子分子式的算法f f p 。f f p 通过比 较分子式对应的理论同位素模式与质谱中实际出现的实验同位素模式间的差异来预测离 摘姜 予的分子式,并将分f 式预测问题转化为优化j 口】题。结合优化建模和统计分折,f f p 对 小质晕段内的离| 二分f 式预测的五选正确牢达9 5 以七。在此基础上,本文提出了估计 质谱质量测鼍误差的算法a m a s s ,并将a m a s s 应用到q t o f 数据上。 质谱的质量测覆误差包含两个部分,一是随机误差,二足系统误差。随机误差眼从 正态分布,而恨据仪器的测量原理,可以得到系统误差的理论分布函数,比如,t o f 仪 器的测量误差与离子理论质量近似成线性关系。对一个具体的质谱分析其测量误差就是 要得到这个系统误差的分布函数的具体参数。a m a s s 借助月_ p 的预测结果可得到一些准 确的测量误差样本点。并且,q m a s s 还通过计算质谱中各种潜在的连续或同源离子谱峰 间的质量差的理论值与实验值之间的差异而得到相应的测量误差样本点。在这些样本点 数据上a m a s s 通过估计误差分布函数的参数从而得到整个质谱的质量测量误差估计。实 验结果表明,9 5 以上的质谱误差估计值与实际的误差值相差不超过4 0 p p m 。据我们所 知,a m a s s 足第一个不依赖于内标或外标参考,也不依赖数据库搜索结果,直接从质谱 数据中分析其质量误差的方法。 关键词:生物信息学,蛋白质鉴定,串联质谱,同位素模式,质谱数据预处理 u o np r e p r o c e s s i n go f t a n d e mm a s ss p e c t r af o rp r o t e i ni d e n t i f i c a t i o n z h a n gj i n g f e n ( c o m p u t e r a p p l i c a t i o nt e c h n o l o g y ) s u p e r v i s e db yg a ow e n i th a sb e e naw e l l k n o w nm e t h o dt oi d e n t i f yp r o t e i n sb yi d e n t i f y i n gp e p t i d es e q u e n c e s ( o r c a l l e d p e p t i d es e q u e n c i n g ) u s i n gt h et a m d e ms p e c t r a d u r i n ge x p e r i m e n t s ,t h ep e p t i d e s s e p a r a t e df r o ml i q u i dc h r o m a t o g r a p h e r sa r ef r a g m e n t e da n di o n i z e db yc o l l i s i o n i n d u c e d d i s s o c i a t i o n ( c i d ) a n dt h ei o n sa r em e a s u r e db ym a s ss p e c t r o m e t e r i nm a s s c h a r g er a t i o s 仰z ) 。 c o n s e q u e n t l y , t h ep e p t i d e sc a l lb ei d e n t i f i e db yt h e s em zv a l u e so fi o n si nt a n d e ms p e c t r u m w i t has e q u e n c ed a t a b a s es e a r c h i n go rd e 月d i 口s e q u e n c i n go rt h ec o m b i n i n go ft h et w oa b o v e m e t h o d s h o w e v e r t h en u m e r o u sn o i s ea n di s o t o p i cp e a k si nh i g hr e s o l u t i o nt a n d e ms p e c t r a ( s u c h a sq - t o fs p e c t r a ) l e a dt oa h e a v yc o m p u t a t i o n a lc o s ti np e p t i d ei d e n t i f i c a t i o n f u r t h e r m o r e , t h e yc a nc a u s ee i t h e rf a l s en e g a t i v eo rf a l s ep o s i t i v ep e p t i d ei d e n t i f i c a t i o n ss i n c et h e ym a y m a t c hw i t ht h et h e o r e t i c a li o n so fa ni r r e l e v a n tp e p t i d es e q u e n c e i na d d i t i o n , t h em e a s u r e m e n t e r r o i so fi o nm a s s e si ns p e c t r ap u z z l et h ei d e n t i f a c t i o nt o o t h e r e f o r e ,t h ed a t ap r e p r o c e s s i n g s h o u l db ei n t r o d u c e db e f o r ep e p t i d es e q u e n c i n g t h i st h e s i sa i m st od i s c u s st h et h e o r y , a l g o r i t h m sa n dt h ea p p l i c a t i o ni np r e p r o c e s s i n g , a n d p r o p o s em e t h o d st op r e p r o c e s st a m d e ms p e c t r ai no r d e rt oi n c r e a s et h ea c c u r a c yo fp e p t i d e i d e n t i f i c a t i o na n dd e c r e a s et h ec o m p u t a t i o nc o m p l e x i t y f i r s t l y , ak e yc o n c e p to fi s o t o p ep a t t e r nv e c t o r ( 俨功w h i c hd i g i t a i l yc h a r a c t e r i z e st h e i s o t o p ec l u s t e ro faf r a g m e n ti o nu n i v e r s a l l yi sp r o p o s e di nt h et h e s i s t h u s ,t h en o i s ep e a k s a n dr e a lp e a k si ns p e c t r ac a nb ed i s t i n g u i s h e db yt h eq u a n t i t a t i v ei p v v a l u e ,t h ef o r m u l a eo f f r a g m e n ti o n sc a nb ep r e d i c t e da n dt h em a s sm e a s u r e m e n te r r o r sc a nb ea n a l y z e d b a s e do nt h ec o n c e p to f 上p kan e wa l g o r i t h m ,p e a k s e l e c t ,i sp r o p o s e dt of i n dt h e m o n o i s o t o p eo fi o n si ns p e c t r aw h i c ha r ec r u c i a li np e p t i d es e q u e n c i n g i np e a k s e l e c t , w e a n a l y z et h ef u n d a m e n t a ld i f f e r e n c eb e t w e e nn o i s ep e a k sa n di o np e a k s , t h ed i s t r i b u t i o no f n o i s ei ni n t e n s i t y ,a n dt h ec o m p l e xo v e r l a p p i n go fi s o t o p ep e a k si ns p e c t a b ya p p l y i n g m a c h i n el e a r n i n gm e t h o d ,s o m ef e a t u r e sa r ep r o p o s e dt od i s t i n g u i s ht h ed i f f e r e n ti n f o r m a t i o n i ns p e c t r aa n dad e c i s i o nt r e ei sc o n s t r u c t e dt oc l a s s i f yt h ep e a k si n t od i f f e r e n tc a t e g o r i e ss u c h a sn o i s e ,s i n g l ei o np e a k sa n do v e r l a p p i n gp e a k s t h e r e f o r e , a l lo ft h ep o t e n t i a lm o n o i s o t o p i c m a s s e so fi o n sc a l lb ec a l c u l a t e d e x p e r i m e n t ss h o wt h a tp e a k s e l e c td e c r e a s e sg r e a t l yt h e c o m p u t a t i o n a lt i m e sa n di n c r e a s e st h er e l i a b i l i t yo fp e p t i d ei d e n t i f i c a t i o n s i np a r t i c u l a r , p e a k s e l e c tp e r f o r m sw e l lo nc o m p l e xs p e c t r aw i t hal a r g en u m b e ro fp e a k sdf r o ml a r g e p e p f i d e s a n ds u p p o r t sm o r es e q u e n c ei d e n t i f i c a t i o nt h a no t h e rw e l l - k n o w ns y s t e m ss u c ha s p r o t e i n l y n x t mg l o b a ls e r v e r t ok n o wt h em a s sm e a s u r e m e n te r r o r , w en e e dk n o wt h et h e o r e t i c a lm a s s e so ff r a g m e n t i o n si ns p e c t r a t h e r e f o r e w ep r e s e n tan e w m e t h o d , f f p ( f r a g m e n ti o nf o r m u l ap r e d i c t i o n ) , t op r e d i c te l e m e n t a lc o m p o n e n tf o r m u l a so ff r a g m e n ti o n sa n dt h e nk n o wt h e i rt h e o r e t i c a l n l a b s l r a c l m a s s e s i nf f p w ec o n v e at h ep r e d i c i i o no ft h eb e s tf o r m u l a st ot h em i n i m i z a t i o no ft h e d i s t a n c eb e t w e e nt h e o r e t i c a la n de x p e r i m e n t a li s o t o p ep a t t e r n s ( f ,p va n de p 叻c o u p l e dw i t h s o m el o c a ls e a r c hm e t h o da n dan e wm u l t i c o n s t r a i n tf i l t e r i n gm e t h o d f f pc a ng i v ea c c u r a t e p r e d i c i t o nf o ri o n sw i t hl o wm a s s a f t e rp e a k s e l e c ta n df f p w ep r o p o s eam e t h o dq m a s st oa n a l y z et h em a s sm e a s u r e m e n t e r r o ri ns p e c t r aa n da p p l yq m a s si nq - t o fs p e c t r a t h em e a s u r e m e n te r r o rc a l lb ed i v i d e d i n t or a n d o me r r o ra n ds y s t e me r r o r , i nw h i c h ,t h er a n d o me r r o rr o u g h l yf o l l o w st h en o r m a l d i s t r i b u t i o na n dt h ed i s t r i b u t i o no ft h es y s t e me r r o rc a nb ed e d u c e d b yt h em e a s u r e m e n tt h e o r y o ft h es p e c t r o m e t r y f o re x a m p l e ,t h es y s t e me r r o r si nat o f s p e c t r u ma l el i n e a rw i t ht h ei o n s m a s s e sa p p r o x i m a t e l y t op r e d i c tt h em a s se r r o rf o re a c hs p e c t r u mi st of i n dt h ep a r a m e t e r si n t h ed i s t r i b u t i o nf u n c t i o no fe r r o r s t h em o n o i s o t o p i cp e a k so fs o m ei o n sc a nb er e c o g n i z e db y p e a k s e l e c ta n dt h et h e o r e t i c a lm a s s e so fs o m ei o n sc a nb ep r e d i c t e db yf f p t h e r e f o r e s o m e m e a s u n n e n te r r o rp o i n t sc a nb eo b t a i n e d t h e n , a f t e rh a v i n gk n o w nt h ed i s t r i b u t i o nf u n c t i o no f t h er a n d o ma n ds y s t e me l t o r s ,q m a s sc a l le s t i m a t et h ep a r a m e t e r si nt h ed i s t r i b u t i o n sa n d a n a l y z et h em e a s u r e m e n te r r o r f o re a c hs p e c t r u m e x p e r i m e n t ss h o wt h a tf o ro v e r9 5 s p e c t r a ,t h ed i f f e r e n c e sb e t w e e nt h ep r e d i c t e de r r o ra n dt h ep r a c t i c a le r r o ra r ew i t h i n4 0 p p m t oo u rb e s tk n o w l e d g e ,q m a s si st h ef i r s tm e t h o dt oa n a l y z em a s se r r o rd i r e c t l yf r o mt h e s p e c t r u ma n d w i t h o u ta n yi n t e r n a lo re x t e r n a ll o c km a s s e sa n dw i t h o u tr e f e r e n c eo fd a t a b a s e s e a r c hr e s u l t s k e y w o r d s :b i o i n f o r m a t i c s , p r o t e i ni d e n t i f i c a t i o n ,t a m d e ms p e c t r a , i s o t o p ep a t t e r n , p r e p r o c e s s i n go fs p e c t r a i v 图目录 图2 1 基于质谱技术的蛋白质鉴定流程示意图8 图2 2 肽链化学结构示意图 图2 3 蛋白质序列以及胰蛋白酶剪切蛋白质形成多肽的示意图 图2 4 质潜仪装置示意图 图2 5 分辨率示意图 图2 6 多肽e g v n d n e e g f f s a r 的串联质谱局部图 图2 7 串联质谱数据特点示意图 图2 8 多肽e g v n d n e e g n = s a r 部分阶梯形肽片段的质谱示意图 图2 9c 1 d 过程中肤键断裂形成不同类型的碎片以及碎片离子的带电结构 图2 1 0 内部离子和砭氨离子的带电结构示意图 图2 1 1 连续离子,同源离子,互补离子之间的关系1 9 图2 1 2 d e 2 0 1 , 0 谱图转化示意图2 5 图2 1 3d en m 夹逼法示意图2 5 图2 1 4 谱图法和夹逼法的差别。2 6 图2 1 5b - ,y 离子断裂途径示意图2 7 图2 1 6 质谱谱峰扫描示意图 2 8 图2 1 7 质谱谱峰中心化的难点示意图2 8 图3 1 多肽v l d a l d s i k 串联质谱中的同位素信息3 6 图3 2 多肽串联质谱中的噪声分布3 8 图3 3 多肽串联质谱中的低强度峰的分布3 9 图3 4 串联质谱中低强度离子的同位素峰。4 0 图3 5 对应于名称质量的质量残数的范围4 1 图3 6 多肽i p i g f a g a o g g f d t r 串联质谱中6 4 6 - - 6 5 2 u 范围内的谱峰4 2 加 坩 n h m 巧 玎 硌 拇 圈e i 录 图3 7 多肽i p i g f a g a q g g f d t r 串联喷谱中6 4 6 - - 6 5 2 u 范隔内离子的e l p v 和f ,p y 图3 8 四种常见的离子同位袭谱峰蓖叠模式示意图 4 3 4 5 图3 9 同样的峰璎对应不同的重叠模式的示意图4 6 。 图3 1 0 二种不同处理方法得到的8 个标准蛋白的质谱数据上的多肽鉴定结果5 2 图3 1 1 三种处理方法对应的多肽和蛋白质鉴的定结果5 3 图3 1 2r a w 数据和p e a k s e l e c t 处理后数据的鉴定结果的重叠馅况5 5 图3 1 3l a w 数据和p e a k s e l e c t 处理后数据的重叠鉴定结果的m a s c o ts c o r e 分布5 6 图3 1 4r a w 数据和p e a k s e l e c t 处理后数据的未重叠的鉴定结果的差异分布5 7 图3 1 5r a w 数据和p e a k s e l e c t 处理后数据合并的鉴定结果5 7 图3 1 6 超过5 0 0 个谱峰的质谱中能与不能可靠鉴定出多肽的质谱的分布5 8 图4 1 三面体约束求解分子式示意图6 2 图4 2 统计得到的五种元素个数与离子质量的关系图6 7 图4 3 正,r 2 与离子单同位素质量肼的关系6 8 图4 4 不同类别的乃的平均值与离子单同位素质罨m 的关系 图4 5 与质量无关的乃和乃问的分布关系 图4 6 妤p 、m s _ e n u m e r a t e 和a c 的累计匹配分值曲线 图4 7 f f p 的单项匹配分值的性能表现。 7 0 7 1 7 4 7 4 图4 8 局部搜索和全局枚举的有效性比较7 5 图4 9 多重约束过滤器和化学约束过滤器的有效性比较 图4 1 0 局部搜索和多重过滤器在f f p 中所起的作用 图4 1 1 多肽c c t e s l v n r 的m s m s 质谱 7 6 图5 1 串联质谱质量测量误差分布图8 2 图5 2 测量误差对m a s c o t 鉴定结果的影响示意图8 2 图5 3 仪器的分辨卒与离子质量测量精度之间的关系8 3 图5 4 t o f 原理示意图 x 图日录 图5 5o a - t o f 质阜校准方法示意图 图5 6 不同质谱的质旨测蛋误芹分布图 图5 7 标准肽的串联质谱的实际伊悖误差与q m a s s 预测的测母误筹的分布 图5 8 二次分析中1 5 个切片对序的贡谱的实际误芹和q m a s s 预测误芹的分布 9 1 9 3 图5 9 二次分析中预测的误差与实际误差的差距分布图。9 4 图5 1 0 q m a s s 预捌的准确度曲线9 4 图5 1 1q m a s s 预测的可靠性与质谱中谱峰个数的关系 图5 1 2q m a s s 预测的可靠性与质谱中局部荩线高度的关系 图5 1 3 没有被m a s c o t 可靠解释的质谱上的q m a s s 预测误差分布图 9 5 9 5 9 6 图5 1 4 被m a s c o t 可靠解释的质i f 上的母离子和子离子实际误差分布图9 7 图5 1 5 增大母离子匹配误差范围与a m a s s 校准方法对鉴定结果的影响 图6 1 串联质谱数据预处理系统体系絮构示意图 图6 2 质谱有效峰选取算法模块基本流程图 图6 3 碎片离子分子式预测算法模块基本流程图 x l 1 0 1 1 0 3 1 0 4 表目录 表2 1 存在f 蛋白质中的2 0 种基本氩基酸9 表2 2 各种类型的离子的m z 的计算公式2 0 表3 1元素及其同位素的质量、在自然界中的丰度3 5 表3 2p e a k s e l e c t 谱峰选取的正确率 表3 3p r o t e i n l y n x 对质谱数据进行预处理的参数5 0 表3 4 三种处理过程得到的质谱数据的m a s c o t 搜索结果5 l 表3 5 为达到9 9 的鉴定正确率对m a s c o t 鉴定结果进行过滤的参数5 4 表3 6r a w 和p e a k s e l e c t 处理后的数据经m a s c o t 搜索后可靠鉴定出多肽的质谱数5 4 表3 7r a w 和p e a k s e l e c t 处理后的数据中鉴定出的多肽和蛋白质的个数。5 5 表4 1 多肽v i d a l d s i k 的质谱中的一些离子的同位素模式6 4 表4 2 在5 0 个质谱上妤p m s _ e n u m e r a t e , 和a c 的预测准确性 表4 3 多肽c c t e s l v n r 的质谱中碎片离子的f f p 预测结果 7 3 7 8 声明 我声明本论文足我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:弓& 寺垮日期:2 。身占日2 7 目 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者虢掀崭新签名:面支吼姗啤t 日 第一章引言 质谱技术的革新使得大规模自动化的蛋白质鉴定成为现实,生物实验和质谱技术相 结合能在短时间内产生大量的实验质谱数据。然而要准确地鉴定蛋白质的序列,还需对 这些数据进行深入的分析。人工分析能力远跟不上数据产生的速度,因此,如何设计算 法、利用于计算机对实验数据进行自动处理成为新的课题,其中,对串联质谱数据进行 预处理以降低蛋白质鉴定的计算量以及提高鉴定的可靠性便是重要的课题之一,也是本 文的研究重点。 1 1 基于质谱技术的蛋白质鉴定 随着人类基因组计划的逐步完成,科学家们提出了后基因组计划,其中重要内容之 一便是蛋白质组学( p r o t e o m i c s ) 。蛋白质组学中最基本的问题是对细胞中特定时刻所包含 的所有蛋白质进行鉴定。 传统的蛋白质分析方法,如免疫印迹法( i m m u n o b l o t t i n g ) 、内肽的化学测序、纯化蛋 白的共转移( c o m i g r a t i o n ) 分析等方法通常耗时、耗力而不适合高流通量的鉴定。n 末端 e d m a n 降解法 e d m a l 9 4 9 ,e d m a l 9 5 6 是p e h re d m a n 最早提出的从n - 末端顺序降解多肽 的一种化学技术,其与凝胶分离等现代技术相结合,已成为当前自动化地进行蛋白质鉴 定的主要技术之一。但e d m a n 降解速度缓慢,且试剂昂贵,而不适合分析成百上千的蛋 白质。 2 0 世纪8 0 年代中期出现的两种生物大分子的软电离技术,一种是从液相样品中产 生离子的连续离子化技术电喷雾( e s l ) ,另一种是脉冲式的从固相样品中产生离子的技 术一基质辅助激光解吸附( m a id d ,使传统的主要用于小分子物质研究的质谱技术发生 了革命性的变革。技术革新后的质谱仪具有高灵敏度,高分辨率、以及高质量检测范围 等优点而开启了大规模自动化的蛋白质鉴定之门,基于质谱技术的蛋白质序列分析也成 为了蛋白质鉴定的重要方法。 基于质谱技术的蛋白质鉴定是一个多过程的联合应用。实验上,首先采用分离技术, 从生物样品中获得感兴趣的纯化的或混合的蛋白质,并对这些蛋白质进行酶解得到肽片 段。紧接着对这些肽片段的质谱分析可获得蛋白质的肽质指纹谱p m f 。不同的蛋白质具 有不同的氨基酸序列,肽片是蛋白质的指纹特征,因此,依据肽质指纹谱可分析蛋白质 所包含的多肽从而对蛋白质进行鉴定。更进一步,在得到肽质指纹谱后,还可选取某些 肽离子作为母离子,通过碰撞诱导碎裂( c i d ) ,使肽链中的肽键断裂而形成一系列的碎片 离子,被检测到的碎片离子的信号谱峰就形成了肽串联质谱。依据肽串联质谱中所呈现 中固f i 7 - 院博e 学位论文盎白压笞定中串联常教拒预处理的算泫研究 的砰片离f 信息,可对肽片段的氨基酸组成进行分忻,通过特定的氨基酸序列叮更加确 定蛋白质的身份。本文正是庄这个背景下研究串联质谱的预处理技术。 1 2 串联质谱 肽质指纹谱不能揭示肽片段的氨基酸序列,因此,其特异性往往不能满足人们对蛋 白质鉴定的需求。此外,由于c i d 的稳定性和强健性,肽离子沿着酰胺键的主架被轰击 而产生一系列碎片离子,连续的碎片离子问的质鼍差异决定了序列在这一点处的氨基酸 的质量,由此能揭示多肤的序列。因此,在当前的蛋白质鉴定研究中,通过串联质谱鉴 定多肽的序列而鉴定蛋白质是被最广泛接受的技术。 目前,两类最常用的串联质谱分别为e s i q t o f ( q u a d r u p o l et i m e o f - f y ) 配置的仪器 ( 比如a p p l i e d b i o s y s t e m s m d ss c i e x 的q s t a r 奴l h y b r i d i e m s m s s y s t e m ,w a t e r s 公司的q - t o fu l t i m ag l o b a l 等) 和e s i q i t ( q u a d r u p o l ei o nt r a p ) 配置的仪器( 比如f i n n i g a n l c q d e c ai o n - t r a pm a s ss p e c t r o m e t e r ,以及f i n n i g a nl t qm a s ss p e c t r o m e t e r 等) ,分别代 表高分辨率高价位和低分辨率低价位的质谱仪。本文将重点讨论e s i 源的高分辨率类型 的质谱数据,其有如下的特点: 1 ) 质谱中谱峰信息丰富但情况很复杂。首先,仪器自身会产生大量的噪声,占谱峰 信息的9 0 以上;其次,c i d 过程产生很多的离子,但大多数离子人们并不清楚 其结构和身份,实际上对鉴定有用的离子只占很少量:此外,对鉴定起关键作用 的一些重要离子,比如6 系列离子的往往强度较低而和噪声混在一起。 2 ) 质谱中同位素信息很丰富也很复杂。实验中一般将母离子选择窗口设置为4 巧u 宽使得母离子的同位素簇都参与碎片过程,所以质谱中包含丰富的离子同位素信 息。e s i 离子源产生多电荷离子( 2 或者3 电荷者居多) ,因此串联质谱中单电荷 和多电荷离子共存,且不同的离子的同位素峰问存在着复杂的重叠情况。 3 ) 质谱仪器存在测量误差。即使在测量样品之前对仪器进行校准,使之达到5 p p m 的精度,在测量样品时仪器的实际测量误差仍然可高达1 0 0 p p m ,甚至更高,而 且不同质谱的测量误差不一样。 。 在下一节黾我们口以看到,正是这些特点给多肽序列的鉴定造成了困难,由此引出 了质谱数据预处理问题。 1 3 串联质谱数据的预处理 生物实验和质谱分析技术结合,能在短时问内产生大量的质谱数据。仪器产生数据 的速度远超过人工分析数据的能力,对串联质谱数据进行分析便成为蛋白质鉴定的“瓶 颈”,于足人们转而借助于算法,借助于计算机的计算能力对质谱数据进行自动处理。 2 第一章弓l 者 当前,从串联质谱鉴定肽序列的计算方法有三种。第一种方法也是最广泛使用的方 法为数据库搜索方法。首先模拟理论水解和碎裂过程,针对数据库中的蛋白质序列生成 相应的驮理论质谱,然后通过比较实验质谱与序列对应的理论质谱找出最有可能生成此 实验质谱的肽序列。第二种是d en o v o 方法,直接通过串联质谱中碎片离子的质量推算 多肽的氨基酸序列。d en o v o 方法主要针对一些特殊情况,比如蛋白质出现了i 特异性 的断裂而生成的多肽,或者蛋白质样品出现了未知的翻译后修饰,这个时候数据库搜索 方法无能为力。d en o l o 方法的核心是根据当前的质谱数据构造出一个相应的理论数据 库,通过比较实验质谱与理论数据库中的序列的理论质谱,从而找出最有可能生成此实 验质谱的肽序列。因此,d en o v o 方法和数据库搜索方法的不同点在于其需要构造一个 理论的数据库,其它的问题则和数据库搜索方法是一致的。第三种方法为序列标签查询 方法,首先从串联质谱中人工或自动地计算出肽序列的片断信息,然后利用这些部分序 列信息查询数据库,得到肽的全序列。 上述三种方法都离不开实验质谱与理论质谱的比较,无论采用哪种计算方法进行多 肽序列的鉴定,1 2 节中所描述的质谱数据的特点都分别决定了其在计算上的困难: 1 ) 质谱中大量的谱峰不仅使得鉴定过程的计算量巨大,而且使得随机匹配的可能 性增高而导致鉴定的结果可靠性降低。质谱中重要离子和噪声相混淆,导致了 序列鉴定结果的假阳性或者假阴性。 2 ) 虽然质谱中离子的同位素信息可以帮助识别离子所带的电荷数,但当某离子的 同位素峰被误认为是另一个离子的单同位素峰时会给鉴定造成干扰,尤其是当 两个离子的同位素系列峰间存在重叠难以区分时干扰更甚。 3 ) 在鉴定算法中,离子质量的测量误差范围是鉴定的首要参数,而且测量误差直 接影响鉴定的可靠性。若测量误差设置偏小,则不能将正确的多肽序列选出来; 若测量误差设置偏大,则可能的候选序列增多,随机匹配的可能性增高而导致 鉴定的结果可靠性降低。 事实上,目前生物实验每天都产生巨量的质谱数据,但能够可靠地鉴定出多肽的质 谱仅约为总数的1 0 - 3 0 左右。大量看起来很好的质谱却得不到可靠的鉴定结果,这可能 是因为序列鉴定算法不完备、待测样品是一个全新的蛋白质、或者蛋白质发生了未知的 修饰等等,但除此之外,还有一个非常重要原因是质谱数据自身的特点给鉴定带来了困 难,那么针对数据特性对数据进行预处理就显得十分重要。通过预处理可消除一些由实 验带来的不利影响,降低鉴定过程的计算量以及提高序列鉴定的可靠性质谱数据预处 理主要包括两个方面的内容:一是质谱有效峰选取,也即是识别和过滤噪声和同位素峰 而仅挑选离子对应的单同位素峰;二是对质谱进行质量校准。 目前已有一些质谱质谱有效峰选取的预处理方法。最常用的方法是阈值过滤法,包 括根据谱峰强度和谱峰对应的m z 值过滤的方法,但阈值法往往会丢掉重要的离子质量 3 中田 i 学院珥 学位硷交蛋e j 顷警定中串联谱数据预处理的算i 土j , j f 亢 信息。去同位素的方法通常是选择一个膜扳分予式,然后计算质谱中的离子质量相对于 模板分子式质晕的倍数,由此通过模扳分子式的同位袭模式来估计离f 的理论同位索模 式,从而识别质谱中的同位索峰。但这种粗糙的模扳分子式很难准确地度量质谱中出现 的复杂的离- f 同位素模式,以及更复杂的同位索重叠情况。 。 在质谱质量误差估计方面,目日f 所使用的忮准方法主要有内标和外标校准法。内标 法是在样品中加入一定量的质量已知的物质作为内部标准,通过内部标准物的测量值与 理论值的差异来判断仪器的测量误差并予以皎准。内标法的优点足准确性高,但存在样 品间交叉污染的可能性,且内标的高峰可能使样品信号被抑制。外标法中标准物和样品 是分开的。外标能避免内标的缺点,但外标的准确性较内标低。由f 仪器测量过程中受 很多实验条件的影响,外标并不能确实反映每个质谱的误差特性。也有转而采用计算的 方法来估计测量误差的,即首先对样品的所有质谱进行鉴定,仅取其中高可靠的鉴定结 果作为参考标准来分折测量误差,并由此对所有质谱进行校准后再次进行鉴定。这足一 种结果驱动的方法,依赖于鉴定结果的可靠性,同样并不能反映每个质谱的测量误差。 针对上述情况,本文提出不同的方法来解决质谱数据预处理问题,并克服已有算法 的不足。 1 4 本文的贡献 本文的目标是设计算法,对质谱数据进行多种预处理,比如过滤质谱中的噪声、减 少同位素的干扰、以及识别质谱的测 蠢误差而对质谱进行校准等。通过预处理,最终降 低序列鉴定算法的计算量、提高单个质谱的鉴定可靠性、以及提高能可靠鉴定出多肽的 质谱个数而提高蛋白质鉴定的可靠性等。本文的上要贡献包括: 1 ) 基于同位素模式以及决策树分类的有效峰选取算法胁您出d 。本文从理论上讨论了 噪声和离子峰的本质区别、噪声峰在强度上的分布、以及质谱中离子同位素重叠的分 布情况,由此出发发展了一种基于同位素模式以及决策树分类的算法从质谱中挑选潜 在的离子的单同位素峰。实验结果表明p e a k s e l e c t 能准确地挑选有效谱峰,不仅能缩短 鉴定软件在多肽序列鉴定上所需的计算时间,并且能增加可靠鉴定出的多肽的个数, 提高了鉴定结果的可靠性。此外,本算法性能较之现有的商用软件,t t 如e r o t e i n l y n x t m g l o b a ls e r v e r 对质谱预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入股合伙人协议合同范本
- 借款合同到期后补充协议
- 住宅保温工程的合同范本
- 发电厂锅炉收购合同范本
- 加盟店合同二次转让协议
- 厨房建设承包合同协议书
- 医院职工聘用协议书范本
- 公司借个人借款合同范本
- 保洁员清洁租房合同范本
- 合同暂停执行协议书模板
- MSA-KAPPA表-带公式模板
- 1.1 网络层次化拓扑结构设计
- 专项:阅读理解18篇【真题】 七年级英语下册(人教版2024)查漏补缺(含答案+解析)
- GB/T 9869.2-2025橡胶用硫化仪测定硫化特性第2部分:圆盘振荡硫化仪
- 集团公司井控管理规定及井控知识相关考试试卷
- 民间配资双方协议书范本
- 就业能力展示-宣讲
- 神经内科常规用药课件
- 脑梗死取栓术后护理查房
- 国航股份新建配餐楼项目一期工程报告表
- 鸿合交互平板一体机培训
评论
0/150
提交评论