




已阅读5页,还剩57页未读, 继续免费阅读
(分析化学专业论文)基于串联质谱数据进行蛋白质序列库搜索算法初探.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文摘要 摘要 蛋白质序列库搜索方法为液相串联质谱联用仪产生的高通量质 谱数据提供了快速的分析方式,使生物样品中的蛋白质可以得到快速 定性定量分析。然而,该过程仍然存在很多问题。本论文初步研究了 蛋白质序列库搜索算法及对搜索结果进行分析的算法,并尝试采用化 学计量学方法对蛋白质库搜索结果进行判别分析。 在第二章中,论文对当前广泛采用的蛋白质序列库,库搜索算法 及蛋白质定性方法进行了介绍。同时对由五种不同质谱仪产生的质谱 数据的s e q u e s t 搜索结果,及不同参数条件下的m a s c o t 搜索结果 进行对比,发现在不同条件下得到的结果相差较大,并且在所有的结 果中存在大量的错误匹配。 为了对蛋白质序列库搜索结果进行分析,并最大限度地消除错误 结果的影响,大量的分析算法被开发出来,论文在第三章中对这些算 法进行了介绍,并尝试采用化学计量学中的模式识别方法对搜索结果 进行判别分析,认为化学计量学方法可以明显消除s e q u e s t 搜索结 果中假阳性结果的影响。但对于m a s c o t 搜索结果,这些方法无明显 提高结果中的准确率。而采用d e c o y 库搜索结果估计m a s c o t 正常蛋 白质库搜索结果中的错误率亦存在错误估计的风险。 因此,如何更好地提高蛋白质库搜索结果的准确率并提供更加可 靠的分析方法需要得到更多的研究,第四章对蛋白质库搜索方法进行 了展望。目标蛋白组学提供的新思路及当前大量共享的数据为我们在 这方面进行更加深入的研究提供了机遇。 关键词蛋白质库搜索,s e q u e s t ,m a s c o t ,化学计量学方法 硕士学位论文a b s t r a c t a bs t r a c t 砀es e a r c hp r o c e d u r eo fp r o t e i ns e q u e n c ed a t a b a s ep r o v i d e dar a p i d w a y f o r h i g h - t h r o u g h p u tl i q u i dc h r o m a t o g r a p h y - t a n d e m m a s s s p e c t r o m e t r yd a t aa n a l y s i s ,w h i c hm a d ep r o t e i n i d e n t i f i c a t i o na n d q u a n t i f i c a t i o nm u c hm o r eq u i c k l y h o w e v e r , t h e r es t i l l h a v em a n y p r o b l e m si nt h i sp r o c e d u r e i nt h i st h e s i s ,t h es e a r c ha l g o r i t h m sa v a i l a b l e f o rp r o t e i ns e q u e n c ed a t a b a s ew e r ef i r s t l yi n v e s t i g a t e dp r e h e n s i v e l y t h e n , t h ec h e m o m e t r i c sm e t h o d sw e r ea l s ou s e dt od i s c r i m i n a t et h ei n c o r r e c t i d e n t i f i c a t i o n sf r o mc o r r e c ti d e n t i f i c a t i o n si np r o t e i nd a t a b a s es e a r c h r e s u l t s i nc h a p t e r2 ,p r o t e i nd a t a b a s e s ,p r o t e i nd a t a b a s es e a r c ha l g o r i t h m s a n dp r o t e i ni d e n t i f i c a t i o nm e t h o d sw e r ed e s c r i b e d c o m p a r i n gw i t h s e q u e s t s e a r c hr e s u l t su s i n gt h ed a t ag e n e r a t e db yf i v et y p e so fm a s s s p e c t r o m e t e r sa n dt h er e s u l t s o b t a i n e db yd i f f e r e n tm a s c o ts e a r c h p a r a m e t e r s ,i ti sf o u n dt h a ts e q u e s ta n dm a s c o tg e td i f f e r e n tr e s u l t s w h e nd a t a s e ta n ds e a r c hp a r a m e t e r sc h a n g e d i ta l s oc a nb eo b s e r v e dt h a t b o t ht w oa l g o r i t h m s s e a r c hr e s u l t sa l ls u f f e rf r o ml a r g en u m b e ro f i n c o r r e c ti d e n t i f i c a t i o n s i no r d e rt oe l i m i n a t et h ef a l s ei d e n t i f i c a t i o n si np r o t e i nd a t a b a s e s e a r c hr e s u l t s ,m a n ya l g o r i t h m sw e r ee x p l o r e da n du s e dt ot h i sa i m t h e s ea l g o r i t h m sw e r ed e s c r i b e di n c h a p t e r3 a l s oi nt h i sc h a p t e r , c h e m o m e t r i c sm e t h o d sw e r ea p p l i e dt oi m p r o v et h ed i s c r i m i n a t i n ga b i l i t y o fs e q u e s ta n dm a s c o ts e a r c hr e s u l t s f o r t h es e a r c hr e s u l t so f s e q u e s t , c h m o m e t r i c sm e t h o d s c a n e f f e c t i v e l y r e d u c et h ef a l s e i d e n t i f i c a t i o n s ,b u tf o rm a s c o ts e a r c hr e s u l t s ,t h e s em e t h o d sc o u l dn o t r e d u c et h ef a l s ei d e n t i f i c a t i o n so b v i o u s l y o n em a yr e a c ht ot h ew r o n g s i d ew h e ne s t i m a t em a s c o ts e a r c hr e s u l t su s i n gd e c o yd a t a b a s es e a r c h r e s u l t s t h e r e f o r e ,p r o t e i nd a t a b a s es e a r c ha l g o r i t h m sa n da n a l y s i so ft h e r e s u l t so b t a i n e db yt h e s ea l g o r i t h m ss h o u l db es t u d i e dm o r es c r u t i n o u s l y c h a p t e r4g i v e sa ni n s i g h ti n t ot h ef u t u r es t u d yo fp r o t e i ns e q u e n c e d a t a b a s es e a r c hp r o c e d u r e :d u et ot h ef o c u so ft a r g e t e dp r o t e o m i c sa n d n 硕士学位论文 a b s t r a c t s h a r i n go fp r o t e i ne x p e r i m e n t a ld a t a ,r e s e a r c h e r sh a v et h ec h a n c et os t u d y t h i sf i e l dm o r ed e e p e r l y k e yw o r d s p r o t e i n d a t a b a s e s e a r c h ,s e q u e s t , m a s c o t , c h e m o m e t r i c sm e t h o d s i l l 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特另t l d n 以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说 明。 作者签名: 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文:学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名: 翩签魁吼彳锄巫日 硕士学位论文第一章绪论 1 1蛋白组学简介 第一章绪论 2 0 0 0 年6 月2 6 日,美,英,德,法,日以及中六国科学家同时像世界宣布 人类基因组草图绘制完成,这是人类基因组计划( h u m a ng e n o m ep r o j e c t 。h g p ) 的巨大成果。然而正如人类蛋白质组组织( h u m a np r o t e o m eo r g a n i z a t i o n , h u p o ) 创建人之一i a nh u m p h e r y - s m i t h 所言:“p r o t e i n sa r ec e n t r a lt oo u ru n d e r s t a n d i n go f c e l l u l a rf u n c t i o na n dd i s e a s ep r o c e s s e s ,a n dw i t h o u tac o n c e r t e de f f o r ti np r o t e o m i c s , t h ef r u i t so f g e n o m l c sw i l lg ou n r e a l i z e d ”n 1 。基因组计划虽然为生命科学研究奠定 了坚实的基础,但它并不能提供认识各种生命活动直接的机理,因此必须研究生 命活动的执行体蛋白质乜1 ,来对各种组织或细胞的功能进行完整描述。于是, 在基因组取得巨大成就的基础上,系统生物学研究进入了研究蛋白质组的快速发 展阶段,这也标志着“后基因组时代”( p o s t g e n o m ee r a ) 的n 来口引。 1 1 1 蛋白组学的基本概念 p r o t e o m e ”( 蛋白质组) 这个名词首先由m a r cw i l k i n s 于19 9 4 年在s i e n a 的一 次会议上提出来,由“p r o t i n e ”( 蛋白质) 与“g e n o m e ”( 基因组) 两个单词组合而 成。在w i l k i n s 所在研究小组发表的第一篇蛋白质组的文章中,将“p r o t e o m e ”定 义为:一种基因组所表达的全部蛋白质瞄1 。2 0 0 3 年n a t u r e 给出的一篇i n s i g h t 则 将“p r o t e o m e ”定义为:由特定细胞,组织或生物体产生的所有蛋白质嘲。 “p r o t e o m e ”也可用于称呼亚细胞或细胞器官中的蛋白质集口1 。综合以上三种不同 的概念,“p r o t e o m e ”有以下两种含义:一个基因组一种生物或者一种细胞,组织 所表达产生的全套蛋白质。 在整体水平上研究蛋白质组的学科称为蛋白组学瞪,。蛋白组学最初的研究内 容仅仅是利用二维毛细管电泳对蛋白质进行分离与鉴定,如今,蛋白组学研究范 围扩展至对所有蛋白质异构体及蛋白质修饰,及其相互之间的相互作用的研究, 以及对蛋白质及其高维复杂结构的描述等所有表征大量蛋白质的过程阳j 引。 1 1 2 蛋白组学的发展 虽然“p r o t e o m e ( 蛋白质组) 这个名词首先由m a r cw i l k i n s 与19 9 4 年提出,但 蛋白质研究却早在1 9 7 5 年就已经开始,由科罗拉多大学的p a t r i c kh o f a r r e l l 硕士学位论文第一章绪论 首先利用二维毛细管电泳( t w o d i m e n s i o n a lg e le l e c t r o p h o r e s i s ,2 d g e ) 对蛋白质 混合样品进行分离n l l 。在2 d g e 中,蛋白质首先根据等电点不同在一维等电聚 焦电泳中分离,接着被转移至二维凝胶上,再根据相对分子质量不同而被再次分 离。2 d g e 是目前惟一能将数千种蛋白质同时分离与展示的技术幢1 ,然而由于 2 d g e 分离蛋白质过程的重复性差,使得不同实验室的实验结果很难进行比较; 同时该过程仅仅展示细胞或组织中高丰度的蛋白质,而不是蛋白质全谱;但最主 要的是,由2 d g e 分离得到的各个斑点无法进行鉴定,即无法对分离出来的蛋 白质进行序列或者构象上的定性n 别。这些缺点使得蛋白质研究在2 0 世纪9 0 年中 期一直处于停滞不前的阶段。 直到2 0 世纪9 0 年代后期基质辅助激光解吸电离( m a t r i x a s s i s t e dl a s e r d e s o r p t i o ni o n i z a t i o n ,m a l d i ) n 列及电喷雾电离( e l e c t r o s p r a yi o n i z a t i o n ,e s i ) n 4 1 两 种电离方式的质谱应用于蛋白质研究,以及基因组计划的成功所带来的高通量分 析技术口,4 ,引,才使得蛋白质研究进入了飞速发展的阶段。由于质谱定性具有高的 灵敏度,小的进样量,使得生物样本中低丰度的蛋白质可以得到分析,大大提高 了蛋白质研究的精度n5 1 ;并且该实验过程速度快,从而可以很快得到一个生物样 本的分析结果,这些优点使质谱在蛋白组学中逐渐成为主导的分析方法n 5 1 7 ,。 1 9 9 3 年,h e n z e lwj e ta l n 町首先用2 d g e 分离得到的蛋白质进入质谱分析,然 后利用质谱得到的碎片信息搜索蛋白质数据库,对蛋白质进行定性,这一技术的 实现被认为是质谱应用于蛋白组学研究的一个里程碑n 引。之后,诱导碰撞解离 ( c o l l i s i o ni n d u c e dd i s s o c i a t i o n ,c i d ) 心仉甜1 电离技术被研究者引入到蛋白质分析中, 发展了多级串联质谱。近年来,多维蛋白质定性技术( m u l t i d i m e n s i o n a lp r o t e i n i d e n t i f i c a t i o nt e c h n o l o g y , m u d p i t ) ,新质谱裂解方式如e c d ( e l e c t r o nc a p t u r e d i s s o c i a t i o n ) 口2 j ,e t d ( e l e c t r o nt r a n s f e rd i s s o c i a t i o n ) 晗3 1 等的发展,以及将质谱与 色谱,甚至多维色谱进行联用技术的开发,使得大量蛋白质的分离与可靠的定性 定量分析成为可能。蛋白组学的研究进入了一个新的时代。 1 2质谱基础 1 2 1 质谱的概念 质谱检测流程如图1 - 1 所示,样品分子经过前处理,进入质谱仪后首先被离 子化带上一个或多个正电荷。被离子化的分子会裂解成多个碎片离子,仪器则对 碎片离子的质量进行分析并以质荷h :( m a s st oc h a r g er a t i o ,m z ) 的形式将这些碎 片离子的信息记录下来,作出质谱图。由于不同分子裂解方式不同,因此可以利 用质谱数据定性分析不同的m 分子。 2 硕士学位论文第一章绪论 d e c o m p o s i t i o n 1 2 2 质谱技术简介 m + 。 m a s sa n a l y z ea n d m 2 * d a t ar e c o r d i n g m 3 + p l o t b a rg r a p h m 4 + 图1 - 1 质谱检测流程 质谱的检测过程是在气相中通过测定离子化的被分析物而完成的。质谱仪包 括三个部分:离子源,质量分析器以及检测器。 ( 1 ) 离子源 在蛋白组学研究中,最常用的离子源是m a l d i 和e s i 。m a l d i 的基本原理 是基质( 往往是可以吸收特定波长光的有机小分子) 与样品在酸性条件下溶于有 机溶剂中,取少量溶液( 微升) 滴至平板上,溶剂挥发,溶液中的基质则逐渐形成 晶体,然后用激光照射晶体,基质分子吸收激光并离子化,从平板上解吸附。在 气相中,样品会吸收离子化的基质分子中的质子,使样品带电荷,从而实现样品 的离子化。m a l d i 的离子化效率非常高,所以该仪器是当前灵敏度最高的质谱 仪2 钔。 相对于m a l d i 离子源,e s i 源主要用于串联质谱仪中。e s i 的基本原理是: 通过质谱进样端的毛细管柱或者针管喷出液滴入强电磁场中,使液滴带电;在 n 2 流的作用下,液滴溶剂挥发,表面积减小,表面电场增强,当达到一定强度 时,液滴爆裂成更小的带电的液滴,这一过程不断重复使最终的液滴非常细小且 广- 丽溉i1 j i t 一- ; 兔觯l 蛔 k 醴罐轴嚼 烈啦咽 。j。|_:l。i乇;i:掣 :j 秘脚 c 意群;蚰飘p r 一一 图卜2 2 钉e s i 源的基本原理 成喷雾状,最终多肽分子从液滴中脱离进入质量分析器( 如图卜2 嘶1 所示) 。e s i 3 硕士学位论文第一章绪论 源的质谱仪可以分析较m a l d i 源更复杂的蛋白质混合样品,然而其分辨率较后 者低。 除了以上最常用的电离源,用于蛋白质组研究的质谱电离源还有光电离 ( p h o t o i o n i z a t i o n ) ,化学电离( c h e m i c a li o n i z a t i o n ) ,快速原子轰击电离( f a s ta t o m b o m b a r d m e mi o n i z a t i o n ,f a b ) 乜鄙等。 ( 2 ) 质量分析器口 由离子源离子化后的分子离子进入质量分析器,然后按照质核比不同进行分 离。质量分析器的最主要参数就是灵敏度,分辨率,质量精确性以及产生具有丰 富多肽碎片离子质量信息的质谱图的能力。常用的质量分析器有:线性离子阱 ( l i n e a ri o nt r a p ,l i t ) ,三维离子阱( t r e e d i m e n s i o n a li o nt r a p ,3 d i t ) ,飞行时问 分析器( t i m e o f - f l i g h ta n a l y z e r , t o f ) ,四级杆分析器( q u a d r u p o l e ) ,傅里叶变换 离子回旋加速分析器( f o u r i e rt r a n s f o r i l li o nc y c l o t r o na n a l y z e r , f t - m s ) 以及近几 年发展的傅里叶变换离子回旋加速共振( f o u r i e rt r a n s f o r mi o nc y c l o t r o n r e s o n a n c e ,f t - i c r ) 和o r b i t r a p 分析器n 引。不同质量分析器具有不同的检测机理, 并具有各自的优缺点。e s i 离子源常与l i t 及3 d i t 组合,并和c i d 串联形成串 联质谱,该过程所产生的质谱数据是当前蛋白组学中研究最多的数据,基于该数 据集开发的蛋白质数据库搜索算法以及各种评估算法( v a l i d a t i o na l g o r i t h m ) 也一 直是研究热点,因此在下- d , 节将专门介绍c i d 裂解机制。m a l d i 离子源常与 t o f 组合,主要用于肽质量测绘( p e p t i d e - m a s sm a p p i n g ) 或肽质量指纹图谱的研究 ( p e p t i d e m a s sf i n g e r p r i n t i n g ,p m f ) 。 1 2 3 诱导碰撞解离( c id ) e s i 源质谱仪后连接串联质谱是将由e s i 源电离得到的分子离子裂解,然后 检测该离子碎片的质荷比产生串联质谱( m s m s ) 数据。串联质谱数据能够提供进 入仪器的分子结构信息,因此在蛋白组学研究中得到广泛使用。串联质谱仪主要 由离子源、多级质量分析器及碰撞室组成。第一级质量分析器主要起质量过滤器 的作用,即从总分子离子谱中挑选需要进一步进行结构分析的母离子进入碰撞 室,母离子( p r e c u r s o ri o n ) 在碰撞室内经高速惰性气体碰撞诱导解离( c i d ) 产生碎 片离子,由第二级质量分析器分析碎片离子的质荷比。 c i d 裂解方式是目前串联质谱仪中采用最广泛的方法嘶1 。多肽分子经c i d 裂解成主要由如b ,y 离子( j z n 图1 3 ) 及其中性丢失胺或水所形成的离子组成的碎 片离子。利用c i d 裂解得到的串联质谱( m s m s ) 数据,可通过蛋白质序列库搜索 对样本中的多肽进行定性。 4 硕士学位论文第一章绪论 坞n y 3 ,4 x 3南 , h三 r 3 ho l 缝 j p添 n 、 、 n o r i , 弋 i 。 r 2 h c i c 2 k b 。 图1 - 3 低能量c i d 裂解得到的各种类型离子命名图示x ,y ,z 离子表示多肽被裂解之后c 端的碎片离子,a ,b ,c 离子剐表示被裂解后n 端的碎片离子y ,b 离子由断裂肽键形成,a 离子由b 离子中性丢失c 0 形成,对应的配对离子为x 离子,z 离子由y 离子中性丢失n h 2 形成,对应的配对离子为c 离子x ,y ,z 离子从c 端开始计数,如x 2 ,y z ,z z 表示c 端离子中 包含两个氧基酸残基,对应的为a :,b t ,c :离子,表示从n 端开始计数,包含两个氨基酸残 基方框表示一个氨基酸残基 1 3质谱用于蛋白质组分析 由于质谱分析快速,稳定,进样量小且可以对具有复杂蛋白质混合物的生物 样品进行直接分析,使得其己成为蛋白组学中最主要的分析方法之一n 毛惦阁。 1 3 1 质谱用于蛋白质定性分析 蛋白质酶解成多肽,经过色谱分离,进入质谱得到多肽的质谱信息。因此, 质谱定性蛋白质是对多肽进行定性,进而利用定性得到的多肽反推蛋白质,该过 程称为自下至上( b o t t o mu p ) 分析法。蛋白质定性方法主要有:肽质量指纹图谱, 蛋白质序列库搜索,肽序列标签法以及从头测序法。 ( 1 ) 肽质量指纹图谱( p e p t i d em a s sf i n g e r p r i n t i n g ,p m f ) 口1 肽质量指纹图谱是目前较为常用的定性蛋白质方法,是指蛋白质被酶解后得 到的肽片段指纹质量图谱。蛋白质经酶解( 通常是胰蛋白酶) 得到多肽混合物,由 m a l d i t o f 检测得到该多肽混合物的质谱信息,然后将质谱数据放入肽质量指 纹图谱库中搜索匹配,匹配得分最高的结果被认为是正确的,从而使蛋白质得到 定性。 5 硕士学位论文第一章绪论 然而,由于蛋白质样品中存在污染物;无法有效预测蛋白质酶解所产生的多 肽,导致蛋白质数据库产生的理论多肽质谱存在很多偏差;仪器检测限太窄以及 多肽在酶解之后存在着各种修饰,使得该定性过程往往无法得到可靠的结果晗8 。 同时,该过程无法对蛋白质混合样品进行鉴定。 ( 2 ) 蛋白质序列库搜索( p r o t e i nd a t a b a s es e a r c h ) 蛋白质序列库搜索通常用的是m s m s 数据。蛋白质酶解后得到的多肽混合 物经过色谱分离,进入串联质谱检测,得到串联质谱数据,然后将串联质谱数据 放入蛋白质序列库中进行搜索,使多肽得到定性,进而利用定性得到的多肽反推 蛋白质,使蛋白质得到定性。蛋白质序列库搜索是目前蛋白组学中最常用的蛋白 质定性方法。 由于该过程是使多肽分子得到分离并由一级质量分析器中筛选进入二级质 量分析器,因而二级质谱往往显示纯的多肽分子的裂解信息,在搜蛋白质序列库 的同时也可以利用裂解规律对其进行人工分析,因此该过程被广泛采用。然而, 该过程是采用实验质谱与蛋白质序列库中的理论质谱进行匹配,这将会导致大量 的错误结果,从而使得该过程也往往无法得到可靠结果。 ( 3 ) 肽序列标签( p e p t i d es e q u e n c et a gs e q u e n c i n g ,p s t ) 由1 2 节可知,串联质谱仪得到肽段序列信息。肽经过c i d ,e c d 等方式裂 解可以得到不同类型的离子( 如图1 3 ) ,利用算法识别m s m s 实验数据中各种类 型离子的信息;在数据库检索时,可用己识别的部分离子类型,推断出部分氨基 酸序列,结合此段序列前后的离子质量和肽段母离子质量,在蛋白质数据库中搜 寻,从而使该多肽得到定性。 肽序列标签方法是从头测序法( 沈n o v os e q u e n c i n g ) 跚q 2 1 与蛋白质数据库搜索 方法的结合,利用从头测序法得到肽序列的部分信息作为标签,在蛋白质数据库 搜索可以大大提高多肽定性的准确度,该过程又称为混合过程( h y b r i d a p p r o a c h ) 川。 ( 4 ) 从头测序法( d e h o v os e q u e n c i n g ) 从头测序法是直接根据由c i d ,e c d ,e t d 等裂解得到的m s m s 数据( 如图 1 3 ) ,分析其裂解规律从而推断出在当前的质谱信息条件下最可能的多肽序列。 因此,从头测序法与以上各种蛋白质库搜索方法不同,其无需借助蛋白质序列库 就可得到多肽序列,所以当生物样品中含有蛋白质数据库中所没有的未知蛋白质 时,这种方法是得到该蛋白质序列的最有效方法。然而,因为不采用任何多肽序 列信息,将导致从头测序法得到的结果可靠性低,需要利用其他手段对推断出来 的多肽进行验证性分析口3 1 。 1 3 2 质谱用于蛋白质定量分析 6 硕士学位论文 第一章绪论 蛋白质定量分析的目的是研究不同生物样本中蛋白质或多肽变化情况,发现 各种疾病的生物标记物( b i o m a r k e r ) ,从而了解该疾病的病发机理并提供诊断与治 疗的临床依据啪1 。质谱定量蛋白质主要有两种方法:无标记物的定量方法 ( l a b e l f r e em e t h o d s ) 以及对蛋白质或多肽进行标记的定量方法( l a b e l b a s e d m e t h o d s ) 蚓。 ( 1 ) 无标记物定量方法( l a b e l f r e em e t h o d s ) n 9 蚓 无标记物定量方法用于生物样本中各种多肽相对含量的测定。将蛋白质酶解 为多肽混合物,并初分离成为含有较少多肽混合物的样品,进入m a l d i t o f 或 s e l d i t o f ( s u r f a c e e n h a n c e dl a s e rd e s o r p t i o ni o n i z a t i o n t o f , 表面增强激光解 析离子源飞行时间质谱) 检测得到该多肽混合物的质谱,记录实验者所关心的多 肽对应的质谱峰峰面积或峰高值。由于不同样品中多肽含量不同,导致检测得到 的对应质谱峰的峰面积或峰高值也不同,因此可以用于比较不同样本中多肽的变 化。而通过鉴定多肽所属的蛋白质,从而可以得到蛋白质相对含量的变化。然而 该过程需要耗费大量的时间,受仪器精密度的限制,并由于表征方式即采用峰面 积还是峰高表示多肽的相对含量无法得到统一,因此需要结合各种计算方法以提 高定量的准确度。 随着l c m s ( l i q u i dc h r o m a t o g r a p h y - m a s ss p e c t r o m e t r y , 液相质谱联用) 技术 的进步以及实验重复性的改善,可以将生物样品一次性进行分析,这大大简化了 实验过程并缩短了检测时间,因此l c m s 逐渐被广泛采用。多肽混合物经过l c 分离,进入m s 检测器得到不同保留时间下的质谱,计算多次质谱扫描得到欲定 量的多肽所对应的质谱峰总数,比较不同实验得到的同一多肽的质谱峰总数的差 别,从而可以得到不同样品中蛋白质相对含量的变化。 ( 2 ) 标记法( l a b e l - b a s e dm e t h o d s ) 标记法是目前采用最广泛的蛋白质定量方法,利用代谢,酶解作用或化学反 应使多肽被标记上稳定同位素标记物,改变多肽的质量,将含有被标记多肽的样 品与含有相同且未被标记的多肽或被其他标记物标记的多肽样品混合,进入质谱 检测,由于质谱可以将这些不同质量的多肽分离,从被分离多肽质谱峰的强度计 算样品中被标记多肽的相对含量u 朝。 用标记法定量蛋白质主要有四种方式:同位素亲和标签技术( i s o t o p i cc o d e d a f f i n i t yt a g ,i c a t ) ,同重元素标记用于相对及绝对定量技术( i s o b a r i ct a g s f o r r e l a t i v ea n da b s o l u t eq u a n t i t a t i o n , i t r a q ) ,细胞培养中的含稳定同位素的氨基 酸标记技术( s t a b l ei s o t o p el a b e l i n gw i t ha m i n oa c i di nc e l lc u l t u r e ,s i l a c ) m 1 以及 h 2 0 1 8 标记技术。由于蛋白质标记物价格昂贵,以及实验过程花费时间长,在一 定程度上限制了利用标记法定量蛋白质的应用n 引。 7 硕士学位论文第一章绪论 ( 3 ) 蛋白质绝对含量分析( a b s o l u t eq u a n t i f i c a t i o n ) 以上两种方法都是用于测定不同生物样品中的某一或几种蛋白质的相对含 量,蛋白质绝对含量分析则测定样品中某一蛋白质独有的多肽浓度,再利用多肽 浓度得到该蛋白质的浓度,一般用摩尔浓度表示口5 1 。蛋白质绝对含量分析中最简 单的方法是建立蛋白质浓度与对应质谱信号的函数关系,配置不同浓度的蛋白质 溶液在质谱仪中检测,做出蛋白质浓度质谱信号的关系模型,以预测未知样品 中蛋白质含量。另外则采用内标法,主要有绝对定量法( a b s o l u t eq u a n t i f i c a t i o n , a q u a ) 及反多肽抗体富集稳定同位素标记内标法( s t a b l ei s o t o p es t a n d a r da n d c a p t u r e db ya n t i p e p t i d ea n t i b o d i e s ,s i s c a p a ) 。 1 3 3 质谱用于蛋白质相互作用分析 绝大部分蛋白质通过与其它蛋白质之间的相互作用而发挥它们的生物功能, 因此,当一种新的蛋白质从它们所表达的区域中被分离出来时,就需要明白有哪 些蛋白质与该蛋白质存在相互作用。利用某一纯化或通过标记物修饰的蛋白质作 为诱饵( b a i 0 ,可以通过蛋白质之间的键联作用使与该蛋白质存在相互作用的其 它蛋白质从细胞中分离出来,纯化后采用2 d g e 与质谱联用技术即可对这些分 离出来的蛋白质混合物进行分离鉴定,从而鉴定与功能蛋白质存在相互关系的其 他蛋白质组u 6 l 。 1 4本论文研究内容 本论文对基于串联质谱数据搜索蛋白质序列库方法的算法进行了初步研究。 鉴于采用当前蛋白质序列库搜索工具会得到大量的假阳性结果,本论文通过考察 s e q u e s t 与m a s c o t 搜索结果,采用不同的化学计量学方法对搜索结果进行判别 分析,同时考察了d e c o y 库搜索结果估计蛋白质库中错误率的方法。采用化学 计量学方法可以在很大程度上提高蛋白质序列库搜索结果的准确度,但d e c o y 库估计却会带来错误估计的风险。 第二章将介绍当前广泛使用的蛋白质序列库以及蛋白质库搜索算法及蛋白 质定性方法,同时利用l c q d e c a 及l t qm s m s 数据的s e q u e s t 及m a s c o t 搜索结果对影响蛋白质序列库搜索结果的一些因素进行探讨。s e q u e s t 及 m a s c o t 虽然可以提供大量的搜索结果,但其搜索的准确度很低,这导致在利用 这些方法对蛋白质进行定性时会产生可靠性低的结果。 第三章将介绍当前蛋白组学中开发的分析蛋白质序列库搜索结果的各种算 法,并尝试利用各种化学计量学方法如偏最小二乘( p a r t i a ll e a s ts q u a r e s ,p l s ) , 8 硕士学位论文第一章绪论 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 对s e q u e s t 与m a s c o t 搜索结果进行 判别分析,并与两个搜索工具提供的得分进行比较。利用化学计量学方法可以大 大提高s e q u e s t 搜索结果的判别率,但对于m a s c o t ,由于其结果中的正确率非 常低,使得这些方法无法消除假阳性结果的影响。 第四章作为前瞻,将基于当前蛋白组学中的一些进展及数据共享所带来的机 遇对利用蛋白质库搜索方法进行蛋白质定性过程中所存在的问题提出一些设想, 而这也是我们将来研究的方向。 9 塑主堂堡堡皇里三至墨土星些堕堡塾堡型窒堑旦堕壁盟垡旦耍星丝立些 第二章基于串联质谱数据搜索蛋白质库的蛋白质定性方法 由于液相色谱串联质谱联用技术( l i q u i dc h r o m a t o g r a p h yt a n d e mm a s s s p e c t r o m e t r y , l c m s m s ) 可以对具有台有复杂蛋白质混合物的生物样本如细胞 或有机体组织进行快速准确地分析,使近1 年来l c m s m s 成为蛋白组学中虽 重要的分析手段之一“”2 “。蛋白质样品在溶液中经过特定的酶( 通常为胰蛋白酶) 酶解成为多肽混合物,进入l c - m s m s 首先多肽混合样品由l c 分离,分离产 物不断进入一级质谱中软电离( 通常为e s i 源) 成为分了离了,然后从这些分子离 于中选出特定质核比的离子进入串联质谱,裂解( 通常为c i d 离子源诱导) 成为碎 片离子,由检测器榆测得到该分子离子的碎片离子形成二级质谱数据( 如图 2 1 ) 。由于多肽混合物经过l c 分离并由一纽质谱筛选才进入串联质谱检测分析, 因此得到的每个m s m s 信息可被认为仅属丁个多肽分子,这也是利用 m s m s 质谱信息定性多肽的实验基础。 f a ( ij c s a o l a l p i l l o o np s d g s e - e x d d s e m ( i 2 1 t r j 5 p l m s i n 器裂嚣 嚣国 d 1 3 ) p e p h e c h r o m a t o g f a l m y 一 s 乏 图2 - 1 1 蛋白质由l c m s m s 检测流程 堕主堂鱼焦塞苎三至薹王里壁堡塑墼堡堡塑堑皂堕壁堕堂旦堕星丝查堑 在利用l c m s m s 定性蛋白质时。每一次实验都可以产生成千上万条 m s m s 数据,使人工分析每一条m s m s 数据以定性多肽成为几乎不可能完成的 任务,因此将其导入蛋白质序列库进行搜索来鉴定的方法被广泛采用。如图2 - 2 所示,搜索算法首先将蛋白质序列库中的蛋白质序列由特定酶理论酶解成为理论 多肽分子,然后结合裂解规律建立该多肽分子的理论质谱,将理论质谱与进入序 列库实验质谱进行匹配打分得到每一个理论多肽的第一分值,再对该分值重新评 估( v a l i d a t i o n ) 打分,得分最高的被认为是该实验质谱所对应的多肚。最后由定性 困2 - 2 蛋白质序列库搜索流程 得到的多肚序列反推蛋白质序列从而使蛋白质得到定性。本章将对蛋白质序列 库,库搜索算法及由搜索得到的多肽反推蛋白质序列的算法进行介绍。 21 蛋白质序列库 基因组技术以及新的分析技术在蛋白组学中的应用及发展,产生越来越多的 蛋白质数据这些海量的数据使复杂的蛋白质样品得到快速分析成为可能,而蛋 白质序列库在储存这些数据并为科学研究提供自由共享资源方面扮演着至关重 要的作用“。 211 蛋白质序列库简介 目前广泛使用的蛋白质序列库有 硕士学位论文第二章基丁串联质谱数据搜索蛋白质库的蛋白质定性方法 ( 1 ) g e n b a n k ( g e n ep r o d u c t sd a t ab a n k ,n c b i ) h 订 g e n b a n k 数据库由美国国家生物技术信息中- t , ( t h en a t i o n a l c e n t e rf o r b i o t e c h n o l o g yi n f o r m a t i o n ,n c b i ) 维护,其储存的是经过m r n a 转录翻译而得的 理论蛋白质序列。g e n b a n k 数据库的缺点是其储存的蛋白质序列缺乏注释并存在 着大量的冗余,即一种蛋白质有多个记录,并且其记录的准确性较低n 4 1 。 ( 2 ) e n t r e z ( n c b i ) e n t r e z 数据库( h t t p :w w w n c b i n l m n i h g o v e n t r e z q u e r y , f c g i ? d b = p r o t e i n ) 是当 前具有最完整蛋白质序列的数据库,由n c b i 维护。该数据库储存由来白 d d b j e m b l g e n b a n k 核酸序列库转录而来的理论蛋白质,以及s w i s s p r o t , p i r ( p r o t e i ni n f o r m a t i o nr e s o u r c e ) ,r e f s e q ,p d b ( t h ep r o t e i nd a t a b a n k ) 蛋白质序 列库中的蛋白质序列。然而,e n t r e z 数据库中同样存在着大量的冗余蛋白质。 ( 3 ) r e f s e q ( n c b i ) 为了克服蛋白质序列库中的冗余度问题,n c b i 创建了r e f s e q 数据库 ( h t t p :w w w n c b i n i h g o v r e f s e q ) 。r e f s e q 数据库仅仅收录病毒和细菌,及少量人 类,鼠,斑马鱼,海胆,牛,一些植物等高等有机体的蛋白质序列。因此,r e f s e q 数据库具有低的冗余度,并使蛋白质记录的准确性大大提高,且该数据库在储存 数据时最大限度降低了人为的干涉h 。 ( 4 ) s w i s s p r o t ( e b i & s i b ) n 2 7 s w i s s p r o t 数据库创建于1 9 8 6 年,现由欧洲生物信息学学会( t h ee u r o p e a n b i o i n f o r m a t i c si n s t i t u t e ,e b i ) 及瑞士生物信息学学会( t h es w i s si n s t i t u t eo f b i o i n f o r m a t i c s ,s i b ) 共同维护,是当f j 最精确的蛋白质序列库。在s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省洪泽外国语中学化学高一上期中监测试题含解析
- 住房按揭贷款合同书
- 部门承包合同协议范
- 甲型H1N1流感应急演练脚本(2篇)
- 2025年临终关怀家属支持试题答案及解析
- 解析卷-北师大版9年级数学上册期中试卷必考附答案详解
- 铸管退火工职业技能考核试卷及答案
- 园林修剪工操作考核试卷及答案
- 铸铁机工技能比武考核试卷及答案
- 科学和工程计算软件创新创业项目商业计划书
- 2025年初级会计考试试卷及答案
- 人教版三年级下册数学 期中测试卷
- 中学师德师风建设专题培训
- 高速公路养护合同模板
- 放射科护理质控与安全管理
- 倍智tas人才测评系统题库及答案
- 重大事项决策合法性审查制度
- 钢结构厂房工程屋面、墙面安装施工方案
- 集装箱装车安全教育
- (2025)辅警招聘考试题题库及答案
- 北师大版八年级数学上册教学工作计划(含进度表)
评论
0/150
提交评论