




已阅读5页,还剩64页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四讲从质谱数据鉴定多肽 蛋白质 中科院自动化所李伏欣 开场白 在之前的讲座中 我们已经学到了关于蛋白质组学中的重要工具 质谱仪的知识 蛋白质组学里 质谱仪的作用是鉴定混合物中的蛋白质 然而 没有数据分析的辅助 它是做不到这一点的 讲座大纲 本讲座中 将分别讲述两种鉴定蛋白质的方法 其一是质量纹鉴定法 PeptideMassFingerprinting 另外一种是二级质谱的数据库搜索鉴定法 MS MSDatabaseSearching 我们将简略的介绍质量纹鉴定法 而用更多的时间讨论用于二级质谱上的方法 多肽质量纹鉴定 多肽质量纹 PeptideMassFingerprinting PMF 是从一级质谱 MS 中鉴定多肽的主要方法 多肽质量纹一般都是在MALDI TOF仪器的结果上进行 其原理就是利用了蛋白序列数据库中的多肽质量的信息 我们下面的讨论 先假设一张质谱图对应一个蛋白 后面会讨论处理多个蛋白的情况 一级质谱图 蛋白质经过酶解后 送入质谱仪 得到一级质谱 目前来说 由MALDI TOF质谱仪产生的质谱图精度较高 而由ESI质谱仪产生的质谱图精度相对较低 另一个问题是 ESI产生的质谱图中的离子通常带有很多电荷 而MALDI质谱图中的离子一般只带一个电荷 比较容易计算 所以从一级质谱鉴定蛋白质的算法 质量纹 主要用在MALDI TOF产生的质谱图上 SampleMSSpectrum 蛋白序列数据库 在美国国家生物信息中心的网站http ncbi nlm nih gov上可以查询到最新的蛋白序列数据库 NCBI上的数据库中 信息最丰富的是Genpept格式 包括有蛋白的序列 各种性质 甚至于参考文献 但是对我们来说 我们只需要蛋白序列的信息就够了 Genpept示例 Genpept示例 FASTA格式 FASTA格式就是蛋白的氨基酸序列 虚拟酶解 对应于送进质谱仪的样品 我们可以对数据库里的序列作一次虚拟的酶解 质量排列 虚拟酶解的结果 产生了一系列的多肽 我们可以计算每个多肽的质量 最后一个R的质量多加了18 这是因为我们写在下面的是残基的分子量 质量排列的 把所有多肽的质量排序 质量纹 如此 质谱图上的质量就可以与多肽上的质量相匹配 质量纹 这就是多肽质量纹 PMF 的最基础的思路 但是 真正的将之作为一个鉴定蛋白质的方法 还有很多需要考虑的问题 在讨论这些问题之前 我们先看一看目前常用的质量纹算法 常用的质量纹算法 现在试验中可用的算法有 Mascot Profound http prowl rockefeller edu cgi bin ProfoundExpasytools http www expasy ch tools PeptideSearch http mac mann6 embl heidelberg de PMF中的问题 第一个问题 质量相近的多肽怎么处理 在现实的蛋白数据库中 多肽的数量是很庞大的 这里面难保不会有质量非常相近的多肽 这样 就造成了质谱图上的一个峰可能匹配不止一个多肽 于是我们就难以知晓这张质谱图究竟代表哪个蛋白 质量相近的多肽 Peakm z 1019 08 解决方案 第一个解决的办法是限制用来搜索的数据库 比如 你如果做的试验用的是小白鼠的组织 那么你可以只在鼠类的数据库中搜索 这样就可以减低出现这种情况的可能性 第二个解决的办法是要求必须有多个多肽和数据库相匹配 才做出最后的蛋白质鉴定 多匹配 DFPIANGER1019 09 EPISVSSQQMLK1347 56 VLDALDSIK974 13 CarbonicanhydraseII SHHWGYGKHBGPZHWHKDFPIANGERQSPVNIDTKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQKVLDALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISVSSQQMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK 多匹配可以大大降低随机匹配的概率 从而增加结果的可信度 长蛋白和短蛋白 第二个问题 长蛋白可能会更容易的被匹配 因为长蛋白里的多肽数目较多 即以概率来算 匹配上的几率也会比较大 质量纹算法必须考虑这个问题 给短蛋白一定的补偿 多个蛋白的情况 第三个问题就是在一张质谱图中可能有多个蛋白存在 通常 MALDI TOF是与双向电泳连接使用 双向电泳的一个电泳点上可能有2 3个蛋白 这样就增加了鉴定的难度 由于无法预知一个电泳点上有多少蛋白质 PMF的效果可能会受到很大的影响 多肽质量纹 小结 质量纹算法是用一级质谱鉴定蛋白质的经典方法 质量纹算法比较简单 一般使用较简单的统计模型 速度一般较快 质量纹算法的效果受到很多方面的限制 首先是仪器精度的限制 其次是样品中可能有多个蛋白的限制 这使得质量纹算法不是理想的分析复杂混合物中蛋白成分的方法 返回 利用二级质谱图 我们刚才谈到了 多肽质量纹有其先天的不足 其中 最糟糕的是它不能处理多个蛋白的混合物 如果我们能够处理混合物 就可以减少很多用于纯化上的时间和精力 那么 怎么才能从混合物中鉴定蛋白呢 这就要用到二级质谱 二级质谱图 在一级质谱图中 选择其中的一个峰 对其进行CID过程 就得到一张二级质谱图 这里的假设是一级质谱中的一个峰就对应了一个多肽 实际情况可能并不是这样 先看一张二级质谱图 然后我们来解释CID过程 典型二级质谱图 CID CID 即Collision inducedDissociation 是通过撞击使得多肽的肽键断裂的过程 在做二级质谱的试验时 质谱仪选择一级质谱中的一个峰 也就是对应质荷比的这些离子 让这些离子高速撞击质谱仪中的惰性气体 使其肽键断裂 这就是CID 肽键及其断裂 一些常见的特殊情况 除了普通的肽键断裂以外 还经常有一些特殊的情况 Neutralloss 某些酸性氨基酸可能会在CID中丢失一个水分子 H2O 而碱性氨基酸会在CID中丢失一个氨分子 NH3 翻译后修饰 有时 二级质谱中需要考虑某些氨基酸可能被修饰 磷酸化 糖基化等 这些修饰可能改变残基的分子量 肽键断裂的说明 CID中 肽键的断裂方式有非常多的可能性 关于具体的断裂方式 可以去查询生物化学方面的书籍 这些问题超过了本课程的范围 通常 我们只考虑b系列和y系列 原因是我们使用的电压较低 其他系列的离子不易产生 但实际上 如果能够清楚的知道我们究竟需要考虑什么样的断裂方式 对搜索算法的设计会有很大的帮助 通过残基鉴定多肽 De novoSequencing 这种通过残基来鉴定多肽的方法被称为De novoSequencing 当我们拥有近乎完美的二级质谱图时 我们可以采用这种De novoSequencing的办法 但是 实际情况中 我们并没有完美的二级质谱图 而一点点的不完美 带来的误差是惊人的 氨基酸质量表 组合数 估计值 2020 3 18 35 可编辑 DatabaseSearching 对于一张不完美的质谱图 有这么多的组合可以生成之 但是 幸运的是 我们还有这个蛋白序列数据库 虽然组合有那么多 但是在这个数据库的限制之下 组合数就大大的减少了 所以我们可以从数据库里搜索最好的匹配质谱图的多肽 这样就有了二级质谱的数据库搜索算法 数据库搜索的基础 数据库搜索的基础很简单 就是理论质谱图和试验质谱图之间的一个比对 我们刚才讨论了CID的过程 所以我们知道了残基产生的规律 那么 利用这些规律 我们可以对每个多肽产生一张理论的质谱图 用来和试验质谱图进行比对 对它们 相似 的程度做一个评分 分数最高的多肽 我们就认为它是试验质谱图代表的多肽 理论质谱图和试验质谱图 数据库搜索的流程 在一个蛋白序列数据库中 可以找出来的 落在质谱仪质量范围以内的多肽多达数百至数千万 如果每个多肽都拿来和试验质谱图做比对的话 需要花费的时间是难以接受的 提高搜索速度的关键就是减少搜索的对象数 数据库搜索的流程 所以 基本上 所有的数据库搜索算法都包括两个步骤 第一个步骤是筛选数据库里的多肽 找出所有有可能与质谱图匹配的多肽 第二个步骤就是拿这些选出来的多肽去和质谱图进行比对 并输出最高分值的多肽作为一个PSM Peptide SpectrumMatch 常用的搜索算法 常用的二级质谱的数据库搜索算法包括 SequestMascot Sonar GutenTag OLAV ProbID Sequest 我们用Sequest作为一个例子来讲解数据库搜索算法的一般流程 Sequest是由Eng Yates等人在1994年提出的经典算法 虽然目前已经显得有些过时 但是在很多实验室中仍然是最为常用的算法 第一步 数据库初筛 首先的工作是要从数据库中找出分子量和质谱图母离子分子量相当的多肽 算法首先把数据库里的多肽做一次虚拟的酶切 对酶切得到的每一个多肽 计算其分子量 找到所有分子量与质谱图母离子接近的多肽后 准备进行匹配 第二步 质谱图预处理 对质谱图做一些预处理 可以提高算法的速度 有时还可以增加鉴定的正确率 Sequest的预处理包括 把质谱图的横坐标进行取整 质谱图的纵坐标做归一化 去除母离子正负10区域的离子 去除低丰度离子 只保留200个丰度最高的离子 第三步 PreliminaryScoring 由于精细的比较理论质谱图和试验质谱图很耗时间 Sequest使用了一种两步打分的方法 第一步的分数给的较粗 计算起来也比较快 可以用来先去掉那些不太可能得到PSM的多肽 第二步的分数则比较精细 用来最后确认哪个多肽成为最后的PSM 第三步 PreliminaryScoring Sequest中 第一步的分数叫做Sp 它的公式如下 这里的 是一个连续性的补偿因子 是immoniumions的补偿因子 Sp排名前500位的多肽进入最后一步的互相关分析 第四步 互相关分析 Sequest最主要的分数XCorr 就是从这一步得到的 首先要产生一张理论质谱图 Sequest的理论质谱图是在b系列和y系列的位置有丰度为50的峰 在b系列和y系列正负1的位置有丰度为25的峰 而在b H2O y H2O b NH3 y NH3的位置有丰度为10的峰 第四步 互相关分析 相关分析是统计中分析两个信号相似性的重要手段 一般的连续信号的互相关函数公式如下 在Sequest中 我们要处理的是离散的问题 所以 把积分号变成求和号 第四步 互相关分析 但是 单单把试验质谱图和理论质谱图做互相关是不够的 考虑下面的这种情况 归一化处理 因此 在做相关分析之前 Sequest把试验质谱图划分为10个区间 把每个区间上的最高峰的丰度归一化为50 这种归一化处理虽然是必要的 但是客观上 它造成了很多错误的PSM 因为很低的峰和很高的峰可以在相关分析中占据同等的地位 Sequest 小结 Sequest分四个步骤 1 数据库初筛2 质谱图预处理3 PreliminaryScoring4 互相关分析从Sequest中 我们可以学习到数据库搜索算法的一般流程 其中的关键就是打分算法和计算速度 一些其它的技术 去同位 一个离子的同位素会在质谱图上显示出不同的峰 峰间的距离为1 去同位就是把这些峰合并为一个峰 去同位的效果 后筛选 在以前的蛋白质组学的书籍中 大都没有提及过后筛选 似乎打出了一个分数 产生了一大堆的PSM 就万事大吉了 可是 在真实的试验中 一次试验往往会产生成千上万张质谱图 其中 大部分都属于无法鉴定的 而所有的打分算法 目标都只是 最好 的匹配质谱图的多肽 并不关心这个最好究竟好到什么程度 质量很差的质谱图 再来一张 再来一张 后筛选 在某些质谱仪中 产生的质谱图能有十分之一可以鉴定 就已经很不容易了 这样的话 我们就看到光是得到PSM是不够的 还要对这些PSM进行一次筛选 看看究竟哪些是 真 的PSM 哪些只是矬子里拔将军 Sequest的后筛选 传统方法 2000年和2001年时 有些研究组用Sequest对酵母蛋白进行了全蛋白组的分析 他们使用的后筛选是XCorr阈值 人工视谱 XCorr本身就存在着缺陷 又是一个针对于产生PSM的分数 并不完全适合作为后筛选的阈值 人工视谱过于耗时 也难以与高通量的蛋白组学方法并用 Sequest的后筛选 近两年的进展 近两年来 有数个研究组进行了后筛选的研究 形成了QScore PeptideProphet等算法 机器学习里的SVM和神经网络学习算法也被用于后筛选的研究 但目前还没有一个试验来检验这些方法到底哪个最为有效 后筛选 小结 后筛选是目前蛋白质鉴别中的一个必要环节 传统的后筛选方法基于简单的阈值和人工视谱 难以适应高通量蛋白质组学的研究 已经濒于被淘汰 新的后筛选方法基于统计模型和机器学习 但其有效性仍需进一步证明 数据库搜索 小结 数据库搜索算法的目标是在数据库中寻找与二级质谱图最好匹配的多肽 我们讲解了二级质谱的形成过程 但是实际的二级质谱并不是那么完美的 作为一个搜索算法的例子 从Sequest中可以知道搜索算法通常的步骤 后筛选是鉴定多肽过程中非常重要的一步 但目前的研究并不完善 本讲座小结 本讲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业遗址改造为绿色建筑的实践
- 工业节能技术与装备创新
- 工作中的时间偷闲术如何高效休息
- 工业设计的前沿技术与案例分享
- 工业领域中智能成型技术的创新实践
- 工作区温度与员工工作效率的关系
- 工作环境的心理舒适度提升
- 工厂自动化生产线的安全设计
- 工作汇报的技巧和策略分享
- 工程机械的智能化控制技术
- PRP治疗膝骨性关节炎临床应用
- 2024年河南省现场流行病学调查职业技能竞赛理论考试题库-上(单选题部分)
- 2025年国家开放大学《形势与政策大作业》试题与答案《形势与政策》形成性考试专题检测及大作业答案
- 浙江省金华市卓越联盟2024-2025学年高一下学期5月月考政治试题(含解析)
- 拱墅区长庆街道招聘工作人员笔试真题2024
- 无人机导航与定位试题及答案
- 《颈部肌肉与背部肌肉》课件
- 《继电器原理及其应用》课件
- 2025年浙江中考语文二轮复习热点题型专练:对联(原卷版)
- 中医药师承考试卷及答案
- 2025年上海奉贤区初三二模中考数学试卷试题(含答案详解)
评论
0/150
提交评论