基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析.doc

上传人：灯*** IP属地：河北上传时间：2020-01-04 格式：DOC 页数：5 大小：30.50KB 积分：12 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析作者：董乃平李洪东梁逸曾【摘要】 SEQUEST与Mascot为目前蛋白组学分析研究中使用最为广泛的蛋白质库搜索工具。尝试将Mascot与SEQUEST搜索结果进行比较，进而采用不同多变量判别方法对二者的搜索结果进行判别分析，以降低其结果的假阳性率。通过对Mascot与SEQUEST搜索结果进行比较，发现所得结果差异很大;利用多变量判别分析方法对Mascot及SEQUEST搜索结果进行判别分析，可有效提高SEQUEST结果中假阳性结果与正确结果之间的区分能力。对于Mascot搜索结果，采用多变量判别分析方法仍无法显著降低其假阳性结果，利用Decoy库搜索结果进行估计时亦存在导致错误估计的风险。【关键词】蛋白质库搜索算法, 串联质谱, 多变量判别分析, Decoy蛋白质序列库 1 引言在复杂蛋白质样品的定性定量分析中，质谱技术已日益成为最重要的分析方法之一13。混合蛋白质样品由特定蛋白酶酶解得到多肽混合物，进入液相色谱(LC)分离，经一级质谱检测获得分离后多肽分子离子信息，从其中选择若干分子离子，每一个分子离子经碰撞诱导解离(Collision Induced Dissociation，CID)得二级质谱(MS/MS)谱图，获得该分子离子的碎片离子信息。对MS/MS谱图进行解析，即可得多肽离子的序列信息，反推得该多肽所属蛋白质序列，从而完成蛋白质定性。为了使高通量LCMS/MS数据得到快速有效分析，采用蛋白质库搜索以定性蛋白质成为当前蛋白组学研究中最主要的方法4。该方法主要有3种方式：一是肽质量指纹图谱(Peptide Mass Fingerprint, PMF)库搜索，二是利用MS/MS数据对蛋白质库进行匹配搜索，三是肽序列标签查询。然而如何快速有效分析高通量MS/MS数据，准确定性样品中的蛋白质，仍然是蛋白组学研究中必须解决的一个问题5。本文仅对MS/MS数据搜索蛋白质库所得到的匹配结果进行了研究。目前常用的数据库搜索算法主要有SEQUEST6，Mascot7，X!tandem8，OMSSA9，Phenyx10等。这些算法的应用使MS/MS数据快速分析进而鉴定蛋白质成为可能。但是，由于各种搜索工具本身存在的缺陷11，及蛋白质数据库构建的不完善12，使得采用蛋白质数据库搜索的方法可能得到大量假阳性结果，导致高误判率。为消除或减少假阳性结果的影响，一些统计学方法被应用于其中，包括基于机器学习的模式识别方法13,14，基于统计模型的概率估计方法15，以及基于结合不同MS/MS分析工具鉴定多肽的方法 16,17等。这些统计学方法对搜索结果虽可有所改善，但由于错误结果的得分与正确结果的得分之间存在交叉，从而限制了这些方法的应用 18。因此，在蛋白质组学的蛋白质定性分析过程中，需要发展更有效的方法，使其具有更高的可靠性。本研究在对Mascot与SEQUEST搜索结果进行比较分析的基础上，采用Lasso(Least absolute shrinkage and selection operator)19，偏最小二乘线性判别分析算法(PLSLDA)和支持向量机20(SVM) 等在化学计量学中得到广泛使用的判别分析算法，分别对Mascot及SEQUEST搜索结果进行挖掘分析;同时,也采用翻转(Decoy)蛋白质库搜索结果对Mascot搜索结果进行错误发现率(FDR)估计。2 实验部分2.1 数据采集数据集下载自/PublicDatasets/21。该数据将18种标准蛋白质混合样品经8种LCMS/MS仪器，包括(两种线性离子阱(Linear ion traps)、两种3D 离子阱(3D Ion traps)、两种QTOF(Quadrupole timeofflight)和两种MALDITOFTOF检测所得，是一组难得的进行蛋白组学分析研究的标准数据。本研究取3D离子阱的LCMS/MS (Thermo Electron LCQ DECA)所采集数据进行分析。SEQUEST搜索结果数据由Klimek等搜索H.influenzae数据库所得21。10次重复实验共得到60700个搜索结果，正确匹配结果数为15247个。Mascot()的搜索结果由同一组LCMS/MS数据搜索SwissProt (SwissProt 55.5)蛋白质数据库得到。Mascot为其在线免费的搜索引擎，搜索参数：多肽质量误差限为3，MS/MS碎片质荷比误差限为1，蛋白质酶为胰蛋白酶(Trypsin)，数据导出时pvalue<0.05，导出格式为csv格式。所有的参数与John等所提供的一致, 搜索共得10482个结果，正确匹配结果为1258个。2.2 变量选择SEQUEST搜索结果存于html文件中，按照输出结果的参数，选取 (1) dM：实际母离子与理论母离子之间的质量差;(2) Xcorr：理论质谱与实际质谱之间通过交叉相关 (Crosscorrelation) 计算所得分值;(3) dCn：最高得分与第二得分值之间的差值，并经归一化所得，即(Xcorr1-Xcorr2)/Xcorr1;(4) Sp：实验质谱与理论质谱匹配所得分值;(5) RSp：Xcorr为最高值时对应的Sp在所有结果中序号;(6) MatchIonRatio：实验质谱与理论质谱相同碎片离子数与理论质谱碎片离子总数的比值;(7) MH：母离子质量。7个参数作为变量进行判别，鉴于10次重复实验得到的都为同一模型21，因此训练集采用2次重复实验所得的搜索结果，共12087个样本，其中正确匹配样本数为3123;测试集采用1次重复实验而得的搜索结果，共5889个样本，其中正确的匹配结果个数为1390。Mascot搜索结果由csv格式导出，基于导出的结果，选取 (1) pep_rank：显示的结果在所有结果中的序号;(2) pep_exp_mz：实际的母离子质量;(3) pep_delta：实际母离子质量经转化后与理论计算所得到母离子质量之差;(4) Score：实验质谱与理论质谱的匹配得分;(5) Evalue：对Score进行显著性估计所得期望值;(6) pep_num_match: 理论质谱与实际质谱相同碎片离子个数;6个参数作为变量进行研究。训练集采用8次重复实验得到的搜索结果，共8548个样本，其中正确匹配个数为1063;训练集采用两次2次重复实验得到的搜索结果，共1934个样本，其中正确匹配结果个数为195。3 结果与讨论3.1 Mascot搜索结果与SEQUEST搜索结果的比较Mascot及SEQUEST搜索结果的统计数据见表1。由表1可见，Mascot所得到的搜索结果个数远少于SEQUEST。在每一组搜索结果中，Mascot所得的正确结果数也远低于SEQUEST搜索所得，当采用其它数据集(由Klimek等 21发布的另外两组LCQDECA数据，结果未列出)进行搜索，亦发现了类似现表1 10次重复试验的MS/MS数据分别用Mascot以及SEQUEST搜索所得到的统计结果由此可见，采用不同的打分函数对质谱匹配进行打分时，所得到的结果之间差异很大。虽Mascot正确搜索结果中有超过80%与SEQUEST正确搜索结果相符，但由于Mascot得到的结果远少于SEQUEST得到的结果，导致两种搜索算法得到的结果很难统一，在利用不同的搜索工具对蛋白质库进行搜索以验证搜索结果是否可靠时，难以得到一个综合的量化评价指标22。表2 Mascot与SEQUEST搜索结果的比较3.2 蛋白质库搜索结果的判别分析为降低搜索结果中的假阳性结果，对SEQUEST与Mascot搜索结果分别采用SVM，Lasso，LassoPLSLDA以及PLSLDA进行判别分析，并将判别分析结果与工具本身提供打分进行比较，结果见表3。从表3的结果可看出，以FDR及第二类错误率(以真当假)为标准，SVM，PLSLDA，及LassoPLSLDA所得结果都明显优于SEQUEST本身提供的得分计算所得结果。因此，采用多参数的方法进行分类可以有效消除假阳性的影响。接受者操作特性曲线(Receiver Operating Characteristic curve, ROC 曲线)的面积 (Area Under ROC Curves, AUC)是蛋白组学研究中常用的表征算法对样本进行判别分析能力的一种方式。当AUC=1时，表明该算法可以对样本进行完全区分。图1和图2分别示出了SEQUEST和Mascot搜索结果的ROC曲线及其对应得分分布图。由图1a可见，对于SEQUEST搜索结果，SVM，LassoPLSLDA，PLSLDA皆可有效降低假阳性结果，且结果改善明显，而对于Mascot搜索结果，判别分析算法虽可有效提高ROC曲线的面积，但却得到了很高的第二类错误率 (参见表3，>0.7);对Mascot的得分分布进行详查(见图2b)，发现正确结果的得分分布完全被错误结果的得分所包含。表3 利用不同的算法对Mascot及SEQUEST搜索结果进行判别分析所得到的结果3.3 Decoy蛋白质序列库匹配结果估计FDRDecoy库(Decoy Database)是将所需搜索的目标蛋白质序列库(Target Protein Database)中的氨基酸序列进行随机排列或反转而构建的虚假蛋白质序列库。Elias等23详细讨论了如何由decoy库搜索结果来估计目标蛋白质库搜索结果的FDR值。Kll等18则对SEQUEST搜索decoy库的结果估计FDR值进行了统计特性讨论，并提出利用错误结果百分率 (Percentage of incorrect targets, PIT)对估计得到的FDR值进行校正，发现在同一FDR阈值条件下经校正后可得更为可信结果。在认为搜索Decoy库所得结果全部为错误的前提下，假设在目标蛋白质库的搜索结果中得到大于得分域值St的结果数为Nnorm(t)，Decoy库的搜索结果中大于该得分域值的结果数为Ndecoy(t)，则可以利用Ndecoy(t)来估计Nnorm(t)结果的错误率，即FDR2Ndecoy(t)/(Ndecoy(t)+Nnorm(t)当确定结果中允许出现的错误率，如FDR=0.01，即允许结果中出现1%的错误时，就可根据ScoreFDR曲线来估计得分域值St，从而得到可信结果。Decoy库的概念自提出以来得到了较为广泛的应用。图3 利用Mascot搜索得到的Score得分估计FDR得到的随Score变化曲线Fig.3 FDRScore curves estimated by Mascot search results1. decoy库搜索结果经PIT校正得到的FDRScore曲线(FDRScore curves estimated by using decoy database search results with correction via PIT); 2. decoy库搜索结果估计得到的FDRScore曲线(Estimated by using decoy database search results);曲线3：实际FDRScore曲线(Curve 3: true trends of FDR)。图3为decoy库搜索结果对Mascot结果进行估计所得的FDR值随得分Score变化曲线图，并与真实的及经过PIT校正而得的FDRScore变化曲线进行比较。由图可见，在利用decoy库搜索结果对Mascot结果进行FDR估计及对其进行校正之后的曲线与真实变化曲线有非常大的偏差，从而导致错误估计。4 结论本研究比较了Mascot与SEQUEST所得的结果，再采用不同算法对搜索结果进行判别分析，考察了decoy库搜索结果对Mascot结果的估计。本研究对3D离子阱LCMS/MS所得到的

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析.doc

文档简介

温馨提示

最新文档

评论

基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析.doc

文档简介

温馨提示

最新文档

评论

相关文档