




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蛋白质质谱高通量分析平台 文献:蛋白质质谱高通量分析平台的建立 及其在消化道肿瘤中的应用性研究 作者:余捷凯 学校:浙江大学 发表时间:2006-06-01 内容简介 一、血清蛋白质质谱标准化方法的建立 二、建立蛋白质质谱高通量数据分析平台 三、蛋白质质谱标准化分析平台的验证及其 在 大肠癌中的应用 四、蛋白质质谱标准化方法分析平台在其他 消 化道肿瘤中的应用研究 五、肿瘤特异性标志物鉴定 1. 简介 2. 数据预处理 去除噪音和基线, 局部极值法和信噪比过滤寻找峰, 峰的重复性比较, 不同样本中同一个峰聚类成簇 , 强度均一化 , 数据标准化 3. 候选肿瘤标志物的筛选 建立蛋白质质谱高通量数据分析平台 一.简介 简介 蛋白质组学质谱数据是做了必要处理的生 物样本经过飞行时间质谱仪产生的。 质谱仪输出的数据是一系列质荷比及其对 应的观测信号强度的数据对列表: 第一个值是质荷比,记做m/z; 第二个值是观测信号强度或谱丰度,记 做intensity. 每次测量可以产生几万至几百万个这样的 数据对。将m/z作为横坐标,intensity作为纵 坐标,整个数据对列表构成蛋白质组学谱图。 简介 传统的方法使用3个软件来完成数据分析: Proteinchip Software 3.2:calibration和 normalization; Biomarker wizard 3.1:信噪比过滤和寻 找蛋白质峰; Biomarker Patterns Software 5.0:筛选 候选肿瘤标志物并建立决策树模型。 简介 缺点:过程复杂,耗时耗力,效果不理想, 设备昂贵 二.数据预处理 应用小波变换降低噪音: 离散小波变换(DWT) 线性平移不变离散小波变换(UDWT) 1.去除噪音和基线 分别对它们去除噪音的效果做了比较。 并比较了UDWT的硬阈值和软阈值,以及阈 值的具体取值。 基线 采用局部最小(中值)线性拟和的方法来去除。 1.去除噪音和基线 1.去除噪音和基线 去除噪音和基线的效果如图: 蓝线为处理前 红线为处理后 1.去除噪音和基线 去除噪音和基线后的质谱数据用局部极值法结合信 噪比过滤可以很好的寻找蛋白质峰。如下图所示: a为原始图谱,b为局部极值法扫描图, c为信噪比5,d为信噪比为3 2.局部极值法和信噪比过滤寻找峰 结果显示,这部分数据用信噪比为3(图d), 可以得到较好的蛋白质质峰。 2.局部极值法和信噪比过滤寻找峰 以此方法找到的峰总共为在80%以上的样本 中均出现的为64个; 而传统方法在80%以上的样本中均出现的样 本数仅为17个。 重复性总体上提高了60% 3.找到的峰的重复性比较 这里以0.3%为分子量的偏差范围来聚类, 即在平均分子量前后0.3%的峰都认为是同 一个。 并将那些只在10%以下的样本中出现的峰进 一步过滤掉,因为它们可能是个别实验的误 差引起的。 4.不同样本中同一个峰聚类成簇 传统方法都是用Proteinchip Software 3.2软件的total ion normalize来实现样本间的均一化,但是用总离子 强度的均一化会将噪音也作为其均一化的一部分, 直接导致蛋白峰均一化的减弱。 本研究改进了方法,只对以上步骤找到的峰簇进行 均一化,消除了噪音对强度均一化的影响。 5.强度均一化 将原始数据标准化到-1,1的范围内,这将使接下 来的模型分析的准确率有所提高。 Pn=2*(p-minp)/(maxp-minp)-1 Pn为标准化后的数据, p是标准化前的数据, minp为标准化前数据中的最小值, maxp为标准 化前数据中的最大值。 6.数据标准化 三.候选肿瘤标志物的筛选 特征提取的必要性: 第一.大部分蛋白质峰(特征)对肿瘤与正常组织之 间的分类问题不提供有用信息 第二.这些无用特征将会给系统引入干扰 第三.特征提取有助于克服模型的过适应现象 第四.客观上在临床需要用最少的标志物达到最佳差 别效果 特征提取的策略主要分为模型依赖型方法和过滤 方法。 本研究采用了过滤法和模型依赖法相结合的策略 。 过滤的过程采用秩和检验,将P值小于0.05 的作为没有差异表达的蛋白质峰直接过滤掉 。 统计过滤后留下的特征向量进一步用模型依 赖法筛选。这里采用的是遗传算法结合模式 识别的方法,这是一种全局最优化策略。 遗传算法基本要素: 参数编码为染色体(这里把蛋白质峰是否被 选中作为染色体结构特征); 初始群体的设定; 适应度函数(这里采用模式识别的预测效果 ); 选择、杂交和变异策略; 控制参数(终止条件等)。 分别将蛋白质峰编码为染色体,每个染色体的每个 等位基因都由0或1组成,对应的蛋白质峰即为没有 选中和选中。 遗传算法的适应度函数为平均正确率,设置种群大 小为100(即每代中有100个个体),变异率为0.1( 较高的变异率,为了得到更多样性的个体),交叉 率0.8. 以甲状腺癌和甲状腺结节的区分为例,通过秩 和检验过滤法,得到蛋白质峰共14个。 将染色体的不同编码作为遗传算法的不同个体,通 过选择、杂交和变异等遗传方法产生下一代,最后 筛选出适应度最好(具有最好的预测效果)的群体 和个体。 遗传算法结合模式识别的筛选方法包括了建立 模型的模式识别系统。 遗传算法的适应度函数为10倍交叉验证支持向 量机(SVM)、神经网络模型(ANN)和判 别分析(DA)中的一种。 遗传算法结合支持向量机、判别分析和人工神经网 络模型的比较: 从以上的图表中可以看到人工神经网络的个体重复 性很差,而且计算很耗时,而遗传算法结合判别分 析预测的准确率也不如支持向量机,因此本研究将 遗传算法结合支持向量机模型作为最终
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福建省厦门市事业单位工勤技能考试题库及答案
- 2025年机关单位面试高频题及答案解析
- 2025年度有色金属冶炼企业生产管理系统升级合同担保协议
- 2025年老旧小区改造工程装修施工与监理合同
- 2025年生物制药研发项目合作投资合同
- 2025年特色火锅店租赁合同(包含厨师培训与食材供应链服务)
- 2025年绿色环保型生物质能锅炉安装项目施工合同
- 2025年21世纪不动产品质精装修二手房买卖合同
- 2025年度跨境电商物流服务合同含多式联运方案及费用分摊细则
- 2025年新能源电动汽车销售合同及长期维护保养服务条款
- 设备搬迁调试协议合同书
- 中证信息技术笔试题库
- 监护学徒协议书范本
- 办公楼维修改造施工方案
- 集团海外业务管理手册(专业完整格式模板)
- 高危儿培训计划和方案
- 2025年公文写作基础知识竞赛试题库及答案(共120题)
- ISO9001 质量管理体系全套(质量手册+程序文件+表格记录全套)
- 路灯CJJ检验批范表
- 肛肠科年度汇报总结
- 鸡蛋合作合同范本
评论
0/150
提交评论