代谢组学的数据分析技术_第1页
代谢组学的数据分析技术_第2页
代谢组学的数据分析技术_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

代谢组学的数据分析技术 摘要:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定 量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。 其研究对象大都是相对分子质量 1000 以内的小分子物质。先进分析检测技术结合模式识别 和专家系统等计算分析方法是代谢组学研究的基本方法。文章主要综述了将代谢组学中的 图谱、数据信息转换为相应的参数所采用的分析方法。 关键词:代谢组学;数据分析方法 代谢组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质,评价 细胞和体液内源性和外源性代谢物浓度及功能关系的新兴学科,是系统生物学的重要组成 部分,其相应的研究能反映基因组、转录组和蛋白组受内外环境影响后相互协调作用的最 终结果,更接近反映细胞或生物的表型,因此被越来越广泛地应用。而代谢组学的数据分 析包括预处理和统计分析方法,多元统计分析方法主要分为两大类:非监督和监督方法, 非监督方法包括主成分分析 PCA;聚类分析 CA 等;监督方法包括显著性分析、偏最小二 乘法等,本文就是主要综述代谢组学图谱信息转化为参数信息所采用的数据分析方法。 1 预处理 数据的预处理过程包括以下:谱图的处理;生成原始的数据矩阵;数据的归一化以及标准 化处理过程。针对实验性质、条件以及样品等因素采用不同的预处理方法。在实际应用过 程中,预处理可以通过实验系统自带的软件如 XCMS 软件。进行,因此一般较容易获得所 需的数据形式。 2 数据分析方法 2.1 主成分分析 PCA 是多元统计中最常用的一种方法,它是在最大程度上提取原始信息 的同时对数据进行降维处理的过程,其目的是将分散的信息集中到几个综合指标即主成分 上,有助于简化分析和多维数据的可视化,进而通过主成分来描述机体代谢变化的情况。 PCA 的具体过程是通过一种空间转换,形成新的样本集,按照贡献率的大小进行排序,贡 献率最大的称为第一主成分,依次类推。经验指出,当累计贡献率大于 85时所提取的主 成分就能代表原始数据的绝大多数信息,可停止提取主成分。在代谢组数据处理中,PCA 是最早且广泛使用的多变量模式识别方法之一。,具有不损失样品基本信息、对原始数据 进行降维处理的同时避免原始数据的共线性问题等优点,但在实际应用过程中,PCA 存在 着自身的缺点1:离群样本点的存在严重影响其生物标志物的寻找;非保守性的代谢组分 扰乱正确的分类以及尺度的差异影响小浓度组分的表现等,其他的问题之前也有讨论2。 针对 PCA 的缺陷采用了不同的改进措施,与此同时,为了简化计算,侯咏佳等3。提出 了一种主成分分析算法的 FPGA 实现方案,通过 Givens 算法和 CORD IC 算法的矢量旋转, 用简单的移位和加法操作来实现协方差矩阵的特征分析,只需计算上三角元素,因此计算 复杂度小、迭代收敛速度快。 2.2 聚类分析 CA 是用多元统计技术进行分类的一种方法。其主要原理是:利用同类样本 应彼此相似,相类似的样本在多维空间里的彼此距离应较小,而不同类的样本在多维空间 里的距离较大。具体的做法是先将每个样本自成一类,选择距离最小的一对并成一个新类, 计算新类与其他类之间的距离,再将距离最小的两类并为一类,直至所有样本都成为一类 为止。目前多维空间里的两样本距离的算法主要有:欧氏距离、闵氏距离、马氏距离等, 其中以欧氏距离最常用。 2.3 判别分析 DA 又称分辨分析或分辨法,是在一系列多因子(xi) 观测值的基础上,对事物 的属性差别进行分类或分辨的统计学法,主要用于定性预测。其基本方法是根据样品的 P 个测定指标,对一批位置样品进行分类;前提是已知一些样品的分类,然后根据 P 个测定 指标来确定未知样品究竟归属哪一类。在判别分析中,判别函数有最佳型判别函数和固定 型判别函数两类。目前,判别分析的准则和方法亦有许多,如马氏距离判别法、Fisher 判 别法、Bayes 判别法、逐步判别法等等。 2.4 偏最小二乘法 PLS 是 SWold 和 CAlbano 等19 1983 年首次提出的回归方法。它在克服 自变量多重相关性的情况下,能对较少的样本量进行建模以及有效的筛选。叶莺等4实验 证明,与一般最 Jb-乘法及 PCA 相比,PLS 计算所得的拟合残差最小,稳定度最高,能 改善各变量的作用方向并使其更符合专业解释,成为模型变量筛选的有效工具。其基本原 理如下:将数据进行中心化和标准化,形成自变量和因变量的矩阵;求协方差矩阵, 并根据协方差求其最大特征值对应的特征向量;通过检验交叉有效性来确定提取成分的 个数;求相应的回归方程及相应的回归系数,最后还原回归模式。 在数据处理过程中,PLS 提供了一种多对多线性回归建模的方法,特别当两组变量的个数 很多,且都存在多重相关性,而观测数据的数量又少时,采用 PLS 建立的模型具有独特的 优点。对于解释变量个数大于观察个体数相当有效21。具有 PCA、典型相关分析和多元 线性回归分析的优点5。 2.5 其他在代谢组学的研究中,除了以上所提及的分析方法外,还有非线性映射(NLM)、k 最邻近法(K NN)、正交偏最小二乘法- 判别分析(OPLSDA)、系统聚类法(Hierachical clustering Method)HCM 以及非负矩阵分解(NMF)等模式识别技术用于其数据分析。 NLM 是 解决非线性问题的模式识别方法;KNN 用于非参数的模式识别;OPL$ 一 DA 可以直接显 示组内哪些代谢物升高或降低,而 NMF 与 PCA 比较,在可分性方面更容易解释,并且更 适用于代谢组学数据的处理。 在实际数据分析应用过程中,由于不同的模式识别技术适用范围和优缺点各不相同,例如 PCA 是代谢组学中最常规的分析方法,能找出各主成分就能进行数据降维,但可能导致一 些有用数据的丢失;P1S 用于建立预测回归方程,但只能作定性分析,并尽量减少解释 变量;而 ANN 在处理规律不明显、组分变量多的问题方面却具有特殊的优越性。因此必 须将他们有机结合起来,并寻找更多更有效的统计分析方法,从而为代谢组学的数据进行 有效的处理提供很好的平台。出 4 种相当重要的代谢物:苹果酸、柠檬酸、葡萄糖和果糖。 3 总结 随着代谢组学的日益发展,越来越多的人把目光转向代谢组学的研究,而其数据处理也已 经成为研究中重要的难题。虽然目前国内外代谢组学的研究已经取得了一些成果,但由于 其尚未有功能完备的数据库,数据分析受到一定的限制。与此同时,生物样本的复杂性使 得代谢组学的研究难以达到分析全部的组分以及所有的代谢成分的要求,这就需要进一步 发展高通量、高效、快速的以及整合化的仪器分析技术,开发能满足全组分分析的算法和 软件,将仪器分析技术、数据处理技术、多元统计分析技术以及可视化软件有机结合起来, 以更好地促进代谢组学的发展。 12 李晶,吴晓健。刘昌孝,等代谢组学研究中数据处理新方法的应用J药学学报, 2006,41(1):47. 13 白雪梅,赵松山对主成分分析综合评价方法若干问题的探讨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论