数据驱动建模:奇异值分解与主成分分析.ppt_第1页
数据驱动建模:奇异值分解与主成分分析.ppt_第2页
数据驱动建模:奇异值分解与主成分分析.ppt_第3页
数据驱动建模:奇异值分解与主成分分析.ppt_第4页
数据驱动建模:奇异值分解与主成分分析.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据驱动建模:奇异值分解与主成分分析data-drivenmodeling:singularvaluedecomposition(SVD)andprincipalcomponentanalysis(PCA),“Omics”:海量数据,microarray:在N个样本中同时监测M个基因的表达水平数据量:MxN未考虑关于N个基因的背景知识,问题,如何刻画数据的主要变化趋势?个别基因与主要趋势如何联系?如何用“最少数量”的独立参数(最少的假设),来代表数据中“有意义”的信息?,假设:k种相互独立的调控机制,其相对贡献:j对每个基因的影响:Uj(有M个分量)对每个实验条件的影响:Vj(有N个分量),N组(不同条件下)近似观察结果:,?与每组观察结果对应的体系状态参数,复习,线性组合、线形空间向量的内积,正交向量、基矢量线性变换与矩阵乘法,SVD是什么?,考虑MxN的矩阵A,数据压缩与数据过滤,小的奇异值代表误差,example,奇异值分解与几何变换:A的“大小”(范数),x,b=Ax,奇异值分解与线形方程组,奇异值为零和不为零的U(V)向量将M(N)维线性空间分为U0(V0)和U1(V1)两个互相正交的子空间。V0:A的零空间U1:A的定义域,例子:代谢流量平衡,可能的稳态流量是零空间的向量,线性最小二乘拟合,理想模型,实际观察,误差最小的结果,Backtogeneexpressiondata,在N个样本中同时监测M个基因的表达水平数据量:MxN基因表达矩阵,M个基因的表达水平不一定是相互独立的N个样本不一定是相互独立的,基因和样本之间是如何关联的?,uj:“eigengene”vj:“eigenexpression”,含义?,“eigengene”jisonlyexpressedinthejth“eigenarray”withexpressionlevelj,假设所有观察数据受到k种互相独立的调控机制的影响。每种调控机制对各个基因表达的影响:ujuj系数:相对强度和相位(对基因归一化)不同调控机制对表达数据的贡献:j每种调控机制对各个样本的贡献:vjvj的系数:相对强度和相位(对样本归一化),例子:出芽酵母细胞周期基因表达数据驱动建模(PNAS,2000,10102),390min/30min(14samples)6109openreadingframes(ORFs),5981geneswithcompletedata表达数据:5981x14,SVD,SVD-originaldata,最大奇异值90%的表达水平,timeinvariant(vjconstant),表明:样本是在稳态基础上的小的变化,SVD-originaldata,Thesecond,third,andfourtheigengenes,whichshowoscillationsduringthecellcycle,captureabout3%,1%,and0.5%oftheoverallrelativeexpression,respectively.,datanormalizationbySVD,SVD-filter2,filter1,SVD-filtereddata,expandtorealgenes/realmechanisms,eigenarray,eigengeneregulatorymechanisms,14samplescorrelationswithtwoeigenarrays,Sortingthegenes,主成分分析(principalcomponentanalysis,PCA),高维数据-低维数据,N组观察数据每组观察M个变量(数据是M维的)希望用LM个变量来代替原来的数据,1、计算M个变量间的协方差矩阵,PCA,2、协方差矩阵对角化,PCA,3、本征值排序,4、变量替换,PCA变换的性质,1、新的数据分量是正交的,2、如果保留全部非零本征值,总协方差不变,数据分析中的应用,数据投影(可视化)/聚类,每个基因:多个样本表达数据(N)(M)样本之间的协方差矩阵-主成分(每个样本的加权)-用多个组合样本中表达数值描述每个基因基因之间的协方差矩阵-主成分(每个基因的加权)-用多个基因表达的组合数据来描述每个样本,320genes,7sampl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论