R软件在生物学分析中的应用-百替生物.ppt_第1页
R软件在生物学分析中的应用-百替生物.ppt_第2页
R软件在生物学分析中的应用-百替生物.ppt_第3页
R软件在生物学分析中的应用-百替生物.ppt_第4页
R软件在生物学分析中的应用-百替生物.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Genomicresponsesinmousemodelsgreatlymimichumaninflammatorydiseases,Genomicresponsesinmousemodelspoorlymimichumaninflammatorydiseases,vivian,R语言在生物学中的应用,与起源于贝尔实验室的S语言类似,R也是一种为统计计算和绘图而生的语言和环境。,相比于Excel,SPSS,Minitab,SAS,Stata,R有其独特的优势:完全免费几乎任何类型的数据分析都能在R中得到解决拥有顶尖水准的绘图功能进行交互数据分析和探索的强大平台可使用一种简单而直接的方法编写新的统计方法,R简介,典型的数据分析步骤,1.最新的方法进行数据分析2.有意义有吸引力的图形化方式展示结果,当代研究需要:,正是一个适合完成以上目标的理想而又功能全面软件,第一大功能绘图,散点图添加了最佳拟合线性直线和平滑曲线,各子集通过不同颜色和不同符号加以区分,并同时绘制线性拟合和平滑拟合曲线,散点图,利用代码将变量重新排序,相关性最高离主对角线越近,红色表明相关性大,简单相关关系图,散点图矩阵,添加了垂直线和阴影,利用多元回归方程,添加了一个平面预测值,3D散点图,相关图:通过相关系数矩阵图,可以回答被考察变量与其他变量间相关性强弱,相关变量是否以某种特定的方式聚集在一起等问题。,矩阵的行和列通过主成分分析法进行了排序,斜杠指向表明正负相关,颜色深浅表示相关性大小,相关关系图,按船舱等级、乘客性别和年龄层绘制的泰坦尼克号幸存者的马赛克图,马赛克图,第二大功能数据分析,计算描述性统计量,summary()sapply()describe()stat.desc(),分组计算描述性统计量,aggregate()by()summaryBy()describe.by()reshape包,独立性检验,chisq.test()fisher.test()mantelhaen.test(),计算相关系数,Pearson相关系数Spearman相关系数Kendall相关系数polychoric相关系数polyserial相关系数偏相关系数,非参数检验,wilcox.test()kruakal.test()friedman.test(),基本统计分析,简单线性回归多项式回归多元线性回归交互项多元回归,正态性独立性线性同方差性,选择最佳回归模型,anova()赤池信息准则:AIC()逐步回归:tepAIC()全子集回归:regsubsets(),k重交叉验证:crossval()相对权重:relweights(),回归,离群点:outlierTest()高杠杠值点:hat.plot强影响点:cooksD,模型比较,变量选择,OLS回归,回归诊断,异常观测值,深层次分析,单因素方差分析单因素协方差分析双因素方差分析重复测量方差分析多元方差分析用回归来做ANOVA,方差分析,1.“我的研究到底需要多少个受试者呢?”2.“对于我的研究,现有x个受试者,这样的研究值得做吗?”,给定置信度的情况下,可以:1.判断检测到给定效应值时所需的样本量。2.计算某样本内能检测到给定效应值的概率。,功效分析,Question,Answer,功效分析,数据来自未知分布,存在严重的离群点,样本量过小,没有参数可以回答你所感兴趣的问题时,置换检验法与自助法无疑是非常实用的。,重抽样与自助法,Logistic回归二值型结果变量,泊松回归计数型结果变量,广义线性模型,对于处理潜变量的统计模型,即处理那些你坚信存在并能解释可观测变了的无法被观测到的、理论上的变量。在R中,可以利用因子分析法检测和检验这些无法被观测到的变量的假设。,主成分和因子分析,用R进行基因芯片数据分析处理,举例,基因芯片扫描图像,如果芯片图像有斑块现象就很可能是坏片,对灰度值做简单的统计分析,箱线图,Histogram图,MA-plot分析,IQR差别大的芯片可能有问题,但芯片能不能用得看具体情况(参考其他指标)而定,RNA降解分析,理想状况下各样品的线(分段)是平行的。从上面图上看芯片1可能有点问题,用simpleaffy包进行分析,平均背景值,如果太大则表示可能有问题,affy建议每个样品间的scalefactor差异不能超过3倍,表达基因所占的比例,太小则表示有问题,第二步芯片数据预处理,虽然说是背景处理,但是这一步既处理背景值,又处理噪声信号。芯片的背景处理理论上很简单,因为Affy公司设计MM的目的就是检测非特异杂交信号,但是研究发现居然有多达30%的MM探针获得的信号强度比相应PM探针的还强。R软件包affy用于芯片背景噪声消减的函数是bg.correct(),而MAS和RMA方法是最常用的两种方法。,背景处理,Affy芯片数据的预处理一般有三个步骤:1.背景处理(backgroundadjustment)2.归一化处理(normalization,或称为“标准化处理”)3.汇总(summarization)最后一步获取表达水平数据。需要说明的是,每个步骤都有很多不同的处理方法(算法),选择不同的处理方法对最终结果有非常大的影响。选择哪种方法是仁者见仁智者见智,不同档次的杂志或编辑可能有不同的偏好。,归一化处理,同一个RNA样品用相同类型的几块芯片进行杂交,获得的结果都不可能完全相同,甚至差别很大。为了使不同芯片获得的结果具有可比性,必需进行归一化处理。这一步的方法也很多。,线性缩放方法非线性缩放方法分位数方法,其他,如Cyclicloess和Contrasts方法,背景校正,汇总,常用的汇总方法是medianpolish,liwong和mas,获取差异表达基因,计算基因表达量,运用exprs函数就可以从eset数据中提取出表达量,得到的数据类型是矩阵。但是应该注意rma的eset结果是经过对数变换的,而mas5的eset结果是原始信号强度。,计算均值,计算表达量差异倍数(1h,24h和7d与0h对比),筛选表达基因,获取差异表达基因,生物学数据分析时的差异应该有两个意思,一是统计学上的差异,另外一个是生物学上的差异。差异表达基因的选取一般设置至少两个阈值:基因表达变化量和统计显著性量度(p值、q值等)经常使用的筛选阈值是表达量变化超过2倍,即|log2(fc)|=log2(2),简单t检验,Wilcoxonssigned-ranktest中的parison,ModeratedTstatistic,拟南芥基因数据库中,有PATH注释的probesets只有30

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论