R语言基础培训第二讲常用统计分析ppt课件_第1页
R语言基础培训第二讲常用统计分析ppt课件_第2页
R语言基础培训第二讲常用统计分析ppt课件_第3页
R语言基础培训第二讲常用统计分析ppt课件_第4页
R语言基础培训第二讲常用统计分析ppt课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于R的基本统计分析 内容提要 描述统计频数表分析方差分析t检验 卡方检验线性回归相关分析 描述分析 Descriptivestatistics 描述统计就是把数据集所包含的信息加以简要地概况 如计算数据的数字特征 制作频数表和频数图等等 用所获得的统计量和图表来描述数据集所反映的特征和规律 使得研究的问题更加简单 直观 描述性统计主要包括反映数据集中趋势的特征值 比如平均数 中位数 众数 分位数 数据离散程度的特征值 比如方差 标准差 值域 变异系数 和数据分布形态的特征值 比如偏度 峰度 标准差 std dev 和标准误 SE mean 标准差 std dev 真实均值 SE 样本均值 当样本含量n足够大时 标准差趋向稳定 而标准误随n的增大而减小 甚至趋于0 标准差 std dev 和标准误 SE mean 比如 某学校共有500名学生 现在要通过抽取样本量为30的一个样本 来推断学生的身高 这时可以依据抽取的样本信息 计算出样本的均值与标准差 如果我们抽取的不是一个样本 而是10个样本 每个样本30人 那么每个样本都可以计算出均值 这样就会有10个均值 也就是形成了一个10个数字的数列 然后计算这10个数字的标准差 此时的标准差就是标准误 但是 在实际抽样中我们不可能抽取10个样本 所以 标准误就由样本标准差除以样本量来表示 当然 这样的结论也不是随心所欲 而是经过了统计学家的严密证明的 SE mean std dev n1 2 在实际的应用中 标准差主要有两点作用 一是统计量样本离散程度的表征 二是用来对样本进行标准化处理 即样本观察值减去样本均值 然后除以标准差 这样就变成了标准正态分布 标准误的作用主要是用来做区间估计 常用的估计区间是均值加减n倍的标准误 例如95 的置信区间是 均值 1 96 SE 标准差 std dev 和标准误 SE mean 95 CI 假设上面这个随机抽样估计学生身高的例子 抽样100次 每次抽10个学生测量身高 均值估计值及标准误为152cm 12cm 但有时需要表示为估计量的95 的置信区间 152cm 1 96 12cm 152cm 1 96 12cm 可以解释为 如果从再从总体中抽样100次 每次抽样10个 产生100个平均值 这100个平均值将有95次落在 152cm 1 96 12cm 152cm 1 96 12cm 这个范围内 5次落在这个范围外 如果抽样次数越多 这个推断越准确 这个来源于中心极限定理的应用 任何分布 总体 抽样n次 每次抽样的和符合正态分布 通俗一点说 不管是学校的学生身高是怎么分布 每次随机抽取10个求和 抽取n次 这n个身高总和是符合正态分布的 平均身高为身高总和除于10 所以平均身高也是正态分布的 正态分布双尾95 的分界点所对应的值刚好是1 96 峰度 Kurtosis 峰度 Kurtosis 是描述某变量所有取值分布形态陡缓程度的统计量 它是和正态分布相比较的 Kurtosis 0与正态分布的陡缓程度相同 Kurtosis 0比正态分布的高峰更加陡峭 尖顶Kurtosis 0比正态分布的高峰来得平台 平顶计算公式 偏度 Skewness 偏度 Skewness 是描述某变量分布偏离正态对称性的统计量 Skewness 0分布形态与正态分布偏度相同Skewness 0正偏差数值较大 为正偏或右偏 长尾巴拖在右边Skewness 0负偏差数值较大 为负偏或左偏 长尾巴拖在左边计算公式 Skewness越大 分布形态偏移程度越大 频数表 Frequencytable 分析 频数表分析是对数据集按数据范围分成若干区间 即分成若干组 求出每组组中值 各组数据用组中值代替 计算各组数据的频数 并作出频数表 频数表分析例子 summary oats yield 计算频数A table cut oats yield breaks 40 20 0 7 round prop table A 100 2 计算频数比例 画频数表hist oats yield breaks 7 xlim c 40 180 xlab yield main Frequencychartofyield 方差分析ANOVA 方差分析是一种在若干组能相互比较的试验数据中 把产生变异的原因加以区分的方法与技术 其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显著 类型 单因素方差分析 One wayANOVA 双因素方差分析 Two wayANOVA 方差分析的基本模型是线性模型 并假设随机变量是独立 正态和等方差的 方差分析是根据平方和的加和原理 利用F检验 进而判断试验因素对试验结果的影响是否显著 单因素方差分析 TukeyHSD方法 install packages multcomp library multcomp tuk glht fit linfct mcp Treat Tukey summary tuk standarddisplaytuk cld cld tuk letter baseddisplayopar par mai c 1 1 1 5 1 plot tuk cld par opar 双因素 无重复 方差分析 多重比较 library agricolae 对A因素在a 0 05水平上进行多重比较 duncan test fit A alpha 0 05 对B因素进行多重比较 duncan test fit B alpha 0 05 重复试验的双因素方差分析 协方差分析 analysisofcovariance 协方差分析是关于如何调节协变量对因变量的影响效应 从而更加有效地分析实验处理效应的一种统计技术 也是对实验进行统计控制的一种综合方差分析和回归分析的方法 当研究者知道有些协变量会影响因变量 却不能够控制和不感兴趣时 则可以在实验处理前予以观测 然后在统计时运用协方差分析来处理 将协变量对因变量的影响从自变量中分离出去 可以进一步提高实验精确度和统计检验灵敏度 例如林木生长量与肥料的关系 施肥条件可以人工控制 但林木初始苗高 协变量 是难以控制的 通过协方差分析 消除初始苗高的影响 使得生长量在一致的基础上进行方差分析 单因素协方差分析 双因素协方差分析 例子4 4 2 为研究某杨树一年生生长与N肥 K肥及初始苗高的关系 采用正交试验设计 共设置了18个样地的栽培试验 试验因子与水平及测量结果如表4 13所示 试分析N肥 K肥及初始苗高对生长量的影响 t检验 在实际工作中 经常需要判断两个样本平均数是否差异 以了解两样本所属的两个总体平均数是否相同 检验方法可以使用t检验 对于两个样本平均数差异显著性检验 可分为非配对设计和配对设计 3 5 1单样本检验 例子4 5 1 杨树某无性系试验林造林5年后 调查树高生长量 随机抽取32棵树 调查结果如下表4 16所示 有一无性系B5的5年树龄树高 8m 试分析该试验林的树高与B5有无显著差异 25 18个草地种在放牧和不放牧样方中的生物量 kg m2 放牧对所研究草地物种生物量的影响是否显著 成对双样本t检验 卡方检验 2test 卡方检验是参照卡方分配来计算概率和临界值的统计检验 是用途很广的一种假设检验方法 分析原理 1 建立零假说 NullHypothesis 即认为观测值与理论值的差异是由于随机误差所致 2 确定数据间的实际差异 即求出 2值 3 如卡方值大于某特定概率标准 即显著性差异 下的理论值 则拒绝零假说 即实测值与理论值的差异在该显著性水平下是显著的 27 卡方检验 freq c 22 21 22 27 22 36 probs c 1 1 1 1 1 1 6chisq test freq p probs chisq test freq p probs Chi squaredtestforgivenprobabilitiesdata freqX squared 6 7 df 5 p value 0 2423 28 卡方检验 x c 100 110 80 55 14 probs c 29 21 17 17 16 100chisq test x p probs chisq test x p probs Chi squaredtestforgivenprobabilitiesdata xX squared 55 df 4 p value 2 685e 11 29 卡方检验 列联表 yesbelt c 12813 647 359 42 nobelt c 65963 4000 2642 303 chisq test data frame yesbelt nobelt chisq test data frame yesbelt nobelt Pearson sChi squaredtestdata data frame yesbelt nobelt X squared 59 df 3 p value 8 61e 13 练习四 以数据stu data csv为例 试对体重做频数分析 请分析身高是否符合正态分布 试分析性别对体重有无影响 问题4 请检验总体平均体重与60kg有无显著差异 男生和女生的平均体重有无显著差异 问题5 男女生比例是否符合1 2 1 0 练习四答案 df read csv file stu data csv header T 问题1A table cut df weight breaks 40 15 0 7 round prop table A 100 2 计算频数比例hist df weight breaks 7 xlim c 40 140 xlab weight main Frequencychartofweight 问题2shapiro test df height 问题3fit aov weight Sex data df summary fit library agricolae duncan test fit Sex alpha 0 05 groups 问题4t test df weight mu 60 alternative two sided wt m subset df weight df Sex 男 wt f subset df weight df Sex 女 var test wt m wt f 等方差检验t test wt m wt f paired F 问题5summary df Sex ct c 87 33 pt c 1 2 2 2 1 0 2 2 chisq test ct p pt 线性回归 比如产量与施肥量有关 病虫害发生时期与气温有关 小麦单位面积产量与单位面积穗数 千粒重有关 等等 因此 还需要研究两个或多个变量之间的关系 一个变量的变化受另一个或几个变量的影响 称为因果关系 利用回归分析 regressionanalysis 来研究呈因果关系的变量之间的关系 表示原因的变量为自变量 表示结果的变量为因变量 回归分析有一元和多元回归分析 3 6 1简单线性回归 35 计算校正R2 这里n是对象的数量 样点数量 m是解释变量的数量 或更准确说 是模型的自由度 只有模型自由度 m 不要比观测值的数量 n 大 保证n m 1 0 公式是有效的 多项式回归 fit lm weight N I N 2 data df 二次项回归模型summary fit 回归分析结果plot df N df weight 绘制散点图lines df N fitted fit 添加回归线添加光滑曲线require graphics plot cars main lowess cars lines cars lines lowess cars col 2 多元线性逐步回归 最优线性回归方程为 y 649 779 14 592 x1 6 841 x2 9 329 x3回归方程表明 对于川农16号小麦而言 当x2和x3固定时 穗数x1每增加1万 亩 产量y将平均增加14 592Kg 亩 当x1和x3固定时 每穗粒数x2每增加1粒 产量y将平均增加6 841Kg 亩 当x1和x2固定时 千粒重x3每增加1g 产量y将平均增加9 329Kg 亩 自变量的作用主次 第一种方法 计算通径系数 pathcoefficient p df 2round coef lmfit 3 Intercept x1x2x30 0000 7770 4100 609第二种方法 根据x1 x2 x3回归系数的t值大小 也可判断自变量x的主次顺序 凡是t值较大者就是较重要的因子 结论 自变量x的主次顺序为 穗数x1 千粒重x3 每穗粒数x2 交互作用多元线性回归 练习四 以数据stu data csv为例 试对体重做频数分析 请分析身高是否符合正态分布 试分析性别对体重有无影响 问题4 请检验总体平均体重与60kg有无显著差异 男生和女生的平均体重有无显著差异 问题5 男女生比例是否符合1 2 1 0 练习四答案 df read csv file stu data csv header T 问题1A table cut df weight breaks 40 15 0 7 round prop table A 100 2 计算频数比例hist df weight breaks 7 xlim c 40 140 xlab weight main Frequencychartofweight 问题2shapiro test df height 问题3fit aov weight Sex data df summary fit library agricolae duncan test fit Sex alpha 0 05 groups 问题4t test df weight mu 60 alternative two sided wt m subset df weight df Sex2 1 wt f subset df weight df Sex2 2 var test wt m wt f 等方差检验t test wt m wt f paired F 问题5summary df Sex ct c 87 33 pt c 1 2 2 2 1 0 2 2 chisq test ct p pt 相关分析 相关关系是指两个变量的数值变化存在不完全确定的依存关系 它们之间的数值不能用方程表示出来 但可用某种相关性度量来描述 按照相关程度 完全相关 不完全相关和不相关 按照相关方向 正相关和负相关 按照相关形式 线性相关和非线性相关 按涉及变量的多少 一元相关和多元相关 按影响因素 单相关和复相关 Pearson Spearman和Kendall相关 Pearson相关是积差相关 衡量两个定量变量之间的线性相关程度 可描述两个正态分布变量间线性相关关系的密切程度 Spearman相关是等级相关 衡量分级定序变量之间的相关程度 Kendall相关 也是一种非参数的等级相关 当两变量不符合正态分布时 变量间的关系应通过计算Spearman或Kendall相关来考察 cor 函数可以计算上述三种相关系数 cov 函数可以计算协方差 这两个函数的使用模板为 cor X use A method B X是数据集 默认情况下 A是 everything 所有观测值 B是 pearson 46 Pearson积矩相关系数 相关系数r的显著性检验可以用t检验 47 Spearman 48 49 例子4 8 1 1 在某杉木林分内随机抽取30棵树 测定了树高h m 胸径dbh cm 材积v m3 心材比例cpro 木材基本密度wd kg m3 木材吸水率wpro 管胞长度tl m 管胞宽度tw m 和管胞长宽比lrt 测试结果如表4 29所示 试分析各性状之间的相关系数 偏相关 Partialcorrelation 偏相关是描述在控制一个或多个定量变量保持不变时 指定的两个变量之间的相关关系 ggm包中的pcor 函数可以计算偏相关 函数pcor 的使用格式为 pcor u S u是一个数值向量 前两个数值表示要计算相关系数的变量的下标 其余的数值为保持不变的变量的下标 S是变量的协方差矩阵 函数pcor test 的使用格式为 pcor test r q n r是偏相关系数值 q是控制变量的数量 n是样本大小 仍以例子4 8 1 1的数据集为例 进行偏相关系数计算 并检验其显著性 library ggm source http bioconductor org biocLite R pcor c 1 3 2 cov df pcor test 0 58 1 30 相关显著性的检验 cor test 函数可以对单个pearson spearman和kendall相关系数进行检验 cor test 函数的使用方法如下 cor test x y alternative method 虽然cor test 函数可以检验相关的显著性 但每次只能检验一个相关值 如果需要检验多个相关时 可使用psych包中的corr test 函数 corr test 函数的使用方法如下 corr test x y use method corr test df use complete Call corr test x df use complete Correlationmatrixhdbhvcprowdwprotltwlrth1 000 860 90 0 43 0 290 32 0 20 0 04 0 17dbh0 861 000 98 0 41 0 350 39 0 18 0 15 0 07v0 900 981 00 0 43 0 380 43 0 20 0 11 0 12cpro 0 43 0 41 0 431 000 22 0 250 18 0 080 20wd 0 29 0 35 0 380 221 00 0 98 0 09 0 080 00wpro0 320 390 43 0 25 0 981 000 02 0 020 01tl 0 20 0 18 0 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论