R语言基础培训-常用统计分析_第1页
R语言基础培训-常用统计分析_第2页
R语言基础培训-常用统计分析_第3页
R语言基础培训-常用统计分析_第4页
R语言基础培训-常用统计分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于R的基本统计分析内容提要描述统计频数表分析方差分析t检验卡方检验线性回归相关分析描述分析(Descriptivestatistics)描述统计就是把数据集所包含的信息加以简要地概况,如计算数据的数字特征、制作频数表和频数图等等,用所获得的统计量和图表来描述数据集所反映的特征和规律,使得研究的问题更加简单、直观。

描述性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、标准差、值域、变异系数)和数据分布形态的特征值(比如偏度、峰度)。标准差(std.dev)和标准误(SE.mean)标准差(std.dev)真实均值SE样本均值当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。

标准差(std.dev)和标准误(SE.mean)比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的身高。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。

SE.mean=std.dev/n1/2在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+1.96*SE)标准差(std.dev)和标准误(SE.mean)95%CI:假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为

152cm±12cm。但有时需要表示为估计量的95%的置信区间[152cm-1.96*12cm,152cm+1.96*12cm]。可以解释为,如果从再从总体中抽样100次(每次抽样10个),产生100个平均值,这100个平均值将有95次落在[152cm-1.96*12cm,152cm+1.96*12cm]这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说,不管是学校的学生身高是怎么分布,每次随机抽取10个求和,抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。峰度(Kurtosis)峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。Kurtosis=0与正态分布的陡缓程度相同。Kurtosis>0比正态分布的高峰更加陡峭——尖顶Kurtosis<0比正态分布的高峰来得平台——平顶计算公式:偏度(Skewness)偏度(Skewness)是描述某变量分布偏离正态对称性的统计量。Skewness=0分布形态与正态分布偏度相同

Skewness>0正偏差数值较大,为正偏或右偏。长尾巴拖在右边Skewness<0负偏差数值较大,为负偏或左偏。长尾巴拖在左边计算公式:Skewness越大,分布形态偏移程度越大频数表(Frequencytable)分析频数表分析是对数据集按数据范围分成若干区间,即分成若干组,求出每组组中值,各组数据用组中值代替,计算各组数据的频数,并作出频数表。

频数表分析例子summary(oats$yield)#计算频数A<-table(cut(oats$yield,breaks=40+20*(0:7)))round(prop.table(A)*100,2)#计算频数比例#画频数表hist(oats$yield,#breaks=7,xlim=c(40,180),

xlab="yield",main="Frequencychartofyield")方差分析ANOVA方差分析是一种在若干组能相互比较的试验数据中,把产生变异的原因加以区分的方法与技术,其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显著。类型:单因素方差分析(One-wayANOVA)、双因素方差分析(Two-wayANOVA)。方差分析的基本模型是线性模型,并假设随机变量是独立、正态和等方差的。方差分析是根据平方和的加和原理,利用F检验,进而判断试验因素对试验结果的影响是否显著。单因素方差分析##TukeyHSD方法##install.packages("multcomp")library(multcomp)tuk<-glht(fit,linfct=mcp(Treat="Tukey"))summary(tuk)#standarddisplaytuk.cld<-cld(tuk)#letter-baseddisplayopar<-par(mai=c(1,1,1.5,1))plot(tuk.cld)par(opar)双因素(无重复)方差分析多重比较重复试验的双因素方差分析协方差分析(analysisofcovariance)协方差分析是关于如何调节协变量对因变量的影响效应,从而更加有效地分析实验处理效应的一种统计技术,也是对实验进行统计控制的一种综合方差分析和回归分析的方法。当研究者知道有些协变量会影响因变量,却不能够控制和不感兴趣时,则可以在实验处理前予以观测,然后在统计时运用协方差分析来处理。将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度。例如林木生长量与肥料的关系,施肥条件可以人工控制,但林木初始苗高(协变量)是难以控制的,通过协方差分析,消除初始苗高的影响,使得生长量在一致的基础上进行方差分析。单因素协方差分析双因素协方差分析【例子4.4.2】为研究某杨树一年生生长与N肥、K肥及初始苗高的关系,采用正交试验设计,共设置了18个样地的栽培试验,试验因子与水平及测量结果如表4-13所示。试分析N肥、K肥及初始苗高对生长量的影响。t检验在实际工作中,经常需要判断两个样本平均数是否差异,以了解两样本所属的两个总体平均数是否相同。检验方法可以使用t检验。对于两个样本平均数差异显著性检验,可分为非配对设计和配对设计。3.5.1单样本检验【例子4.5.1】杨树某无性系试验林造林5年后,调查树高生长量,随机抽取32棵树,调查结果如下表4-16所示。有一无性系B5的5年树龄树高μ=8m。试分析该试验林的树高与B5有无显著差异?25

种类放牧不放牧Asclepias

syriaca0.0340.247Asterlaevis

0.2440.096Asterlateriflorus0.0410.146Asternovae-angliae0.3100.365Astersimplex0.0620.088Dactylisglomerata0.0010.055Fragariavirginiana0.4410.385Hieraciumpratense0.5920.626Phleumpratense0.3870.911Picrishieracoides1.3691.510Plantagolanceolata0.2600.208Poacompressa0.6100.773Poapratensis0.0540.116Solidagoaltissima0.8431.967Solidagograminifolia0.2010.097Solidagojuncea0.2780.148Solidagorugosa0.1560.197Taraxacumofficinale0.1000.151N=1818个草地种在放牧和不放牧样方中的生物量(kg/m2)放牧对所研究草地物种生物量的影响是否显著?成对双样本t检验卡方检验是参照卡方分配来计算概率和临界值的统计检验,是用途很广的一种假设检验方法。

分析原理:(1)建立零假说(NullHypothesis),即认为观测值与理论值的差异是由于随机误差所致;(2)确定数据间的实际差异,即求出χ2值;(3)如卡方值大于某特定概率标准(即显著性差异)下的理论值,则拒绝零假说,即实测值与理论值的差异在该显著性水平下是显著的。卡方检验27卡方检验28卡方检验(列联表)29练习四以数据stu.data.csv为例,试对体重做频数分析。请分析身高是否符合正态分布?试分析性别对体重有无影响。问题4:请检验总体平均体重与60kg有无显著差异?男生和女生的平均体重有无显著差异?问题5:男女生比例是否符合1.2:1.0?练习四答案线性回归比如产量与施肥量有关,病虫害发生时期与气温有关,小麦单位面积产量与单位面积穗数、千粒重有关,等等。因此,还需要研究两个或多个变量之间的关系。

一个变量的变化受另一个或几个变量的影响,称为因果关系。利用回归分析(regressionanalysis)来研究呈因果关系的变量之间的关系。表示原因的变量为自变量,表示结果的变量为因变量。回归分析有一元和多元回归分析。3.6.1简单线性回归计算校正R235这里n是对象的数量(样点数量),m是解释变量的数量(或更准确说,是模型的自由度)。只有模型自由度(m)不要比观测值的数量(n)大(保证n-m-1>0),公式是有效的。多项式回归fit<-lm(weight~N+I(N^2),data=df)#二次项回归模型summary(fit)#回归分析结果

plot(df$N,df$weight)#绘制散点图lines(df$N,fitted(fit))#添加回归线添加光滑曲线require(graphics)plot(cars,main="lowess(cars)")lines(cars)lines(lowess(cars),col=2)多元线性逐步回归最优线性回归方程为:

y=-649.779+14.592×x1+6.841×x2+9.329×x3

回归方程表明:对于川农16号小麦而言,当x2和x3固定时,穗数x1每增加1万/亩,产量y将平均增加14.592Kg/亩;当x1和x3固定时,每穗粒数x2每增加1粒,产量y将平均增加6.841Kg/亩;当x1和x2固定时,千粒重x3每增加1g,产量y将平均增加9.329Kg/亩。自变量的作用主次第一种方法:计算通径系数(pathcoefficient,p)。df.2<-as.data.frame(scale(df))#对数据集做标准化处理lmfit<-lm(y~x1+x2+x3,data=df.2)round(coef(lmfit),3)#获取标准化回归系数

#######运行结果##########>round(coef(lmfit),3)(Intercept)x1x2x30.0000.7770.4100.609第二种方法:根据x1、x2、x3回归系数的t值大小,也可判断自变量x的主次顺序,凡是t值较大者就是较重要的因子。结论:自变量x的主次顺序为:穗数x1>千粒重x3>每穗粒数x2。交互作用多元线性回归练习四以数据stu.data.csv为例,试对体重做频数分析。请分析身高是否符合正态分布?试分析性别对体重有无影响。问题4:请检验总体平均体重与60kg有无显著差异?男生和女生的平均体重有无显著差异?问题5:男女生比例是否符合1.2:1.0?练习四答案相关分析相关关系是指两个变量的数值变化存在不完全确定的依存关系,它们之间的数值不能用方程表示出来,但可用某种相关性度量来描述。按照相关程度:完全相关、不完全相关和不相关;按照相关方向:正相关和负相关;按照相关形式:线性相关和非线性相关;按涉及变量的多少:一元相关和多元相关;按影响因素:单相关和复相关。Pearson、Spearman和Kendall相关Pearson相关是积差相关,衡量两个定量变量之间的线性相关程度,可描述两个正态分布变量间线性相关关系的密切程度。Spearman相关是等级相关,衡量分级定序变量之间的相关程度。Kendall相关,也是一种非参数的等级相关。当两变量不符合正态分布时,变量间的关系应通过计算Spearman或Kendall相关来考察。cor()函数可以计算上述三种相关系数,cov()函数可以计算协方差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论