R语言基础培训常用统计分析PPT课件_第1页
R语言基础培训常用统计分析PPT课件_第2页
R语言基础培训常用统计分析PPT课件_第3页
R语言基础培训常用统计分析PPT课件_第4页
R语言基础培训常用统计分析PPT课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,基于R的基本统计分析,.,2,内容提要,描述统计频数表分析方差分析t检验,卡方检验线性回归相关分析,.,3,描述分析(Descriptivestatistics),描述统计就是把数据集所包含的信息加以简要地概况,如计算数据的数字特征、制作频数表和频数图等等,用所获得的统计量和图表来描述数据集所反映的特征和规律,使得研究的问题更加简单、直观。描述性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、标准差、值域、变异系数)和数据分布形态的特征值(比如偏度、峰度)。,.,4,标准差(std.dev)和标准误(SE.mean),标准差(std.dev),真实均值,SE,样本均值,当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。,.,5,标准差(std.dev)和标准误(SE.mean),比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的身高。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。SE.mean=std.dev/n1/2,.,6,在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+1.96*SE),标准差(std.dev)和标准误(SE.mean),.,7,95%CI:假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为152cm12cm。但有时需要表示为估计量的95%的置信区间152cm-1.96*12cm,152cm+1.96*12cm。可以解释为,如果从再从总体中抽样100次(每次抽样10个),产生100个平均值,这100个平均值将有95次落在152cm-1.96*12cm,152cm+1.96*12cm这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说,不管是学校的学生身高是怎么分布,每次随机抽取10个求和,抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。,.,8,.,9,.,10,峰度(Kurtosis),峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。Kurtosis=0与正态分布的陡缓程度相同。Kurtosis0比正态分布的高峰更加陡峭尖顶Kurtosis0正偏差数值较大,为正偏或右偏。长尾巴拖在右边Skewness0负偏差数值较大,为负偏或左偏。长尾巴拖在左边计算公式:Skewness越大,分布形态偏移程度越大,.,12,频数表(Frequencytable)分析,频数表分析是对数据集按数据范围分成若干区间,即分成若干组,求出每组组中值,各组数据用组中值代替,计算各组数据的频数,并作出频数表。,.,13,频数表分析例子,summary(oats$yield)#计算频数A-table(cut(oats$yield,breaks=40+20*(0:7)round(prop.table(A)*100,2)#计算频数比例#画频数表hist(oats$yield,#breaks=7,xlim=c(40,180),xlab=yield,main=Frequencychartofyield),.,14,方差分析ANOVA,方差分析是一种在若干组能相互比较的试验数据中,把产生变异的原因加以区分的方法与技术,其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显著。类型:单因素方差分析(One-wayANOVA)、双因素方差分析(Two-wayANOVA)。方差分析的基本模型是线性模型,并假设随机变量是独立、正态和等方差的。方差分析是根据平方和的加和原理,利用F检验,进而判断试验因素对试验结果的影响是否显著。,.,15,单因素方差分析,.,16,#TukeyHSD方法#install.packages(multcomp)library(multcomp)tuk-glht(fit,linfct=mcp(Treat=Tukey)summary(tuk)#standarddisplaytuk.cldchisq.test(x,p=probs)Chi-squaredtestforgivenprobabilitiesdata:xX-squared=55,df=4,p-value=2.685e-11,.,29,卡方检验(列联表),yesbelt=c(12813,647,359,42)nobelt=c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt)chisq.test(data.frame(yesbelt,nobelt)PearsonsChi-squaredtestdata:data.frame(yesbelt,nobelt)X-squared=59,df=3,p-value=8.61e-13,.,30,练习四,以数据stu.data.csv为例,试对体重做频数分析。请分析身高是否符合正态分布?试分析性别对体重有无影响。问题4:请检验总体平均体重与60kg有无显著差异?男生和女生的平均体重有无显著差异?问题5:男女生比例是否符合1.2:1.0?,.,31,练习四答案,df-read.csv(file=stu.data.csv,header=T)#问题1A-table(cut(df$weight,breaks=40+15*(0:7)round(prop.table(A)*100,2)#计算频数比例hist(df$weight,breaks=7,xlim=c(40,140),xlab=weight,main=Frequencychartofweight)#问题2shapiro.test(df$height)#问题3fit-aov(weightSex,data=df)summary(fit)library(agricolae)duncan.test(fit,Sex,alpha=0.05)$groups,.,32,#问题4t.test(df$weight,mu=60,alternative=two.sided)wt.m-subset(df$weight,df$Sex=男)wt.f-subset(df$weight,df$Sex=女)var.test(wt.m,wt.f)#等方差检验t.test(wt.m,wt.f,paired=F)#问题5summary(df$Sex)ct每穗粒数x2。,.,40,交互作用多元线性回归,.,41,练习四,以数据stu.data.csv为例,试对体重做频数分析。请分析身高是否符合正态分布?试分析性别对体重有无影响。问题4:请检验总体平均体重与60kg有无显著差异?男生和女生的平均体重有无显著差异?问题5:男女生比例是否符合1.2:1.0?,.,42,练习四答案,df-read.csv(file=stu.data.csv,header=T)#问题1A-table(cut(df$weight,breaks=40+15*(0:7)round(prop.table(A)*100,2)#计算频数比例hist(df$weight,breaks=7,xlim=c(40,140),xlab=weight,main=Frequencychartofweight)#问题2shapiro.test(df$height)#问题3fit-aov(weightSex,data=df)summary(fit)library(agricolae)duncan.test(fit,Sex,alpha=0.05)$groups,.,43,#问题4t.test(df$weight,mu=60,alternative=two.sided)wt.m-subset(df$weight,df$Sex2=1)wt.f-subset(df$weight,df$Sex2=2)var.test(wt.m,wt.f)#等方差检验t.test(wt.m,wt.f,paired=F)#问题5summary(df$Sex)ct-c(87,33)ptcorr.test(df,use=complete)Call:corr.test(x=df,use=complete)Correlationmatrixhdbhvcprowdwprotltwlrth1.000.860.90-0.43-0.290.32-0.20-0.04-0.17dbh0.861.000.98-0.41-0.350.39-0.18-0.15-0.07v0.900.981.00-0.43-0.380.43-0.20-0.11-0.12cpro-0.43-0.41-0.431.000.22-0.250.18-0.080.20wd-0.29-0.35-0.380.221.00-0.98-0.09-0.080.00wpro0.320.390.43-0.25-0.981.000.02-0.020.01tl-0.20-0.18-0.200.18-0.090.021.000.160.79tw-0.04-0.15-0.11-0.08-0.08-0.020.161.00-0.47lrt-0.17-0.07-0.120.200.000.010.79-0.471.00SampleSize130Probabilityvalues(Entriesabovethediagonalareadjustedformultipletests.)hdbhvcprowdwprotltwlrth0.000.000.000.531.001.001.001.001.00dbh0.000.000.000.631.000.851.001.001.00v0.000.000.000.530.920.531.001.001.00cpro0.020.020.020.001.001.001.001.001.00wd0.120.060.040.240.000.001.001.001.00wpro0.080.030.020.180.000.001.001.001.00tl0.280.350.290.350.650.920.001.000.00tw0.840.420.550.690.660.930.390.000.28lrt0.380.710.540.290.990.960.000.010.00,.,56,二元数据的双系列相关系数,式中rP为双系列相关系数,M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论