R语言统计分析简介.ppt_第1页
R语言统计分析简介.ppt_第2页
R语言统计分析简介.ppt_第3页
R语言统计分析简介.ppt_第4页
R语言统计分析简介.ppt_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语言统计分析,易 楠 张青青,R语言简介,集数据分析与图形显示于一体的统计编程软件。 由Auckland大学统计系的Robert Gentleman和Ross Ihaka于1995年创立的。 免费下载地址,其它统计软件,SAS:世界上最权威的统计软件,价格昂贵,支持编程,统计学专业专用软件 SPSS:操作容易、输出漂亮、功能齐全、价格合理,非统计学专业首选软件 Eviews:具有强大的多元回归和时间序列分析功能,计量经济学专业专用软件 Matlab:功能强大的编程软件,统计分析功能较少,工程专业首选软件 Excel:具有简单的统计分析功能,商务办公首选软件 通病: &,“黑匣子”,“傻的可爱”,R语言特点,程序命令完全公开(非黑匣子) 计算过程保留在对象中,可随时调用 有不断加入的各个方向统计学家编写的统计软件包 编程语言极其简单(归纳为“三个一”) 一小内时掌握基本运算和绘图语句 一天内学会编写函数和利用软件包 一年内可达到“登峰造极”的境界 现在让我们开始走进R语言的神奇吧!,函数结构,function_name (Arguments1, Arguments2=value,) function_name表示函数名称 Arguments1表示需输入的数值,可能是向量、数据框等 Arguments2=value表示参数2的取值,可能是逻辑变量等 例:函数read.table(file, header=F) read.table表示读入文本数据函数名 参数file表示被读取的文本文件名“*.txt” header表示数据文件第一行是否包含变量名,如果包含则输入header=F,否则输入header=T,R中的一些基本运算的语句,1、变量与赋值 使用者可以用“=”或“x=9 或xsqrt(x) 1 3 Y=(5*(x+2)-3 y 1 52 运算中是不会影响x的数值,倘若想重新给x赋值,可参考下列例子: x=sqrt(x) x 13,R中的一些基本运算的语句,2、向量 在统计学中,多数数据都是以一组来表达,即向量的形式。R中,使用者能以向量形式来输入一组数字。举例来说,在一次重复试验中得出以下10个结果: 2, 4.6, 1, 3.7, 5.9, 4.0, 6.7, 2.8, 1.4, 3.1 若想将其以一个向量的形式表示出来,可参考如下: observations=c(2,4.6,1,3.7,5.9,4.0,6.7,2.8,1.4,3.1) C( )表示R中在括号中的数值是以向量形式输入的。 向量的运算与标量的相同,如: 2.54*observations 输出结果为向量中的每一个数值均乘以2.54,然后再以向量形式输出 利用R,通过定义成向量的形式,我们可以很方便的计算出上述一列数据的均质和方差,如: Mean(observations) Var(observations),3、从向量中选取子集,Observations3 1 1 Observations5:7 1 5.9 4.0 6.7 Observations-1 表示隐藏第1个元素。 Observationsobservations4 4.6 5.9 6.7,4、矩阵,矩阵和向量有点相似,但它是二维的。输入矩阵如同输入向量,只需加上它的二维数据。矩阵拥有两个属性:“二维数据”和“行和列的名称”。例如: A=atrix(c(1:9),nrow=3,ncol=3,byrow=T) ,1 ,2 ,3 1, 1 2 3 2, 4 5 6 3, 7 8 9 上述例子中,自变量“byrow=T”提示R以一行行来排列矩阵。当矩阵的第一行被填满时,余下的数字将填补下一行,如此类推,直至完成矩阵。 byrow默认值是“F”,因此,若不输入自变量“byrow=T”,则会被视为以下列方式组成矩阵: ,1 ,2 ,3 1, 1 4 7 2, 2 5 8 3, 3 6 9,dim(A) 函数dim能显示矩阵的二维数据 1 3 3,3、矩阵的特征值与特征向量,4、矩阵的合并,5、数据框,矩阵和向量一样,只能拥有一种数据类型,而数据框却能同时拥有多种。若数据框内同时含有文字,当数据框被转化成矩阵时,所有元素都会被转化成文字。 利用指令as.frame,可将矩阵转化为数据框。例如:,数据框的引用,数据框数据的调用用attach命令,读写数据文件,1、读纯文本文件,相关分析,研究变量间密切程度的一种常用统计方法 相关系数是描述变量间线形关系强弱和方向的统计量 函数名:cor(x, method=c(“pearson“, “kendall“, “spearman“) 数据文件: highschool.sav 分析方法: Pearson 程序命令: library(foreign) highschool=read.spss(“highschool.sav“, to.data.frame=T) colnames(highschool,1:3)=c(“初三成绩”,“高一成绩”,“收入水平”, “DIFF”, “IN2” ,“IN3”) 命名 cor(highschool,1:2, method=“pearson“) cor.test(highschool$初三成绩, highschool$高一成绩, method=“pearson“),有兴趣的同学可以试着做:高一成绩与收入水平的kendall相关系数,并思考为什么不能使用pearson相关系数分析?,相关分析R与SPSS对比,R输出结果,SPSS输出结果,回归分析,描述变量之间具体的变动关系,通过控制或给定自变量的数值来估计或预测因变量可能的数值。 函数名:lm(formula, data) 数据文件:earnings.txt 程序命令: earnings=read.table(“earnings.txt“, header=T) lm1=lm(income industry+service, data=earnings) summary(lm1),回归分析R与SPSS对比,R输出结果,SPSS输出结果,残差检验,绘制残差散点图 程序命令: plot(lm1$res, type=“b“) abline(h=0, lty=2) 绘制残差序列QQ图 程序命令: plot(lm1),残差检验,正态性检验 程序命令: shapiro.test(lm1$res) t.test(lm1$res) 残差序列满足t N(0, 2) 序列相关检验(D.W.) 程序命令: library(car) durbin.watson(lm1),残差检验,自相关系数(ACF) 程序命令: acf(lm1$res) 偏自相关系数(PACF) 程序命令: pacf(lm1$res) 残差序列满足0均值、同方差、无自相关,即白噪声序列,聚类分析,根据事物本身的特征研究个体分类的方法 函数名:hclust(d, method =“ward“) 数据文件名:beer.txt 分析方法:欧氏距离、ward法、系统聚类 程序命令: beer=read.table(“beer.txt“, header=T) s(beer)=beer$beername hclust(dist(beer, -1), method=“ward“)$merge plot(hclust(dist(beer, -1), method=“ward“),聚类的凝聚过程,聚类分析R,判别分析,根据观察或测量到若干变量值,判断研究对象属于哪一类 函数名:lda(x, grouping) 数据文件名:disc.sav 分析方法:距离判别法 library(MASS) library(foreign) disc=read.spss(“disc.sav“, to.data.frame=T) lda1=lda(disc,-1, disc$GROUP) table(predict(lda1, disc,-1)$class, disc$GROUP) plot(predict(lda1, disc,-1)$x, col=as.numeric(disc$GROUP),判别分析R与SPSS对比,R输出结果,SPSS输出结果,主成分分析,利用降维的思想,把多个指标转换成较少的几个互不相关的综合指标的统计方法 函数名:prcomp(x, scale=F) 数据文件名:company.txt 分析方法:从相关矩阵出发 程序命令: company=read.table(“company.txt“, header=T) prc=prcomp(company,-1, scale=T) summary(prc) prc$rotation prc$x,1:2,主成分分析R与SPSS比较,R输出结果,SPSS输出结果,因子分析,探讨存在相关关系的变量之间,是否存在不能直接观察到但对可观测变量变化起支配作用的潜在因子的分析方法 函数名:factanal(x, factors, rotation=“varimax“) 数据文件名:student.sav 分析方法:极大似然法、方差最大正交旋转、回归法 程序命令: library(foreign) student=read.spss(“student.sav“, to.data.frame=T) factanal(student, 2, rotation=“varimax “, scores=“regression“),因子分析R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论