版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用统计分析实验R软件,SPSS:这是一个很受欢迎的统计软件容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。,Excel:严格说来不是统计软件,但作为数据表格软件,必然有一定统计计算功能。多数装Office时没有装数据分析的功能,画图功能都具备(虽然不好看)。对于简单分析,Excel还算方便,但随着问题的深入,就不那么“傻瓜”,需要很麻烦地使用函数,甚至根本没有相应的方法了。,SAS:这是功能非常齐全的软件;美国政府政策倾斜(“权威性”)许多美国公司使用。价格不菲,每年交费.即使赠送,条件苛刻尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可以进入。,S-plus:这是统
2、计学家喜爱的软件。功能齐全,图形漂亮有不断加入的各个方向统计学家编写的统计软件包。也可以自己加入算法.强大而又方便的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但主要以其方便的编程为顾客所青睐。但是对于不会编程者,不那么“傻瓜”,R软件:免费的,志愿者管理的软件。编程方便,语言灵活,图形功能强大有不断加入的各个方向统计学家编写的统计软件包。也可以自己加入自己算法的软件包.这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。,Minitab:这个软件是很方便的功能强大而
3、又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Eviews:这是一个主要处理回归和时间序列的软件。GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。但是统计方法不多。,使用傻瓜软件的问题.,无法任意取出计算过程中产生的任何中间结果;只能输出软件规定的输出.无法在中间插入任何算法.无法实现软件所没有的计算.无法实现任何方法或计算方面的创新.是输入输出皆有限制的黑盒子.用语句的任何计算(即使1+1=2)都需类似八股文的“花架子”.,搞统计是否不需要
4、学习编程语言,可以不学习,如果你搞纯粹数学推导的,只搞“理论”,不面对数据,不用计算机觉得岁数太大,学不会“非傻瓜”的计算不想有创新,仅使用现成方法套用,但如果你要创新,你需要反复试验你的新方法需要用各种数据来检验你的新方法需要把你的方法和老方法进行比较需要介绍自己的新方法使用编程语言不可避免,R软件,R免费资源公开(不是黑盒子,也不是吝啬鬼)R可以在UNIX,Windows和Macintosh运行.R有优秀的内在帮助系统.R有优秀的画图功能学生能够轻松地转到商业支持的S-Plus程序(如果需要使用商业软件)R语言有一个强大的,容易学习的语法,有许多内在的统计函数.,通过用户自编程序,R语言很
5、容易延伸和扩大.它就是这样成长的.R是计算机编程语言.类似于UNIX语言,C语言,Pascal,Gauss语言等.对于熟练的编程者,它将觉得该语言比其他语言更熟悉.而对计算机初学者,学习R语言使得学习下一步的其他编程不那么困难.那些傻瓜软件(SAS,SPSS等)语言的语法则完全不同.,R的历史,S语言在1980年代后期在AT它是一个由志愿者组成的工作努力的国际团队,下载R软件,学习网站/pages/newhtm/r/schtml/,R软件的使用基本语法向量、矩阵list与data.frame读写数据文件控制
6、语句与自定义函数二.数据描述性分析1.分布2.统计量3.一维数据的统计图形4.多维数据的图形表示,R软件,三.回归分析四.判别分析五.聚类分析六.主成分分析,基本语法,1.变量使用即定义,变量名区分大小写,可用中文命名变量赋值可采用4种形式:=,,assign()变量类型自动由变量赋值确定。#注释符号,分号;语句连接符,例子:a=10aaassign(“a”,10)A=10AAassgin(ab,200)中国=“中华人民共和国”#生成字符串变量assign(“中国”,“中华人民共和国”)a=10;A=10;a;A,算术运算符:+,-,*,/,(乘方),%(模),%/%(整除),3.常用的数学函
7、数有:abs,sign,log,log2,log10,sqrt,exp,sin,cos,tan,acos,asin,atan,cosh,sinh,tanh,4.查看帮助,例如:help(round),?abs,向量、矩阵,向量(一维数组,下标从1开始)a=c(d1,d2,d3,)间隔为1的等差序列:a:b指定间隔的等差序列:seq(from,to,by)seq(length=,from=,by=)重复函数:rep(vec,times)rep(vec,times,len=,each=),a=c(3,5,8,10)a=1:10;b=seq(1,10,2);c=rep(a,2,each=3)a=se
8、q(-pi,pi,0.2),随机向量rnorm(10)#10个服从标准正态分布的随机数,z=1:5z7=8;z112345NA8#缺失数据NAzc(1,3,5)=1:3;z112243NA8zis.na(z)=0#函数is.na()判断数据是否缺失,将其为真的赋为0zz0,1#第1列大于0的元素x,-c(1,3)#没有第1、3列的x.x-2,-c(1,3)#没有第2行、第1、3列的x.,5.基本矩阵运算矩阵间四则运算:+,-,*,/分别是对应元素的四则运算向量矩阵间:向量按列匹配与矩阵运算例如:A=matrix(1:6,nrow=3)B=matrix(10:15,nrow=3)C=c(100,
9、200)则:A+BA*BA+C,111710521012041319227010220515213690103206,6.矩阵运算转置t(mat)行列式det(mat)逆矩阵solve(mat)特征eigen(mat)#返回列表(values,vectors)乘法A%*%B向量内积/外积x%*%y,x%o%y(笛卡尔积)生成对角diag(Vec)取对角diag(mat)奇异值分解svd(mat)mat=UDV得到列表(d,u,v)qr分解qr(mat)Choleski分解chol(mat),列表和数据框,1.列表是一种特殊的对象集合,各元素类型任意生成:list(name1=value1,na
10、men=valuen)访问/修改:对象名下标或对象名$namei,stu=list(age=10,name=“Tom”,interests=c(“swimming”,”drawing”)stu2stu$namestu$name=“john”names(stu)#得到所有的变量名,2.数据框是R的一种数据结构,以矩阵形式保存数据各列类型可以不同,每列为一变量,每行为样品各列长度相等生成:data.frame(),stu=data.frame(name=c(“john”,”wuji”),age=c(30,32)x=data.frame(matrix(1:6,nrow=2)names(stu)#得到
11、所有的变量名rownames(stu)#得到行名,attach(x)#把数据框中的变量链接到内存中,x=matrix(1:6,2,3)x=data.frame(x);xX1X2X311352246x$X2134attributes(x)$names1“X1“X2“X3“$s112“$class1data.frame,x=data.frame(id=101:120,score=round(rnorm(20,70,10)xseq(1,10,2),xorder(x2,decreasing=T),xx20)a=10;b=10elsea=20;b=20;switch(x,1:5,100,
12、20)#12345这三个构成列表list,返回listx,控制语句,2.循环结构for(nameinexpress)expr;#expr_swhile(condition)expr;#expr_srepeatexprs;if(达到中止条件)break中止循环语句:break;跳空循环语句:next;,例子:完成1到100的求和运算s1=0;j=1;k=1;s2=0;s3=0;for(iin1:100)s1=s1+i;#或者while(j100)break,fun-function(arg1,arg2,)注意:最后一句表达式的值为返回值,例子:完成一维向量均值运算mymeanmymean=fun
13、ction(x)sum=0;n=length(x)for(jin1:n)sum=sum+xjsum=sum/nmeanofx=mymean(1:100);meanofx,自定义函数,dnorm()#计算正态分布的密度函数pnorm()#计算正态分布的分布函数qnorm()#计算正态分布的分位数rnorm()#计算正态分布的随机数其它分布的关键词:unif,exp,chisq,t,f,binom,pois,dexp(2,10)runif(10,0,10),和分布相关,统计量,mean(),median(),quantile(),var(),sd(),cor()sum(),max(),min()s
14、ummary()table()#列联表,x=c(10,71:78,90)xm-mean(x)c(xm,mean(x,trim=0.10),A=cbind(c(90,60,70),c(85,66,95)apply(A,1,mean)#对每一行取平均apply(A,2,mean)#对每一列取平均var(A)cor(A),数据的图形表示,x=seq(-10,10,2);y=rnorm(11)plot(x,y)plot(x,y,main=散点图,xlab=横坐标x,ylab=纵坐标y)text(x,y,1:length(x),-1)#写入点序号,第三个参数默认如此plot(x,y,type=o,col
15、=red,pch=2,lty=3),1.散点图plot(x,y,),type=“p”#散点图,默认type=“l#绘实线type=“o”#实线通过所有的点type=“n”#不画点参数lty表示线的类型0=blank,1=solid(default),2=dashed,3=dotted,4=dotdash,5=longdash,6=twodash,低水平作图函数还有points()lines()ablines()text()legend(),x=seq(-10,10,2);y=rnorm(11)par(mfrow=c(3,1)#准备画3个图plot(x,y)plot(x,y,main=散点图,x
16、lab=横坐标x,ylab=纵坐标y)text(x,y,1:length(x),-1)#写入点序号plot(x,y,type=o,col=red,pch=2,lty=3),2.散点图矩阵pairs(x,),A=matrix(rnorm(12,70,20),nrow=4)pairs(A),3.多组散点图,matplot(x,y,),x=seq(0,2*pi,0.2)matplot(x,cbind(sin(x),cos(x),type=c(“o”,”o”),col=2:3),4.星座图5.脸谱图,library(aplpack)faces(x,nrow.plot,ncol.plot),stars(
17、x,full=TRUE,draw.segments=FALSE),例1.在同一图中绘制标准正态分布和自由度为5的t分布的概率密度图.,plot(x,dnorm(x),type=l,ylab=f(x),main=概率密度图)lines(x,dt(x,5),col=red,lty=2)legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=c(black,red),matplot(x,cbind(dnorm(x),dt(x,5),type=l,ylab=f(x),main=概率密度图)legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=1:2),lw
18、l.andrews=function(X)t=seq(-pi,pi,0.2)n=nrow(X)f=matrix(0,nrow=length(t),ncol=n)for(iin1:n)f,i=Xi,1/sqrt(2)for(jin2:ncol(X)if(j%2=0)f,i=f,i+Xi,j*sin(j/2*t)elsef,i=f,i+Xi,j*cos(j%/%2*t)matplot(t,f,col=1:n,type=o,main=调和曲线图),例2:绘制调和曲线图,hist(x,freq)#直方图,freq=counts,(默认)为频数直方图,freq=TRUE,为频率直方图,freq=FALS
19、E,为密度直方图boxplot(x)#箱线图stem(x)#茎叶图,其它图形,a=rnorm(100,70,10);hist(a),b=rbinom(100,5,0.5)nums=table(b)barplot(nums),pie()#饼状图barplot(x,beside=F)#柱状图,例1:31省市地区的消费支出数据,进行如下统计1.计算各地区的人均消费支出总和,并画出柱状图2.画出前十个地区的关于衣着和居住两项的复式柱状图。3.计算各消费类型的均值,并画出饼状图和柱状图3.画出各消费类型的箱线图4.画出各地区的雷达图和脸谱图,barplot(apply(X,1,sum),col=rain
20、bow(31),s=0.5),pie(apply(X,2,mean),barplot(apply(X,2,mean),names=NA,legend=names(X),col=1:ncol(X),barplot(t(X1:10,c(2,7),beside=T,legend=T),实验题,求矩阵B的行列式、逆矩阵、特征根和特征向量及ABA,学号性别数学语文英语物理13001男8076819023002男5567796333003女2752534343004女6257666953005女9480767163006男9759617473007男7962788883008男7092788393009女67666555103010男97465575113011男84828
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省富阳市重点中学2026届初三第四次模拟英语试题含解析
- 湖北省恩施市思源实验校2026届高中毕业班第二次中考模拟考试语文试题含解析
- 江苏省扬州市江都区城区2026届初三入学调研考试语文试题含解析
- 山东省枣庄市滕州市滕州育才中学2026年初三下学期3月模拟考试英语试题文试题含解析
- 浙江省湖州市南浔区重点名校2025-2026学年初三质量检查英语试题含解析
- 浙江省杭州萧山回澜2025-2026学年学业水平考试语文试题含解析
- 内蒙古北京师范大乌海附属校2026年初三语文试题5月15日第7周测试题含解析
- 重症患者误吸预防与管理
- 2026年早教机构家长合同(1篇)
- DB35-T 2292-2026果树种质资源普查技术规程
- 湖北省-襄阳市区划代码
- 2024年《广西壮族自治区建筑装饰装修工程消耗量定额》(上册)
- 内分泌学重点专科汇报
- 第五届国家级新区经开区高新区班组长管理技能大赛试题库-中(多选题部分)
- 2024ABB PIHF谐波滤波器用户手册
- DB3305∕T276-2023 生态联勤警务站建设与管理规范
- 国家职业标准 -碳排放管理员
- T-WSJD 67-2024 职业病诊断质量控制评估指南
- 销售加速公式培训课件
- 琉璃瓦施工合同协议书
- 《动物营养学》全套教学课件
评论
0/150
提交评论