利用Rstudio对考试成绩进行数据分析_第1页
利用Rstudio对考试成绩进行数据分析_第2页
利用Rstudio对考试成绩进行数据分析_第3页
利用Rstudio对考试成绩进行数据分析_第4页
利用Rstudio对考试成绩进行数据分析_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利⽤Rstudio对考试成绩进⾏数据分析⾸先导⼊数据到Rstudio中使⽤read.csv()函数scoresnrow(scores)[1]599ncol(scores)[1]12在scores的所有列中,num和class两列与成绩没有太⼤的关系,我们可以将其去掉,也可以保留如果要去掉的话:⽣成⼀个新的数据框,把num和class去掉:scores1<-as.data.frame(scores[,c('chn','math','eng','phy','chem','politics','bio','history','geo','pe')])或:scores1<-as.data.frame(scores[,3:12])然后分别给scores和scores1两个数据框各添加⼀列,总分sum:scores$sum<-apply(scores[,3:12],1,sum)scores1$sum<-apply(scores1,1,sum)其中apply()函数中的1代表对⾏,2代表对列结果:可以发现原始数据其实是根据其中没有的总分来排列的看⼀下描述性统计量数据:summary(scores[,3:13])对于sum这个变量,可以看到极差为:attach(scores)max(sum)-min(sum)[1]495.3看⼀看sum值的分布情况:hist(scores$sum,freq=F,breaks=50)lines(density(scores$sum),col='red',lwd=2)上图在sum分布直⽅图上添加了其核密度曲线,可以看到sum的分布情况使⽤ggplot2实现:library(ggplot2)ggplot(scores,aes(sum,..density..))+geom_histogram(fill='darkgray')+geom_density(color='red')+ggtitle('HistogramwithDensityofSUM')接下来考察⼀下各科⽬间的相关性,以数学为例,在使⽤cor()函数计算相关系数之前,我先来猜测⼀下,数学与物理、化学和⽣物的相关性⽐较⼤cor(scores[,3:12])观察math的⼀列可以发现,相关系数超过0.8的科⽬有三个,分别是英语,物理和化学,和我的猜测有些出⼊。接下来使⽤lm()函数拟合线性回归模型mathfit<-lm(math~.,data=scores[,3:12])在拟合的模型中可以看到系数最⼤的是phy(0.760),其次是chem(0.428),第三是geo(0.408)所以可以从对这个样本的分析中得出⼀个初步的结论:在多元线性回归模型中,数学成绩与物理成绩的相关程度最⾼,也就是说对于多数学⽣⽽⾔,数学成绩⾼则物理成绩⾼,反之亦然。这与我们⽇常的认识是⼀致的。⽽对于其他科⽬,与数学成绩的相关性就没有那么⾼,尽管可能有联系,但是相⽐于物理成绩⽽⾔要稍微弱⼀些。有了⼀个回归模型之后,就需要对回归模型进⾏评价⾸先使⽤confint()函数查看置信区间confint(mathfit,level=0.95)在结论中可以看到:1、chn和history成绩的置信区间包含0,则可以得出结论:当其他变量不变时,chn和history成绩的改变与math成绩⽆关2、其余变量每改变1%,math成绩就在95%的置信区间⾥变化例:eng成绩每改变1%,math成绩就在95%的置信区间[0.057,0.198]中变化回归诊断的⼀个标准⽅法是使⽤基本包中的plot()函数⽣成评价模型拟合情况的四幅图形plot(mathfit)就得到了以下的四幅图:1,Residuals&Fitted(残差与拟合图):若变量与⾃变量线性相关,那么残差值与预测值就没有任何系统关联2,NormalQ-Q(正态Q-Q图):在正态分布对应的值下,标准化残差的概率图。若满⾜正态假设,那么图上的点应落在呈45°⾓的直线上,否则不满⾜正态假设。(正态假设:当预测变量固定式,因变量成正态分布,则残差值也应该是⼀个均值为零的正态分布)3,Scale-LocationGraph(位置尺度图):表⽰标准化残差的开⽅与拟合值的残差图。若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论