2011研究生R语言考题_第1页
2011研究生R语言考题_第2页
2011研究生R语言考题_第3页
2011研究生R语言考题_第4页
2011研究生R语言考题_第5页
已阅读5页,还剩15页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、暨南大学考试试卷得分评阅人(共1小题,共20 分)2010 -2011学年度第2 学期课程类别必修选修 教课程名称:数据分析与R语言应用帅考试方式填授课教师姓名:王斌会开卷寸闭卷与试卷类别(A、B)考试时间:2011年 11月8 日A 共4页考生经济学院学院(校)数量经济学专业班(级)填写姓名刘伟学号1130111008内招外招题号-一-二三四五六七八九十总分得分1 应用R图表对各类产品供货走势图分析类别月份123456789101112彩电A1冰箱A2空调A3洗衣机A4(1)要求:数据由R随机数函数生成,产生20,50间的均匀随机数。解:首先对R进行初始化,设定参数,再生成随机数,代码如下:

2、rm(list=ls()opti on s(digits=4)par(mar=c(4,4,2,1)+0.1,cex=0.75)A仁runi f(12,20,50);A1A2=ru ni f(12,20,50);A2A3=ru ni f(12,20,50);A3A4=ru nif(12,20,50);A4(2)分析(图形要进行一定修饰):1)绘制各类产品的月份趋势线图 解:趋势线图如下彩电(3)冰箱(A2 O IO 1 IIIIr2 46810121 IIIIr2 4681012o 月份代码如下:月份洗衣机(A4)par(mfrow=c(2,2)plot(A1,type=T,ylab=销售量(A

3、1),xlim=c(1,12),ylim=c(0,50)plot(A2,type=l,ylab=销售量(A2),xlim=c(1,12),ylim=c(0,50)plot(A3,type=l,ylab=销售量(A3),xlim=c(1,12),ylim=c(0,50)plot(A4,type=l,ylab=销售量,xlab=月份,mai n=彩电,xlab=月份,mai n=冰箱,xlab=月份,mai n=空调,xlab=月份,main=洗衣机(A4),xlim=c(1,12),ylim=c(0,50)2) 绘制各类产品的季度的柱形图。解:首先对数据进行整理,得出各自的季度数据。柱状图如下彩

4、电(3)冰箱(A2)Abt*季度空调(A3)刊EAbt*洗衣机(A4)季度季度代码如下:dat=data.frame(A1,A2,A3,A4)q仁 c(dat1,1+dat2,1+dat3,1,dat4,1+dat5,1+dat6,1,dat7,1+dat8,1+dat9,1,dat10,1+dat11,1+dat12,1)q2=c(dat1,2+dat2,2+dat3,2,dat4,2+dat5,2+dat6,2,dat7,2+dat8,2+dat9,2,dat10,2+dat11,2+dat12,2)q3=c(dat1,3+dat2,1+dat3,3,dat4,3+dat5,1+dat6,

5、3,dat7,3+dat8,3+dat9,3,dat10,3+dat11,3+dat12,3)q4=c(dat1,4+dat2,4+dat3,4,dat4,4+dat5,4+dat6,4,dat7,4+dat8,4+dat9,4,dat10,4+dat11,4+dat12,4)dat仁 data.frame(q1,q2,q3,q4);dat1par(mfrow=c(2,2)barplot(dat1,1,xlab=季度,ylab=销售量,mai n=彩电(A1),ylim=c(0,150) barplot(dat1,2,xlab=季度,ylab=销售量,mai n=冰箱(A2),ylim=c(0

6、,150) barplot(dat1,3,xlab=季度,ylab=销售量,mai n=空调(A3),ylim=c(0,150) barplot(dat1,4,xlab=季度,ylab=销售量,mai n=洗衣机(A4),ylim=c(0,150)3) 绘制各类产品的年度的饼图。解:饼图如下代码如下:par(mfrow=c(1,1)y1= dat11,1+dat12,1+dat13,1+dat14,1y2=dat11,2+dat12,2+dat13,2+dat14,2y3=dat11,3+dat12,3+dat13,3+dat14,3y4=dat11,4+dat12,4+dat13,4+dat

7、14,4X=c(y1,y2,y3,y4)pie(x,labels=c(彩电(A1),冰箱(A2),空调(A3),洗衣机(A4),col=c(red,gree n,purple,blue)评阅人得分二、统计检验(共2小题,每题10分,共20分)1.两台铣床生产同一种型号的套管,平日两台铣床加工的套管内槽深度都服从正态 分布N(10, 0.32)和N(8,0.22),从这两台铣床的产品中分别抽出13个和15 个,请分别按方差已知和未知检验两台产品的深度是否不同(a =0.05)(1) 两台铣床的产品内槽精度(方差)有无显著差别?解:x=rnorm(13,10,0.3)y =rnorm(15,8,0

8、.2)var.test(x,y)F test to compare two varia ncesdata: x and yF = 3.899, num df = 12, denom df = 14, p-value =0.01785alter native hypothesis: true ratio of varia nces is not equal to 195 perce nt con fide nce in terval:1.278 12.502sample estimates:ratio of varia nces3.899由于p-value =0.017850.05故两台铣床的产

9、品内槽精度(方差)有显著差别。(2) 两台产品的的深度是否不同?解:1、方差未知时t.test(x,y)Welch Two Sample t-testdata: x and yt = 17.61, df = 17.2, p-value = 1.934e-12alter native hypothesis: true differe nce in mea ns is not equal to 095 perce nt con fide nce in terval:1.605 2.042sample estimates:mean of x mean of y9.982 8.159由于p-value

10、 = 1.934e-120.05故两台产品的的深度是不同的。2、方差已知时u.test=function(x,y,sigmax,sigmay)nx=length(x)ny=length(y)xbar=mean(x)ybar=mean(y)u=(xbar-ybar)/sqrt(sigmaxA2/nx+sigmayA2/ny)p=pnorm(u,lower.tail=F)c(u=u,p=p)u.test(x,y,0.3,.02)up2.187e+01 2.332e-106由于 p=2.332e-1060.05, 故两台产品的的深度是不同的。2. 如果还有一台铣床生产同一种型号的套管,其加工的套管内

11、槽深度都服从正态分布N(12, 0.42),从这台铣床的产品中抽出18个,请分别按方差已知和未知检验三 台产品的深度是否不同(a =0.05?(1)、方差已知的情况x1=rnorm(13,10,0.3)x2 =rnorm(15,8,0.2)x3=sample(rnorm(1000,12,0.4),18)n1=length(x1)n2=length(x2)n3=length(x3)se1=sqrt(0.3A2/n1+0.2A2/n2)se2=sqrt(0.3A2/n1+0.4A2/n3)se3=sqrt(0.2A2/n2+0.4A2/n3)x1bar=mean(x1)x2bar=mea n( x

12、2)x3bar=mea n( x3) u1=(x1bar-x2bar)/se1 u2=(x1bar-x3bar)/se3 u3=(x2bar-x3bar)/se3 chi=u1A2+u2A2+u3A2 p=2*pchisq(chi,3,lower.tail = F);pP a=0.05,所以拒绝三台产品的的深度相等的假设,三台台产品的深度不等。 (2)、方差未知的情况y=c(x1,x2,x3)group=c(rep(1,13),rep(2,15),rep(3,18)on eway.test(ygroup)On e-way an alysis of mea ns (not assu ming e

13、qual varia nces) data: y and groupF = 564.7, num df = 2.00, denom df = 28.28, p-value 2.2e-16P=t1j)/1000#计算矩阵u每行中的数据大于t1中对应t值绝对值的概率,并将值赋予p_permutations数组#输出结果ID=c(1:100) # 构造 row numberresult=data.frame(ID,t, p_theoretical, p_permutations)IDt p_theoretical p_permutations11-2.88532070.020340.01522-1.

14、31431730.225170.22733-2.69407390.027320.00644-1.38024580.204850.228550.04733320.963410.977660.99599100.348420.29177-0.43219850.677010.72288-0.42681580.680770.67899 -0.14129080.891130.89910101.31691320.224340.2541111-0.04898580.962130.98812121.40283080.198260.16913131.17419800.274080.2561414-1.067685

15、30.316820.31715152.64626440.029430.0121616-1.93880800.088510.0611717-0.67314680.519820.5361818-0.35194510.733970.75519190.58193890.576630.57720200.66566480.524350.5772121-0.14602660.887510.7482222-2.70354120.026930.0232323-0.79008070.452260.4722424-0.43852790.672600.62925250.36767520.722650.74226262

16、.21777030.057380.0352727 -0.14152200.890960.9182828-0.00048330.999631.0002929 -0.41026650.692380.68730300.04487950.965300.94431311.45210090.184540.19332320.28546830.782540.79333330.12986560.899880.8963434-0.98872820.351750.3463535-1.40241640.198380.15836360.12859640.900850.85037373.00867020.016850.0

17、3238380.67875120.516450.50339391.09378330.305890.33140401.98429170.082500.1024141-0.09682990.925240.9694242-3.12368700.014150.01643430.65965420.528010.50144441.20644460.262110.2674545-0.27200780.792500.8124646 -0.17628140.864450.8604747-0.21065700.838420.87548481.98663180.082200.0724949-0.00200900.9

18、98451.0005050-2.06467280.072830.0315151-0.25647630.804060.79752522.84621920.021600.0285353-0.06572720.949210.96654540.63186590.545100.58955550.75551940.471590.42556561.50059750.171850.17957571.26303940.242140.2435858-0.69213990.508440.5395959-1.38371980.203820.19160600.48382550.641480.6396161-0.1140

19、8070.911980.94462621.19022730.268080.25863630.21125080.837970.83664640.89782110.395500.3736565-0.41112390.691770.71266663.16680910.013260.01667671.60022040.148220.14268680.84886130.420630.39769690.71021400.497750.49370700.07803570.939720.93071711.24710300.247630.25972720.96157420.364420.33073731.238

20、64930.250590.2727474-0.66960540.521960.53775751.21529010.258900.2547676-0.12596230.902870.9247777-0.07917180.938840.9647878-3.65794690.006420.01679790.24990500.808960.7808080-2.36615640.045520.05281810.02545820.980310.9888282-1.97556060.083620.08583830.00156780.998791.00084840.14719180.886620.871858

21、50.02952630.977170.98486860.26280590.799340.80987870.08463660.934630.9288888-0.54745820.599000.6358989-2.71820330.026320.01390900.57332880.582180.67891912.35510610.046310.04892920.77090980.462920.4359393-0.41786800.687030.63494940.29160590.778010.73695950.27282280.791900.76296961.59640840.149060.155

22、97971.32462520.221880.26698980.68569730.512280.5119999-1.22726900.254610.248100 1000.54882900.598100.5912.) Plot the distribution (see hist) of the resulting vector of t-scores obtained at step 1a) after excluding the first element (corresponding to the first row) and on the same graph show a vertic

23、al line for the t-value of the first row.解:t2=t2:100hist(t2,main=t 值分布的直方图 )abline(v=t1)t值分布的直方图Aou 心 nbCDLt-4-2024t22. Olympic MedalsDuring both summer an d win ter Olympic games the medal table is ofte n of in terest to spectators and the media. The medal table is a tally of the number of medals w

24、hich have bee n won by each participati ng country duri ng the games. A good performa nee on the medal table is often a source of pride for a country. However, it is to be expected that large coun tries will win more medals tha n smaller coun tries, due to the fact that they have a larger pool from

25、which to recruit athletes. Thus smaller countries often argue that a better measureof performance would be medals per capita. However, it is possible that medal tally should nt be expected to in crease in direct proportio n to populatio n. Further, it is reas on able to think that the medal tally wi

26、ll also depe nd on the resources available to athletes in a coun try, or on the climate (for example, access to sno w).The objective of this an alysis is to explore the relati on ship betwee n a coun trys medal tally, population size, wealth (measured by GDP) and climate (approximated by latitude).

27、Further, it is proposed that in future a standardised measure of a countrys medal tally should be developed which corrects for population size, climate and wealth. Your should investigate the feasibility of this proposal, and discuss your finndings.The file medals.RDataload(medals.RData) in R is an

28、R data frame with one row for every country that has won at least one olympic medal in the previous four Olympic Games.The variable descriptions are as follows:Country Name of the competing country (only countries which have won at least one medal since 2004 are included).Latitude Latitude of the ca

29、pital city.Summer2004 Total number of medals (gold, silver and bronze) won at the Summer Olympics in 2004.Summer2008 Total number of medals won at the Summer Olympics in 2008. Winter2006 Total number of medals won at the Winter Olympics in 2006. Winter2010 Total number of medals won at the Winter Ol

30、ympics in 2010. Population2007The population in 2007 (source: World Fact Book).GDP2009 Gross Domestic Product in billions of US dollars (source: World Fact Book).一、引言众所周知,历届奥运会都以获得的奖牌的总数来衡量一个国家的体育发展水 平,同时获得更多的奖牌也成为一个国家的骄傲。然而,不同的国家所处气候纬 度、人口规模、 GDP 总量等因素是不同的,而仅仅靠奖牌的总量来衡量一国的体育水平显然不够全面,也不太公正。本文旨在找出与影响获

31、得奖牌数的一些因素, 如:气候(用纬度表示)、人口规模、GDP总量,通过相关分析和回归分析研究它 们的内在关系,并在此基础上提出更加全面的衡量一国体育发展水平的新指标。二、相关性分析为了分析各个国家的金牌数与其气候(纬度表示)、人口规模和收入(GDP) 的关系,首先对其进行相关分析。以下就通过相关系数矩阵和散点图考察它们之 间的关系。1、2008年夏季奥运会奖牌数及其影响因素相关分析fix(medals)#对原始数据进行适当编辑,用负数表示南纬,朝鲜的GDP为280亿美元,以此填充 NALL 值x仁 medals$Summer2008;x1x2=medals$Wi nter2010;x2x3=

32、medals$Wi nter2006;x3x4=medals$Sumer2004;x4y1=m edals$Latitude;y1y2=medals$Populati on;y2 y3=medals$GDP;y3A=data.frame(x1,y1,y2,y3);Acor(A)x1y1y2y3x11.00000000.163878840.486146480.6624589y10.16387881.000000000.010976710.1246518y20.48614650.010976711.000000000.1685161y30.66245890.124651750.168516111.

33、0000000par(mfrow=c(1,3) plot(y1,x1) plot(y2,x1) plot(y3,x1)由相关系数矩阵可知,2008年各个国家的金牌数与其所处的维度、人口规模 和GDP存在正相关性,它们的相关系数分别为0.164、0.486、0.662,并且奖牌数与人口规模和GDP中度相关,与维度轻度相关。从三点图可以发现以下几个现 象。第一,获得奖牌的国家基本上分布于北纬 0。到北纬60之间,只有11个获得 奖牌的国家位于南半球,且获得奖牌较多的国家基本上位于北纬30。到北纬50。,即亚热带和温带地区,这与现实所表现出来的是一致的,这是因为分布在南半球 的参与奥运会的国家相对较

34、少,自然获得的金牌也少。第二,获得奖牌数与人口 规模显然正相关。人口规模越大,获得奖牌数越多,中国和美国是典型,但印度 除外。第三,获得奖牌数与GDP也是正相关的,GDP规模越大,获得奖牌数越多。 2、2010年冬季奥运会奖牌数及其影响因素相关分析从相关系数矩阵来看,2010年冬季奥运会奖牌数与纬度、人口规模和GDP有 这正相关性,相关系数分别为0.3129、0.1707、0.6459。从散点图来看,2010年冬 季奥运会获得奖牌的国家出澳大利亚外都位于北纬40与北纬65之间。这与2008年夏季运动会获奖牌国家的纬度相比更加偏北。这是因为冬季奥运会时,南半球 国家正值夏季,很多冬季运动项目不宜

35、开展。就奖牌数与人口规模和 GDP的关系, 与2008年夏季运动会相比变化不大。3、2006年冬季奥运会奖牌数及其影响因素相关分析cor(C)cor(B)x2y1y2y3x21.00000000.312923670.170712340.6459346y10.31292371.000000000.010976710.1246518y20.17071230.010976711.000000000.1685161y30.64593460.124651750.168516111.0000000plot(y1,x2)plot(y2,x2)plot(y3,x2)x3y1y2y3x31.00000000.3

36、39832860.152717250.4910002y10.33983291.000000000.010976710.1246518y20.15271720.010976711.000000000.1685161y30.49100020.124651750.168516111.0000000plot(y1,x3)plot(y2,x3)plot(y3,x3)霞- - O 呂一&0O鑒 2 -O -Gg二 _0 Oin -o -I I I 1 I I I11111 II10.0e+006.0&+081.2e+09o 4000 aooo凹y3从相关系数矩阵和散点图可以看到,2006年冬季奥运会奖牌数

37、与纬度、人口规 模和GDP的关系与2010年冬季奥运会相似。4、2004年夏季奥运会奖牌数及其影响因素相关分析cor(D)x4y1y2y3x41.000000000.050567140.291171800.5879380yi0.050567141.000000000.010976710.1246518y20.291171800.010976711.000000000.1685161y30.587938000.124651750.168516111.0000000plot(y1,x4)plot(y2,x4)plot(y3,x4)由相关系数矩阵可以看到,2004年夏季奥运会奖牌数与纬度、人口规模和

38、 GDP的关系与2008年夏季奥运会相似。通过相关分析我们可以知道,一个国家在奥运会中获得奖牌的数量和这个 国家所处的纬度、人口规模、GDP总量都是有关系的,并且与人口规模和 GDP总 量的还有较为密切的关系。而冬奥会与夏奥会的奖牌数分布于纬度(也就是气候) 有密切联系,冬奥会获得奖牌的除个别的国家外都是处在北半球,而夏奥会有十 多个国家分布在南半球。这与我们现实看到的现象是相符合的,也是可以解释的。 这是因为,冬奥会的气候和冬奥会的项目都是有利于北半球的国家;夏奥会获得 奖牌的国家比冬奥会多,但又比北半球的国家少得多,这是因为,参加奥运会的 大多数国家都处于北半球,自然获得的奖牌数就多。我们

39、还可以看到一个有趣的 现象是:获得奖牌国家有大约 75%都分布在北纬 20到北纬 60,也就是亚热带和 温带地区;有大约 50%分布在北纬 40到北纬 60,也就是温带地区。因此地处气 候不适很严酷的地区的国家的更可能获得更多的奖牌。还可以看出的是,不论是 冬奥会还是夏奥会人口规模大的和 GDP总量大的国家获得奖牌数都多些,比如美 国、中国、俄罗斯、日本等。所以,有的人要求调整奖牌板排名的规则和衡量标准是有一定道理的。不应 当仅仅看奖牌总数,还要考虑某国家所处的纬度(气候条件) 、人口规模(这个指 标很重要)、 G D P 总量(财富的代表)。三、回归分析由以上的相关性分析可知, 2006 年

40、冬季奥运会奖牌数与纬度、人口规模和GDP 的关系与 2010 年冬季奥运会相似; 2004 年夏季奥运会奖牌数与纬度、人口 规模和GDP的关系与2008年夏季奥运会相似。故只要分别做 2010年冬季奥运会 奖牌数的回归模型和 2008年夏季奥运会奖牌数回归模型即可。以下就 2010年冬 季奥运会最回归模型。为了消除异方差对各个变量取对数,进行线性回归拟合。 代码及其结果如下:fm=lm(log(x2)y1+log(y2)+log(y3);fmCall:lm(formula = x2 y1 + log(y2) + log(y3)summary(fm)Residuals:Min1QMedian 3

41、Q Max-8.7247-3.4481-0.5701 1.128124.9531Coefficients:EstimateStd. Errortvalue Pr(|t|)(Intercept)-10.92600 7.05118-1.5500.124885y10.057920.023842.4300.017165 *log(y2)0.384230.452010.8500.397641log(y3)1.393040.353283.9430.000162 *Signif. codes:0 * 0.001 * 0.0 1*0.05.0.1 1Residual standard error: 5.741

42、 on 87 degrees of freedomMultiple R-squared: 0.3052, Adjusted R-squared: 0.2812F-statistic: 12.74 on 3 and 87 DF, p-value: 5.629e-07 library(DAAG)#调用 DAAG 包vif(fm)#计算方差膨胀因子用以判断时候存在严重多重共线性各系数的方差膨胀因子y1log(y2)log(y3)2.335 1.5872.139library(car) durbin.watson(fm)#计算拟合模型的 DW 值DW= 1.743由以上分析可知,模型的 F 值很大,相

43、应的 p 值很小,因此模型的各个系数是显 著的。有各个系数的t值来看,Iog(y3) (GDP总值的对数)非常显著;y1 (纬度 也即气候)的系数显著;Iog(y2)(人口规模的对数)的系数不显著,t值小,其p 值为 0.398,但也可以这样解释,即在 0.4 的检验水平上其系数是显著的。同时也 可以看到,模型的 DW 值接近 2,故不存在自相关性。通过方差膨胀因子的分析, 变量间也不存在严重的多重共线性。因此模型的拟合还是较为合适的。三、新指标构建显然仅仅依靠奖牌总数来衡量一个国家的体育发展水平是有缺陷的。由以上 分析可知,影响奖牌数的因素从大到小一次为 GDP 总量、纬度(气候) 、人口规 模,由于人口规模系数不太显著,这可能是人口规模和 GDP 总量存在某种相关性 所引起的。因此新的指标将把这两个因素综合为人均GDP,即人均收入。对于纬度因素进行如下处理:处在南半球用 1 表示,处在北半球的热带和温带地区用 2 表示,处在北半球温带地区用 3 表示,其他地区用 0 表示,我们把这种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论