下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言期末考试试卷考试时间:90分钟满分:100分一、单项选择题(每题3分,共30分)在R语言中,创建向量的函数是()A.data.frame()B.c()C.matrix()D.list()若要读取Excel文件“data.xlsx”中的“Sheet1”数据,需加载的包是()A.dplyrB.ggplot2C.readxlD.tidyr下列代码中,能计算向量x<-c(1,3,5,7,9)平均值的是()A.mean(x)B.sum(x)C.median(x)D.var(x)使用ggplot2包绘制散点图时,需指定的核心几何对象函数是()A.geom_line()B.geom_point()C.geom_bar()D.geom_histogram()若要查看数据框df的前5行数据,正确的代码是()A.head(df,5)B.tail(df,5)C.view(df[1:5,])D.print(df[5,])在R中,逻辑运算符“与”对应的符号是()A.|B.&C.!D.==下列代码中,能创建3行4列、元素均为1的矩阵的是()A.matrix(1,nrow=3,ncol=4)B.matrix(1,3,4)C.matrix(rep(1,12),3,4)D.以上都对使用dplyr包筛选数据框df中“age”列大于18的行,正确的代码是()A.filter(df,age>18)B.select(df,age>18)C.arrange(df,age>18)D.mutate(df,age>18)下列函数中,能生成服从正态分布随机数的是()A.rnorm()B.runif()C.rbinom()D.rexp()若要保存当前R工作空间中的所有对象到“workspace.RData”文件,正确的代码是()A.save.image("workspace.RData")B.load("workspace.RData")C.save("workspace.RData")D.export("workspace.RData")二、简答题(每题6分,共30分)简述R语言中向量、矩阵、数据框的区别与联系。请写出使用ggplot2包绘制“x轴为体重(weight)、y轴为身高(height)、按性别(gender)分组着色”的散点图的核心代码框架(假设数据框名为data)。说明dplyr包中select()、filter()、mutate()、arrange()四个函数的功能及用法差异。若在R中运行代码时出现“object'x'notfound”错误,可能的原因有哪些?如何排查?简述R语言中读取文本文件(如CSV、TXT)的常用函数及参数设置(至少列举2个函数)。三、实操题(每题20分,共40分)现有CSV文件“student.csv”,数据包含“姓名(name)、性别(gender)、年龄(age)、数学成绩(math)、英语成绩(english)”5列。请使用R语言完成以下操作,写出完整代码及预期结果说明:(1)读取该CSV文件并查看数据的基本信息(维度、列名、数据类型);(2)筛选出“数学成绩大于80且英语成绩大于75”的学生数据;(3)按性别分组,计算数学成绩和英语成绩的平均分;(4)绘制“性别”为x轴、“数学平均分”为y轴的条形图(要求添加标题“各性别数学成绩平均分”,x轴标签“性别”,y轴标签“平均分”)。已知向量x<-c(2,5,7,3,9,4,6,8,1,10),请使用R语言完成以下统计与可视化任务,写出代码及结果解释:(1)计算向量x的均值、中位数、标准差、极差;(2)将向量x转换为2行5列的矩阵mat,并计算矩阵每行的和;(3)绘制向量x的直方图(要求设置组距为2,添加红色边框,标题“向量x的分布”);(4)使用boxplot()函数绘制向量x的箱线图,判断是否存在异常值(需说明判断依据)。R语言期末考试试卷参考答案一、单项选择题(每题3分,共30分)B(c()是创建向量的基础函数,data.frame()创建数据框,matrix()创建矩阵,list()创建列表)C(readxl包专门用于读取Excel文件,dplyr用于数据处理,ggplot2用于绘图,tidyr用于数据整理)A(mean()计算均值,sum()求和,median()求中位数,var()求方差)B(geom_point()绘制散点图,geom_line()绘制折线图,geom_bar()绘制条形图,geom_histogram()绘制直方图)A(head(df,n)查看前n行,tail()查看后n行,view()需加载dplyr包且语法为view(df))B(&表示“与”,|表示“或”,!表示“非”,==表示“等于”)D(matrix()中nrow和ncol可省略,rep(1,12)生成12个1,均能创建3行4列全1矩阵)A(filter()按条件筛选行,select()选择列,arrange()按列排序,mutate()新增列)A(rnorm()生成正态分布随机数,runif()生成均匀分布,rbinom()生成二项分布,rexp()生成指数分布)A(save.image()保存所有对象,load()加载保存的对象,save()需指定具体对象)二、简答题(每题6分,共30分)区别:向量:1维数据结构,所有元素类型相同(如数值型、字符型),通过索引[]访问元素;矩阵:2维数据结构(行×列),所有元素类型相同,通过[行索引,列索引]访问;数据框:2维数据结构,列可包含不同类型(如一列数值、一列字符),每列对应一个变量,每一行对应一个观测,是R中最常用的tabular数据格式。联系:矩阵可看作特殊的向量(增加维度信息),数据框的每一列本质是一个向量,三者均可通过索引访问元素,且可通过as.vector()、as.matrix()、as.data.frame()函数相互转换(需满足数据类型要求)。核心代码框架:#加载ggplot2包library(ggplot2)#绘制散点图ggplot(data=data,aes(x=weight,y=height,color=gender))+geom_point()+#散点图几何对象labs(x="体重",y="身高",color="性别")#设置轴标签和图例标题函数功能与用法差异:select(df,列名1,列名2):选择列,按列名或列索引提取数据框中的指定列,如select(df,name,math)提取“姓名”和“数学成绩”列;filter(df,条件):筛选行,按逻辑条件保留符合要求的行,如filter(df,age>=18)保留年龄≥18的行;mutate(df,新列名=计算规则):新增列,基于已有列计算生成新列,如mutate(df,total=math+english)新增“总成绩”列;arrange(df,列名1,desc(列名2)):排序行,按指定列升序(默认)或降序(desc())排序,如arrange(df,gender,desc(math))按性别升序、数学成绩降序排序。可能原因及排查方法:原因1:变量x未定义(未赋值),排查:运行ls()查看当前工作空间中的对象,确认是否存在x;原因2:变量x定义在其他环境(如函数内部、已关闭的脚本),排查:检查代码执行顺序,确保x的赋值语句在调用语句之前;原因3:变量名拼写错误(如大小写敏感,X与x是不同变量),排查:核对变量名拼写,使用Tab键自动补全避免拼写错误;原因4:数据框中的列名误作变量调用(如df$x误写为x),排查:若x是数据框df的列,需用df$x或df[,"x"]调用。常用函数及参数:(1)read.csv(file,header=TRUE,sep=",",stringsAsFactors=FALSE):功能:读取CSV文件;关键参数:file指定文件路径(如"data/student.csv"),header是否将第一行作为列名(默认TRUE),sep指定分隔符(CSV文件默认,),stringsAsFactors是否将字符列转换为因子(默认FALSE,避免自动转换)。(2)read.table(file,header=FALSE,sep="",na.strings="NA"):功能:读取通用文本文件(如TXT);关键参数:header默认FALSE(需手动指定列名),sep=""表示任意空白字符(空格、制表符)作为分隔符,na.strings指定缺失值标记(默认"NA",如na.strings="?"表示将?视为缺失值)。三、实操题(每题20分,共40分)完整代码及结果说明:#(1)读取数据并查看基本信息#读取CSV文件(假设文件在当前工作目录)student<-read.csv("student.csv",stringsAsFactors=FALSE)#查看数据维度(行×列)dim(student)#预期输出:如[1]505(50行数据,5列)#查看列名colnames(student)#预期输出:[1]"name""gender""age""math""english"#查看数据类型和前几行str(student)#预期输出:字符型(name,gender)、数值型(age,math,english)head(student)#查看前6行数据#(2)筛选数学>80且英语>75的学生high_score<-filter(student,math>80&english>75)#预期结果:数据框仅包含符合条件的行,列数不变#(3)按性别分组计算平均分(需加载dplyr包)library(dplyr)gender_avg<-student%>%group_by(gender)%>%#按性别分组summarise(math_avg=mean(math,na.rm=TRUE),#数学平均分(排除缺失值)english_avg=mean(english,na.rm=TRUE)#英语平均分)#预期结果:2行(假设性别为男/女)3列(gender,math_avg,english_avg)的数据框#(4)绘制条形图(需加载ggplot2包)library(ggplot2)ggplot(data=gender_avg,aes(x=gender,y=math_avg))+geom_bar(stat="identity",fill="skyblue")+#条形图(stat="identity"用y轴数值作为高度)labs(title="各性别数学成绩平均分",x="性别",y="平均分")+theme(plot.title=element_text(hjust=0.5))#标题居中#预期结果:条形图x轴为“男/女”,y轴为对应平均分,蓝色条形,标题和轴标签清晰代码及结果解释:#定义向量xx<-c(2,5,7,3,9,4,6,8,1,10)#(1)计算统计量mean_x<-mean(x)#均值:(2+5+7+3+9+4+6+8+1+10)/10=5.5median_x<-median(x)#中位数:排序后为1,2,3,4,5,6,7,8,9,10,中间两个数5和6的平均=5.5sd_x<-sd(x)#标准差:约2.872(计算各数据与均值差的平方和/9后开方)range_x<-range(x)#极差:最大值10-最小值1=9#输出结果cat("均值:",mean_x,",中位数:",median_x,",标准差:",sd_x,",极差:",range_x[2]-range_x[1],"\n")#(2)转换为矩阵并计算行和mat<-matrix(x,nrow=2,ncol=5,byrow=TRUE)#byrow=TRUE按行填充,矩阵为:#[,1][,2][,3][,4][,5]#[1,]25739#[2,]468110row_sum<-rowSums(mat)#行和:第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度合作伙伴满意度调查问卷通知函7篇
- 护理安全警示教育考试试题(附答案)
- 一年级正体图形题目及答案
- 一年级下册教材试卷及答案
- 工程项目事情初期响应预案
- 关于员工加班费结算的公告(5篇)
- 第15讲 开学综合摸底检测试卷及答案-2026年秋三升四小学数学(人教版新教材适配)
- 预防传染病建立健康屏障小学主题班会课件
- 智慧灯杆车牌识别施工方案及技术措施
- 小学主题班会课件:坚持与放弃的选择
- 2026年安全生产管理人员培训试题(含答案)
- 2026年高考广东物理真题含答案
- 2026年房地产经纪人考试基础知识试卷附答案
- 2026云南昆明空港投资开发集团有限公司第二次招聘3人笔试模拟试题及答案详解
- 文物保护工程从业资格考试知识点大全2025
- 广东工业大学《机械设计基础E》2023-2024学年第二学期期末试卷
- 医院管理中的生态与环境保护
- 【MOOC】化学与健康-青岛科技大学 中国大学慕课MOOC答案
- 河南省南阳市2023-2024学年高二下学期期终质量评估+物理试卷答案
- 高一下学期7月期末考试语文试题(含答案)-4
- 2024年天津专升本计算机考试真题试卷及答案
评论
0/150
提交评论