学堂在线 R语言数据分析 章节测试答案_第1页
学堂在线 R语言数据分析 章节测试答案_第2页
学堂在线 R语言数据分析 章节测试答案_第3页
学堂在线 R语言数据分析 章节测试答案_第4页
学堂在线 R语言数据分析 章节测试答案_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章1、

多选题等号可以表示那些含义?A等同于B定义为C映射D联系ABCD2、

判断题

对于照片中人的年龄识别,可以认为是将特征取值与人类可能的年龄划上了等号对3、

判断题

在玻意耳定律中,体积与压强(经过变换)之后划上了等号,表明二者质非相同,量却相等对4、

判断题机器学习中的有监督学习,主要体现为在自变量与因变量之间划上等号对5、

单选题若要将邮件文本特征与是否是垃圾邮件划上等号,必须完成以下哪项工作?A过滤垃圾邮件B建立模型C绘制词云D文本情感分析B第二章1、

判断题分类是无监督学习的代表,聚类是有监督学习的代表错2、多选题

以下哪些行为可以视为归类行为A识别火源B打开灭火器C喷射泡沫D确认火已扑灭AD3、多选题从认知的角度看,以下说法正确的是A概念化是归类B学习是归类C感知是归类D决策是归类ABCD4、

判断题一般认为,数据挖掘可以包含数据分析技术和数据管理技术对5、

多选题

机器所能学到的知识包括A模式B模型C算法D函数ABD6、

判断题

关联规则主要表现为项集之间的因果关系错7、判断题

聚类分析的结果主要表现为数据空间的距离结构对8、

判断题

模型不在于构建,而在于选择对9、单选题

就逻辑推理方式而言,训练模型的过程属于A归纳B演绎C都是D都不是A10、

单选题就逻辑推理方式而言,将模型应用于预测的过程属于A归纳B演绎C都是D都不是B11、

判断题为确保模型的有效性,需要采用数学的方法对算法习得的模型进行证明错12、

判断题结构风险最小化策略,主要是为了提升模型在训练集上的性能指标错第三章1、

判断题所有的模型都是错的,但有些是有用的对2、判断题

无监督学习本身没有类标签,因此无法判断模型是否正确,也无需开展模型评估错3、

判断题相关关系不能等同于因果关系对4、

判断题数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已对5、

判断题

在集成学习中,单个分类器一般称之为弱分类器,组合分类器称之为强分类器对6、判断题数据密集型科学发现是一种新的范式,无需掌握机理模型,也无需了解业务背景错第四章1、

判断题

数学是研究模式的科学对2、

多选题

以下属于有监督学习算法的有A近邻法Bk-均值C随机森林D孤立森林AC3、判断题

在最近邻法中,每个训练样本的势力范围是半径为r的球体错4、

判断题近邻法分类的基本原理是根据数据空间中距离的远近,将测试点分配至不同的类中心错5、

判断题

决策树的构建过程,主要是通过属性取值不同,对空间进行细分,在细分空间中标签足够纯,从而实现分类对6、

判断题

随机森林的总体结构依然是一棵决策树,树的分枝又由若干棵决策树构成错7、

判断题

朴素贝叶斯分类器是将特征属性的取值作为新的证据,对对象所属类别的先验概率进行调整,从而实现分类对8、

判断题

逻辑斯蒂回归模型可以作为神经网络的计算节点对9、

判断题支持向量机是在特征张成的数据空间中,通过分类超平面实现类别的划分对10、

判断题

对于特定情境的建模问题,正确的答案、正确的模型应该是唯一的错第五章1、判断题

R是一个数据分析和绘图的环境对2、

判断题

R只适合传统统计,不适合机器学习和数据挖掘等任务错3、判断题

大部分数据科学团队,都同时使用两种以上的工具,如R和Python对4、判断题本课程代码及数据托管于对第六章1、

单选题

以下选项中,不包含在CRISP-DM数据处理流程中的是:A数据理解B建模C推理D评估C2、多选题

R代码的组成部分有A数据对象B函数调用C注释D变量定义ABC3、

判断题

R编码的基本过程可以概括为“利用别人的包和函数,讲述自己的故事”对4、

多选题

R里边的循环结构有哪些实现方式A、forB、whileC、untilD、repeatABD5、

判断题

repeat循环体中必然有一条next语句,否则会形成死循环错6、多选题欲查询if的帮助文档,正确的语句是A、help('if')B、?ifC、?'if'D、?"if"ACD7、多选题与1+1等价的语句有A、'+'(1,1)B、"+"(1,1)C、%+%(1,1)D、ABD8、

判断题

magrittr扩展包中的管道操作符lhs%>%rhs是一个函数,lhs和rhs分别为一个数据对象及函数对象对9、判断题

泛型函数可以根据对象所属类型的不同,执行不同的操作对10、

判断题

常见的+属于泛型函数,ggplot2扩展包对其进行了扩展对第七章1、多选题对于向量x<-c(first=1,second=2,third=3),合法的访问方式有:A、x[c(1,2,1,3)]B、x[c(-1,2,3)]C、x[c(-1,-3)]D、x[c('first',"third")]ACD2、单选题语句1:10-1:3的结果是A、0003336669B、00045678910C、0122344569D、语法错误,无结果A3、

单选题

语句sort(c(3,1,4,1,5,9,2,6))的结果是:A、11234569B、96543211C、68531724D、24713586A4、单选题语句order(c(3,'.',1,4,1,5))的结果是A、".""1""1""3""4""5"B、"5""4""3""1""1""."C、641352D、235146D5、

单选题用以表征等级、规模的变量,属于以下哪种变量A定类变量B定序变量C定距变量D定比变量B6、判断题

利用R语言进行有监督学习,若将其视为分类问题对待,则因变量一般要转换为因子对7、

多选题可以作为矩阵M的列下标的是A落入区间[1,ncol(M)]的正整数B落入区间[-ncol(M),-1]的负整数C长度为ncol(M)的逻辑向量D由names(M)中元素组成的字符向量ABCD8、

判断题

无论外部数据是图片、音频还是文本,均可转换为向量/因子/矩阵/数组/列表/数据框中的某种类型之一对9、

判断题数组对象可通过array()函数创建对10、

单选题

若字符向量partA是列表my_list的第1个组成部分,那么my_list[1]的结果是A列表对象B字符对象C序号对象D空对象A11、

多选题对于列表my_list的第一个组成部分partA,以下描述正确的是:A语句my_list['partA']与my_list[['partA']]等价B语句my_list$partA与my_list[[1]]等价C语句my_list[[1]]与my_list[['partA']]等价D语句my_list$partA与my_list[['partA']]等价BCD12、单选题在R语言数据建模中,用得最多的数据对象是A向量B列表C因子D数据框D13、单选题

要将数据框df(包含3列)的第2列和第3列调换位置,正确的代码是A、df<-df[,c(1,3,2)]B、df[,c(1,3,2)]C、df<-df[c(1,3,2),]D、df[c(1,3,2),]A第八章1、判断题

magrittr扩展包中的管道操作符,x%>%f%>%g表示f(g(x))错2、判断题

x%>%f(y,z,.)等价于f(x,y,z)错3、

判断题x%>%tail(n=3)等价于tail(x,n=3)对4、判断题df%>%select(1:3)%>%tail(n=3)表示选取数据框df的前三列后三行对5、判断题

df%>%mutate(sum3=rowSums(.[1:3]))表示基于df产生一个临时对象,该对象比数据框df多一列sum3,且sum3为df前三列之和对6、

多选题以下代码中,表示将数据框df按照其中的col1列从高到低进行排序的是A、df%<>%arange(desc(col1))B、df%<>%arange(col1)C、df%>%arange(desc(col1))->dfD、df%>%arange(desc(col1))AC7、判断题tidyr::spread()的功能是将长的数据变为宽的数据对8、判断题

tidyr::gather()的功能是将宽的数据变为长的数据对9、

单选题分组之后进行summarise(freq=n()),此处的freq表示A每组的记录数B总的记录数C每组的列数D总的列数A10、

多选题在dplyr扩展包中,列操作的函数有A、select()B、mutate()C、filter()D、arrange()AB11、

多选题

在dplyr扩展包中,行操作的函数有A、select()B、mutate()C、filter()D、arrange()CD12、

判断题

宽数据变为长数据,将由之前的若干列变为两列对13、单选题对于一个100×8的数据框,若将其中的5列数据由宽变长,变换之后的数据框的行列数分别为A100行8列B500行8列C500行5列D100行5列C第九章1、

多选题

数据框中的列,可表达的含义有A属性B特征C数据空间的维度D变量ABCD2、

多选题

数据框中的行,可表达的含义有A样本B观测记录C特征向量D数据空间中的数据点ABCD3、判断题

数据框可视为函数的三种表达方式之一——列表法对4、判断题

数据框的每一行,表现为数据空间中的一个点对5、判断题数据空间中的列,可以作为数据空间的维度对6、

判断题

数据框中的自变量,一般都表现为数据空间的维度,而因变量的取值(如类别),一般表现为数据点的标签对7、

多选题

数据框中蕴含的关系结构包括A映射关系B距离关系C伴随关系D相关关系ABCD第十章1、单选题在R语言中,茎叶图可通过以下哪个函数实现A、graphics::stem()B、graphics::barplot()C、graphics::boxplot()D、graphics::hist()A2、判断题在ggplot绘图系统中,几何映射geom与统计变换stat是成对出现对3、单选题

在ggplot2绘图系统中,通过以下哪个函数绘制概率密度图A、geom_densityB、geom_pointC、geom_stepD、geom_histA4、判断题

箱线图通过分位数来刻画数据的分布对5、多选题

在箱线图中,符合以下哪些条件的数据被视为异常数据A大于Q3+1.5*IQRB小于Q1-1.5*IQRC处于上边界或下边界之外的数据D处于中位数附近的数据ABC6、

多选题

哪些统计量可用来刻画数据的分散程度A极差B四分位距C标准差D中位数ABC7、单选题可直接用来计算相关系数的函数是A、stats::cor()B、stats::cov()C、stats::dist()D、stats::density()A8、

单选题

层峦叠嶂图属于何种分组图形A分组箱线图B分组概率密度图C分组直方图D分组茎叶图B9、

判断题

数据空间的密度,可定义为单位体积内数据的质量错10、

判断题

在计算Hopkins统计量时,随机抽取的点的个数,一般接近于记录数错第十一章1、判断题

关联分析(AssociationAnalysis)用于发现隐藏在大型数据集中有意义的联系,所发现的联系可以用频繁项集或关联规则的形式表示对2、

判断题

项集出现的频度是包含该项集的事务数,简称为项集的支持度错3、

判断题如果项集的支持度满足预定义的最小支持度阈值,称之为频繁项集对4、

判断题

规则X→Y的置信度定义为P(Y|X)对5、

判断题

Apriori算法所基于的先验性质是:非频繁项集的超集必定是非频繁的对6、单选题

在Apriori算法中,在得到频繁的k-1项集之后,通过以下哪种连接方法,生成k-项集候选A所有的k-项集都看做可能的候选集B通过频繁的k-1项集和频繁的1项集连接生成频繁的k-项集候选C通过合并一对频繁的k-1项集生成频繁的k项集候选D以上都不是C7、

判断题如果规则X→(Y-X)不满足置信度阈值,则规则X'→(Y-X')的规则也一定不满足置信度阈值,其中X为X'的真子集错8、

判断题满足最小支持度和置信度要求的规则X→Y是强规则,意味着X的出现有助于促进Y的出现错9、

多选题

对于规则X→Y和规则Y→X,相同的度量指标是A支持度B置信度C提升度D因果置信度AC10、判断题

若要通过arules::apriori挖掘若干连续变量之间的关联关系,通常需要对这些变量进行离散化处理对11、判断题

apriori算法采用逐层递进的方法生成频繁项集。若事务记录中共有N个项,则首先查找频繁的N项集,在此基础上查找频繁的N-1项集候选,逐层递进错12、

判断题

在Apriori算法中,需要先生成关联规则,然后才可以生成频繁项集错13、判断题支持度用以减少偶然性,置信度用以增加推断能力。因此,支持度设为0.8,置信度设为0.01是一个合理的参数设置错14、判断题设I={I1,I2,I3,I4,I5},若频繁3-项集为{I1,I2,I3},{I1,I2,I4},则可以将{I1,I2,I3,I4}作为频繁的4-项集候选错15、

判断题

由于Apriori在挖掘规则的过程中,已经设置了支持度和置信度,因此对于挖出的规则无需进行评估错16、判断题

若规则X→Y大于预先定义的最小支持度阈值和最小置信度阈值要求,则表明Y伴随X出现,X与Y是正相关关系错17、判断题规则X→Y所表示的只是伴随关系,而非因果关系,即:X伴随着Y的出现而出现错18、判断题

在支持度、置信度框架之下,FP-Growth等算法,可以挖出比Apriori算法更多更好的规则错第十二章1、判断题分类与回归的核心任务是建立函数关系y=f(X),若y为数值变量,称之为回归;若y为类别变量,称之为分类对2、

多选题以下关于近邻法的描述,正确的是A近邻法是惰性学习方法B测试记录的标签,取决于训练集中离得最近的k条记录C若近邻数k=1,称之为最近邻法D邻近性可通过欧氏距离、曼哈顿距离等不同的指标进行度量ABCD3、

多选题决策树建模过程中,常用的不纯度指标有A分类错误率BGini指数C信息增益D增益率ABCD4、单选题分类回归树CART可通过以下哪个函数实现A、e1071::naiveBayes()B、stats::hclust()C、rpart::rpart()D、nnet::nnet()C5、

多选题以下用于rpart树模型可视化的函数有A、rpart::predict.rpart()B、rpart.plot::rpart.plot()C、rpart::plot.rpart()D、rpart::text.rpart()BCD6、

判断题

随机森林建模过程中,通过有放回的抽样方法得到自助样本,样本大小一般是原数据集的36%左右错7、

判断题在朴素贝叶斯分类器中,假定特征之间相互独立对8、判断题贝叶斯公式p(y|X)=p(y)*(p(X|y)/p(X))用以分类,可将p(X|y)/p(X)视为X出现时对于y的提升程度对9、判断题

逻辑斯蒂回归可以视为广义线性模型,其连接函数为logit函数对10、

判断题

在神经网络训练过程中,为了实现节点间权值的迭代优化,需要利用本节点的输出与实际值的偏差信息错11、判断题

对于线性可分但存在噪声点数据的情形,支持向量机通过引入松弛变量的方法进行处理对12、

多选题在R语言中,可用以支持向量机建模的函数有:A、kernlab::ksvm()B、stats::glm()C、e1071::svm()D、kknn::kknn()AC第十三章1、

判断题聚类分析将对象分成不同的簇,使得簇内对象彼此相似,簇间对象彼此相异对2、判断题聚类属于无监督学习,和分类不同,需要在预先不知道分类的情况下,将数据划分成有意义或有用的簇,捕获数据的自然结构对3、

多选题

以下属于数据标准化方法的有Amin-max标准化Bz-score标准化C正项序列归一化D连续数据离散化ABC4、单选题R语言中可直接用于数据标准化的函数有:A、base::mean()B、base::scale()C、stats::sd()D、e1071::kurtosis()B5、

判断题

欲判断数据是否适合聚类,可计算相应的Hopkins统计量。一般而言,Hopkins统计量接近于0.5,更适合开展聚类分析错6、

判断题

综合考虑凝聚性和分离性,可采用轮廓系数silhouettecoefficient评估聚类结果对7、

多选题计算轮廓系数时,至少需要给定的两个参数是:A对象之前的距离B聚类所采用的方法C对象所属的类D类中心的位置AC8、

多选题在R语言开源生态中,与kMeans算法相关的函数有A、stats::kmeans()B、fpc::kmeansruns()C、fpc::kmeansCBI()D、kknn::kknn()ABC9、判断题在k-Means建模过程中,若通过轮廓系数来优选k的取值,则轮廓系数最小的k值,为最优k值错10、判断题

层次聚类hierarchicalclustering在不同层次上对数据集进行划分,通过树状图dendrogram来表征对象的远近关系对11、判断题自下而上的层次聚类方法,其基本过程是每一次合并最接近的两个簇,直至仅剩下一个簇对12、

多选题簇之前的距

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论