版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上部:问道1/5多选题(2分)等号可以表示那些含义?等同于定义为映射联系答案:ABCD2/5判断题(1分)对于照片中人的年龄识别,可以认为是将特征取值与人类可能的年龄划上了等号答案:√3/5判断题(1分)在玻意耳定律中,体积与压强(经过变换)之后划上了等号,表明二者质非相同,量却相等答案:√4/5判断题(1分)机器学习中的有监督学习,主要体现为在自变量与因变量之间划上等号答案:√5/5单选题(1分)若要将邮件文本特征与是否是垃圾邮件划上等号,必须完成以下哪项工作?过滤垃圾邮件建立模型绘制词云文本情感分析答案:B1/12判断题(1分)分类是无监督学习的代表,聚类是有监督学习的代表答案:×2/12正确答案:AD3/12多选题(2分)从认知的角度看,以下说法正确的是概念化是归类学习是归类感知是归类决策是归类答案:ABCD4/12判断题(1分)一般认为,数据挖掘可以包含数据分析技术和数据管理技术答案:√5/12多选题(2分)机器所能学到的知识包括模式模型算法函数答案:ABD6/12判断题(1分)关联规则主要表现为项集之间的因果关系答案:×7/12判断题(1分)聚类分析的结果主要表现为数据空间的距离结构答案:√8/12判断题(1分)模型不在于构建,而在于选择答案:√9/12单选题(1分)就逻辑推理方式而言,训练模型的过程属于归纳演绎都是都不是答案:A10/12单选题(1分)就逻辑推理方式而言,将模型应用于预测的过程属于归纳演绎都是都不是答案:B11/12判断题(1分)为确保模型的有效性,需要采用数学的方法对算法习得的模型进行证明答案:×12/12判断题(1分)结构风险最小化策略,主要是为了提升模型在训练集上的性能指标答案:×1/6判断题(1分)所有的模型都是错的,但有些是有用的答案:√2/6判断题(1分)无监督学习本身没有类标签,因此无法判断模型是否正确,也无需开展模型评估答案:×3/6判断题(1分)相关关系不能等同于因果关系答案:√4/6判断题(1分)数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已答案:√5/6判断题(1分)在集成学习中,单个分类器一般称之为弱分类器,组合分类器称之为强分类器答案:√6/6判断题(1分)数据密集型科学发现是一种新的范式,无需掌握机理模型,也无需了解业务背景答案:×1/10判断题(1分)数学是研究模式的科学答案:√2/10多选题(2分)以下属于有监督学习算法的有近邻法k-均值随机森林孤立森林答案:AC3/10判断题(1分)在最近邻法中,每个训练样本的势力范围是半径为r的球体答案:×4/10判断题(1分)近邻法分类的基本原理是根据数据空间中距离的远近,将测试点分配至不同的类中心答案:×5/10判断题(1分)决策树的构建过程,主要是通过属性取值不同,对空间进行细分,在细分空间中标签足够纯,从而实现分类答案:√6/10判断题(1分)随机森林的总体结构依然是一棵决策树,树的分枝又由若干棵决策树构成答案:×7/10判断题(1分)朴素贝叶斯分类器是将特征属性的取值作为新的证据,对对象所属类别的先验概率进行调整,从而实现分类答案:√8/10判断题(1分)逻辑斯蒂回归模型可以作为神经网络的计算节点答案:√9/10判断题(1分)支持向量机是在特征张成的数据空间中,通过分类超平面实现类别的划分答案:√10/10判断题(1分)对于特定情境的建模问题,正确的答案:、正确的模型应该是唯一的答案:×中部:执具1/4判断题(1分)R是一个数据分析和绘图的环境答案:√2/4判断题(1分)R只适合传统统计,不适合机器学习和数据挖掘等任务答案:×3/4判断题(1分)大部分数据科学团队,都同时使用两种以上的工具,如R和Python答案:√4/4判断题(1分)本课程代码及数据托管于/byaxb/RDataAnalytics答案:√1/10单选题(1分)以下选项中,不包含在CRISP-DM数据处理流程中的是:数据理解建模推理评估答案:C2/10多选题(2分)R代码的组成部分有数据对象函数调用注释变量定义答案:ABC3/10判断题(1分)R编码的基本过程可以概括为“利用别人的包和函数,讲述自己的故事”答案:√4/10多选题(2分)R里边的循环结构有哪些实现方式forwhileuntilrepeat答案:ABD5/10判断题(1分)repeat循环体中必然有一条next语句,否则会形成死循环答案:×6/10多选题(2分)欲查询if的帮助文档,正确的语句是help('if')?if?'if'?"if"答案:ACD7/10多选题(2分)与1+1等价的语句有'+'(1,1)"+"(1,1)%+%(1,1)微信图片_20191222143929.jpg答案:ABD8/10判断题(1分)magrittr扩展包中的管道操作符lhs%>%rhs是一个函数,lhs和rhs分别为一个数据对象及函数对象答案:√9/10判断题(1分)泛型函数可以根据对象所属类型的不同,执行不同的操作答案:√10/10判断题(1分)常见的+属于泛型函数,ggplot2扩展包对其进行了扩展答案:√第7章数据对象——面向数据对象学习R语言1/13多选题(2分)对于向量x<-c(first=1,second=2,third=3),合法的访问方式有:x[c(1,2,1,3)]x[c(-1,2,3)]x[c(-1,-3)]x[c('first',"third")]答案:ACD2/13单选题(1分)语句1:10-1:3的结果是0003336669000456789100122344569语法错误,无结果答案:A3/13单选题(1分)语句sort(c(3,1,4,1,5,9,2,6))的结果是:11234569965432116853172424713586答案:A4/13单选题(1分)语句order(c(3,'.',1,4,1,5))的结果是".""1""1""3""4""5""5""4""3""1""1""."641352235146答案:D5/13单选题(1分)用以表征等级、规模的变量,属于以下哪种变量定类变量定序变量定距变量定比变量答案:B6/13判断题(1分)利用R语言进行有监督学习,若将其视为分类问题对待,则因变量一般要转换为因子答案:√7/13多选题(2分)可以作为矩阵M的列下标的是落入区间[1,ncol(M)]的正整数落入区间[-ncol(M),-1]的负整数长度为ncol(M)的逻辑向量由names(M)中元素组成的字符向量答案:ABCD8/13判断题(1分)无论外部数据是图片、音频还是文本,均可转换为向量/因子/矩阵/数组/列表/数据框中的某种类型之一答案:√9/13判断题(1分)数组对象可通过array()函数创建答案:√10/13单选题(1分)若字符向量partA是列表my_list的第1个组成部分,那么my_list[1]的结果是列表对象字符对象序号对象空对象答案:A11/13多选题(2分)对于列表my_list的第一个组成部分partA,以下描述正确的是:语句my_list['partA']与my_list[['partA']]等价语句my_list$partA与my_list[[1]]等价语句my_list[[1]]与my_list[['partA']]等价语句my_list$partA与my_list[['partA']]等价答案:BCD12/13单选题(1分)在R语言数据建模中,用得最多的数据对象是向量列表因子数据框答案:D13/13单选题(1分)要将数据框df(包含3列)的第2列和第3列调换位置,正确的代码是df<-df[,c(1,3,2)]df[,c(1,3,2)]df<-df[c(1,3,2),]df[c(1,3,2),]答案:A第8章人人都爱tidyverse1/13判断题(1分)magrittr扩展包中的管道操作符,x%>%f%>%g表示f(g(x))答案:×3/13判断题(1分)x%>%tail(n=3)等价于tail(x,n=3)答案:√4/13判断题(1分)df%>%select(1:3)%>%tail(n=3)表示选取数据框df的前三列后三行答案:√5/13判断题(1分)df%>%mutate(sum3=rowSums(.[1:3]))表示基于df产生一个临时对象,该对象比数据框df多一列sum3,且sum3为df前三列之和答案:√6/13多选题(2分)以下代码中,表示将数据框df按照其中的col1列从高到低进行排序的是df%<>%arange(desc(col1))df%<>%arange(col1)df%>%arange(desc(col1))->dfdf%>%arange(desc(col1))答案:AC7/13判断题(1分)tidyr::spread()的功能是将长的数据变为宽的数据答案:√8/13判断题(1分)tidyr::gather()的功能是将宽的数据变为长的数据答案:√9/13单选题(1分)分组之后进行summarise(freq=n()),此处的freq表示每组的记录数总的记录数每组的列数总的列数答案:A10/13多选题(2分)在dplyr扩展包中,列操作的函数有select()mutate()filter()arrange()答案:AB11/13多选题(2分)在dplyr扩展包中,行操作的函数有select()mutate()filter()arrange()答案:CD12/13判断题(1分)宽数据变为长数据,将由之前的若干列变为两列答案:√13/13单选题(1分)对于一个100×8的数据框,若将其中的5列数据由宽变长,变换之后的数据框的行列数分别为100行8列500行8列500行5列100行5列答案:C第9章最美不过数据框1/7多选题(2分)数据框中的列,可表达的含义有属性特征数据空间的维度变量答案:ABCD3/7判断题(1分)数据框可视为函数的三种表达方式之一——列表法答案:√4/7判断题(1分)数据框的每一行,表现为数据空间中的一个点答案:√5/7判断题(1分)数据空间中的列,可以作为数据空间的维度答案:√6/7判断题(1分)数据框中的自变量,一般都表现为数据空间的维度,而因变量的取值(如类别),一般表现为数据点的标签答案:√7/7多选题(2分)数据框中蕴含的关系结构包括映射关系距离关系伴随关系相关关系答案:ABCD下部:博术第10章观数以形1/10单选题(1分)在R语言中,茎叶图可通过以下哪个函数实现graphics::stem()graphics::barplot()graphics::boxplot()graphics::hist()答案:A2/10判断题(1分)在ggplot绘图系统中,几何映射geom与统计变换stat是成对出现答案:√3/10单选题(1分)在ggplot2绘图系统中,通过以下哪个函数绘制概率密度图geom_densitygeom_pointgeom_stepgeom_hist答案:A4/10判断题(1分)箱线图通过分位数来刻画数据的分布答案:√5/10多选题(2分)在箱线图中,符合以下哪些条件的数据被视为异常数据大于Q3+1.5*IQR小于Q1-1.5*IQR处于上边界或下边界之外的数据处于中位数附近的数据答案:ABC6/10多选题(2分)哪些统计量可用来刻画数据的分散程度极差四分位距标准差中位数答案:ABC7/10单选题(1分)可直接用来计算相关系数的函数是stats::cor()stats::cov()stats::dist()stats::density()答案:A8/10单选题(1分)层峦叠嶂图属于何种分组图形分组箱线图分组概率密度图分组直方图分组茎叶图答案:B9/10判断题(1分)数据空间的密度,可定义为单位体积内数据的质量答案:×10/10判断题(1分)在计算Hopkins统计量时,随机抽取的点的个数,一般接近于记录数答案:×第11章相随相伴、谓之关联1/18判断题(1分)关联分析(AssociationAnalysis)用于发现隐藏在大型数据集中有意义的联系,所发现的联系可以用频繁项集或关联规则的形式表示答案:√2/18判断题(1分)项集出现的频度是包含该项集的事务数,简称为项集的支持度答案:×3/18判断题(1分)如果项集的支持度满足预定义的最小支持度阈值,称之为频繁项集答案:√4/18判断题(1分)规则X→Y的置信度定义为P(Y|X)答案:√5/18判断题(1分)Apriori算法所基于的先验性质是:非频繁项集的超集必定是非频繁的答案:√6/18单选题(1分)在Apriori算法中,在得到频繁的k-1项集之后,通过以下哪种连接方法,生成k-项集候选所有的k-项集都看做可能的候选集通过频繁的k-1项集和频繁的1项集连接生成频繁的k-项集候选通过合并一对频繁的k-1项集生成频繁的k项集候选以上都不是答案:C7/18判断题(1分)如果规则X→(Y-X)不满足置信度阈值,则规则X'→(Y-X')的规则也一定不满足置信度阈值,其中X为X'的真子集答案:×8/18判断题(1分)满足最小支持度和置信度要求的规则X→Y是强规则,意味着X的出现有助于促进Y的出现答案:×9/18多选题(2分)对于规则X→Y和规则Y→X,相同的度量指标是支持度置信度提升度因果置信度答案:AC10/18判断题(1分)若要通过arules::apriori挖掘若干连续变量之间的关联关系,通常需要对这些变量进行离散化处理答案:√11/18判断题(1分)apriori算法采用逐层递进的方法生成频繁项集。若事务记录中共有N个项,则首先查找频繁的N项集,在此基础上查找频繁的N-1项集候选,逐层递进答案:×12/18判断题(1分)在Apriori算法中,需要先生成关联规则,然后才可以生成频繁项集答案:×13/18判断题(1分)支持度用以减少偶然性,置信度用以增加推断能力。因此,支持度设为0.8,置信度设为0.01是一个合理的参数设置答案:×14/18判断题(1分)设I={I1,I2,I3,I4,I5},若频繁3-项集为{I1,I2,I3},{I1,I2,I4},则可以将{I1,I2,I3,I4}作为频繁的4-项集候选答案:×15/18判断题(1分)由于Apriori在挖掘规则的过程中,已经设置了支持度和置信度,因此对于挖出的规则无需进行评估答案:×16/18判断题(1分)若规则X→Y大于预先定义的最小支持度阈值和最小置信度阈值要求,则表明Y伴随X出现,X与Y是正相关关系答案:×17/18判断题(1分)规则X→Y所表示的只是伴随关系,而非因果关系,即:X伴随着Y的出现而出现答案:×18/18判断题(1分)在支持度、置信度框架之下,FP-Growth等算法,可以挖出比Apriori算法更多更好的规则答案:×第12章既是世间法、自当有分别1/12判断题(1分)分类与回归的核心任务是建立函数关系y=f(X),若y为数值变量,称之为回归;若y为类别变量,称之为分类答案:√2/12多选题(2分)以下关于近邻法的描述,正确的是近邻法是惰性学习方法测试记录的标签,取决于训练集中离得最近的k条记录若近邻数k=1,称之为最近邻法邻近性可通过欧氏距离、曼哈顿距离等不同的指标进行度量答案:ABCD3/12多选题(2分)决策树建模过程中,常用的不纯度指标有分类错误率Gini指数信息增益增益率答案:ABCD4/12单选题(1分)分类回归树CART可通过以下哪个函数实现e1071::naiveBayes()stats::hclust()rpart::rpart()nnet::nnet()答案:C5/12多选题(2分)以下用于rpart树模型可视化的函数有rpart::predict.rpart()rpart.plot::rpart.plot()rpart::plot.rpart()rpart::text.rpart()答案:BCD6/12判断题(1分)随机森林建模过程中,通过有放回的抽样方法得到自助样本,样本大小一般是原数据集的36%左右答案:×7/12判断题(1分)在朴素贝叶斯分类器中,假定特征之间相互独立答案:√8/12判断题(1分)贝叶斯公式p(y|X)=p(y)*(p(X|y)/p(X))用以分类,可将p(X|y)/p(X)视为X出现时对于y的提升程度答案:√9/12判断题(1分)逻辑斯蒂回归可以视为广义线性模型,其连接函数为logit函数答案:√10/12判断题(1分)在神经网络训练过程中,为了实现节点间权值的迭代优化,需要利用本节点的输出与实际值的偏差信息答案:×11/12判断题(1分)对于线性可分但存在噪声点数据的情形,支持向量机通过引入松弛变量的方法进行处理答案:√12/12多选题(2分)在R语言中,可用以支持向量机建模的函数有:kernlab::ksvm()stats::glm()e1071::svm()kknn::kknn()答案:AC第13章方以类聚、物以群分1/13判断题(1分)聚类分析将对象分成不同的簇,使得簇内对象彼此相似,簇间对象彼此相异答案:√2/13判断题(1分)聚类属于无监督学习,和分类不同,需要在预先不知道分类的情况下,将数据划分成有意义或有用的簇,捕获数据的自然结构答案:√3/13多选题(2分)以下属于数据标准化方法的有min-max标准化z-score标准化正项序列归一化连续数据离散化答案:ABC4/13单选题(1分)R语言中可直接用于数据标准化的函数有:base::mean()base::scale()stats::sd()e1071::kurtosis()答案:B5/13判断题(1分)欲判断数据是否适合聚类,可计算相应的Hopkins统计量。一般而言,Hopkins统计量接近于0.5,更适合开展聚类分析答案:×6/13判断题(1分)综合考虑凝聚性和分离性,可采用轮廓系数silhouettecoefficient评估聚类结果答案:√7/13多选题(2分)计算轮廓系数时,至少需要给定的两个参数是:对象之前的距离聚类所采用的方法对象所属的类类中心的位置答案:AC8/13多选题(2分)在R语言开源生态中,与kMeans算法相关的函数有stats::kmeans()fpc::kmeansruns()fpc::kmeansCBI()kknn::kknn()答案:ABC9/13判断题(1分)在k-Means建模过程中,若通过轮廓系数来优选k的取值,则轮廓系数最小的k值,为最优k值答案:×10/13判断题(1分)层次聚类hierarchicalclustering在不同层次上对数据集进行划分,通过树状图dendrogram来表征对象的远近关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大数据职业规划面试
- 2026年高职(水产养殖学)水产动物饲料配制测试题及答案
- 2026年商业综合体招商代理协议
- 绿色创业训练-农林牧渔创业之路
- 40岁职业规划心得
- 物化政治女生就业方向
- 低速汽车市场解析-把握趋势探寻增长之路
- 创新引领智慧共享-全新产品发布盛典
- A1驾驶证考试试题及答案
- 人教版八年级体育与健康第四章篮球运球急停急起说课课件(共15张)
- 工业智算发展研究报告(2025年)
- 2025年《CSCO小细胞肺癌诊疗指南》
- DB13∕T 6095-2025 水利工程施工图设计文件编制规程
- 2026年重庆国家电网招聘考试(公共与行业知识)试题及答案
- 脊柱侧弯康复训练方法
- 心律失常用药护理
- 医药代表roleplay培训课件
- GB/T 3672.1-2025橡胶制品的公差第1部分:尺寸公差
- 浙江省宁波市余姚市2023-2024学年高二年级上册期末考试英语试题(解析版)
- 2025年全国中学生生物学联赛试题及答案解析
- 足浴店店长劳务合同协议
评论
0/150
提交评论