【答案】《探索数据的奥秘》(南京大学)章节期末慕课答案

上传人：小*** IP属地：福建上传时间：2026-02-11 格式：DOCX 页数：28 大小：30.23KB 积分：9.6 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

【答案】《探索数据的奥秘》(南京大学)章节期末慕课答案有些题目顺序不一致，下载后按键盘ctrl+F进行搜索第三讲数据搜集与准备1-3单元测验1.单选题：一位葡萄酒经销商找到你，想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问，从数据科学的观点，这是一个什么问题？

选项：

A、分类

B、关联化

C、特征提取

D、预测

答案：【关联化】2.单选题：又到了大学新生入学的时间。你作为学生会中的老干部，很荣幸领到了一项为新生匹配舍友的任务，每四个新生同住一间宿舍。有无穷活力的你，决定利用你所了解的数据科学来实现自动匹配，让个性、爱好相似的人成为舍友。请问，从数据科学的观点，这是一个什么问题？

选项：

A、分类

B、聚类

C、关联化

D、特征提取

答案：【聚类】3.单选题：人类探索世界的第四科学范式是指

选项：

A、实验

B、理论

C、计算

D、数据科学

答案：【数据科学】4.单选题：关于模型的评价，以下说法中不正确的是：

选项：

A、模型采用什么样的评价指标和具体的模型类型密切相关

B、对于一个有效的数据科学模型，其评价指标需优于以往实现同类任务的模型所实现的指标

C、在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可

D、分类模型的性能评价常规采用混淆矩阵

答案：【在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可】5.单选题：一个完整的数据科学项目，应起始于

选项：

A、问题的确定

B、数据搜集

C、建立高大上的模型

D、目标制定

答案：【问题的确定】6.单选题：以下关于数据科学的说法，你认为正确的是

选项：

A、数据科学其实就是统计学

B、数据科学就是机器学习

C、数据科学就是传统意义的“科学”，不必过多考虑工程应用

D、数据科学涉及多学科与工程应用的融合与交叉

答案：【数据科学涉及多学科与工程应用的融合与交叉】7.单选题：以下关于大数据的特点描述，错误的是

选项：

A、大数据是指体量非常大的结构化数据

B、大数据具有种类繁多、速度快时效高的特点

C、大数据的价值密度相对较低

D、数据量大到常常需要并行计算处理

答案：【大数据是指体量非常大的结构化数据】8.多选题：以下说法正确的是：

选项：

A、问题和目标，都涉及两个层面：用户层面和数据科学层面。

B、用户层面我们面临的一般是一个现实世界中的具体问题。

C、用户层面的问题与目标涉及到最后项目的验收，因此一旦明确，也就指出了我们努力的方向和路径。

D、数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。

答案：【问题和目标，都涉及两个层面：用户层面和数据科学层面。;用户层面我们面临的一般是一个现实世界中的具体问题。;数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。】9.多选题：“张大妈服用我们的产品治好了多年的老寒腿”，为什么不能作为产品有效的科学依据？

选项：

A、样本容量太小

B、存在抽样偏差

C、未考虑混杂因素

D、单个个体不能代表总体

答案：【样本容量太小;存在抽样偏差;未考虑混杂因素;单个个体不能代表总体】10.多选题：以下哪些是数据？

选项：

A、你听讲座时的录音文件

B、十字路口的监控视频

C、传感器采集到的你的生命体征信息

D、你在朋友圈里发布的动态

答案：【你听讲座时的录音文件;十字路口的监控视频;传感器采集到的你的生命体征信息;你在朋友圈里发布的动态】11.多选题：以下哪些技术支撑了现今的数据时代？

选项：

A、传感技术

B、互联网与通信技术

C、存储技术

D、航天技术

答案：【传感技术;互联网与通信技术;存储技术】12.单选题：传统统计学认为样本容量大于30就具备统计学意义了，所以大数据时代的数据，哪怕不是全部数据，也可以有效代表总体。

选项：

A、正确

B、错误

答案：【错误】13.单选题：确定数据的构成，一般是指建立一张不可再分的二维表。表中一行代表一个样本，一列代表样本的一个特征或属性。

选项：

A、正确

B、错误

答案：【正确】14.单选题：不同的假设很可能会涉及不同的数据，最终导致不同的研究内容。

选项：

A、正确

B、错误

答案：【正确】15.单选题：根据前提假设，只要能设计出对应的数据构成，我们就可以进入数据收集。

选项：

A、正确

B、错误

答案：【错误】16.单选题：明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设。

选项：

A、正确

B、错误

答案：【正确】17.单选题：所谓混杂因素，是指那些不是我们的考察对象，但却可能对结果造成影响的因素。

选项：

A、正确

B、错误

答案：【正确】18.单选题：产生“辛普森悖论”的主要原因是没有排除混杂因素的影响。

选项：

A、正确

B、错误

答案：【正确】19.单选题：抽样偏差（Samplingbias）是指从总体中非随机性抽样带来的系统性错误。

选项：

A、正确

B、错误

答案：【正确】20.单选题：现在的模型功能非常强大，所以拿到数据以后，可以直接建模，让模型自动化分析。

选项：

A、正确

B、错误

答案：【错误】21.单选题：一个数据科学项目，可能涉及的人员包括项目出资方、客户（或用户）、数据科学家、数据架构师和运营工程师，不同的角色有不同任务，大家各有其专业领域，各司其职即可，不要相互影响。

选项：

A、正确

B、错误

答案：【错误】22.样本真实反映总体的两个前提条件是：1.（）；2.无偏抽样

答案：【样本容量足够大/样本足够多/样本够多】23.样本真实反映总体的两个前提条件是：1.样本容量足够大；2.（）

答案：【无偏】24.明确问题与目标，都包含两个层面：现实层面和（）层面

答案：【数据科学】25.在一个数据科学项目中，最核心的人员是（）

答案：【数据科学家】第四讲Python简介非计分项-第4章地震数据1.供下载，不计分

答案：【无】4单元测验1.单选题：Pandas.read_csv函数读取数据文件时，指定参数（）（也就是为其赋值）可以实现数据的流读取，即不将数据一次性加载，而是以连续流的方式加载。

选项：

A、chunksize

B、index

C、header

D、delimiter

答案：【chunksize】2.单选题：在JupyterNotebook中执行以下代码，在输出区会打印（）：my_list=['haha',True,56,7,8,9,10]print（my_list[1:3]）

选项：

A、[True,56]

B、['haha',True]

C、[56,7]

D、[9,10]

答案：【[True,56]】3.单选题：执行以下代码：my_list=['C#','Java','Python','R']foriin[1,2]:print('xixi')foropt_languageinmy_list:print('haha')print('hello')会在输出区打印（）次xixi

选项：

A、1

B、2

C、4

D、3

答案：【2】4.单选题：执行以下代码：my_list=['C#','Java','Python','R']foriin[1,2]:print('xixi')foropt_languageinmy_list:print('haha')print('hello')会在输出区打印（）次hello

选项：

A、2

B、1

C、8

D、7

答案：【1】5.多选题：以下不允许被修改的数据结构是

选项：

A、list

B、tuple

C、dict

D、set

E、DataFrame

答案：【tuple;set】6.多选题：我想创建一个其中元素可以被修改、同时支持不同数据类型的数据结构，可以选择以下的：

选项：

A、list（列表）

B、tuple（元组）

C、set（集合）

D、Pandas的DataFrame（数据框）

答案：【list（列表）;Pandas的DataFrame（数据框）】7.单选题：Python支持的while循环，其与for循环的重要区别在于需要在循环体中用代码修改循环变量。

选项：

A、正确

B、错误

答案：【正确】8.单选题：Python支持for循环和while循环，两种执行基本一样，都不需要额外用代码在循环体中修改循环变量。

选项：

A、正确

B、错误

答案：【错误】9.单选题：字典结构中的键（key），可看做一种索引，可以是列表、元组、集合等。

选项：

A、正确

B、错误

答案：【错误】10.将表格导入到DataFrame结构中后，如果只对表格中的内容（数据）感兴趣，可以访问DataFrame的（）属性。

答案：【values】11.用NumPy.loadtxt成功导入数据文件后，返回的数据结构是（）

答案：【numpy.ndarray/numpy的ndarray】12.执行以下代码：importmathx=float(input())ifx>0:print('x是正数')print('x的平方根是',math.sqrt(x))elifx==0:print('x是0')print('x的平方根是0')else:print('x是负数')print('x不可以求平方根')print('x=',x)当输入9时，输出区会打印（）

答案：【x是正数x的平方根是3x=9/x是正数x的平方根是3x=9】13.执行以下代码：my_list=['C#','Java','Python','R']foriin[1,2]:print('xixi')foropt_languageinmy_list:print('haha')print('hello')会在输出区打印（）次haha

答案：【8】14.Python中，采用（）来界定循环语句块。

答案：【缩进】15.本节介绍的6种数据结构中，（）存储结构化的数据（即二维表）最合适。

答案：【Pandas.DataFrame/Pandas的DataFrame】16.在JupyterNotebook中执行以下代码，在输出区会打印（）：my_list=['haha',True,56,7,8]print（my_list[2]）

答案：【56】第五讲探索性数据分析5单元测验1.单选题：当我们想观察两个数值型特征之间的相互关系时，可以选择的图形化方法是

选项：

A、直方图

B、箱型图

C、散点图

D、柱状图

答案：【散点图】2.单选题：以下不属于离散性测度的是

选项：

A、极差

B、标准差

C、变异系数

D、众数

答案：【众数】3.单选题：以下不属于位置性测度统计量的是

选项：

A、均值

B、中位数

C、p百分位数

D、众数

E、变异系数

答案：【变异系数】4.单选题：对于随机缺失情况下的缺失值填充，以下说法不正确的是

选项：

A、缺失值填充是一种加分手段，可以修复缺失的信息。

B、可以用邻近值填充缺失值

C、可以指定用均值填充缺失值

D、可以指定用众数填充缺失值

答案：【缺失值填充是一种加分手段，可以修复缺失的信息。】5.多选题：以下情况中，应判断数据有冗余的是

选项：

A、有重复行

B、有重复列

C、某个特征（某列）是另一个特征（另一列）的简单线性变换

D、某个特征是另外几个特征的线性组合

答案：【有重复行;有重复列;某个特征（某列）是另一个特征（另一列）的简单线性变换;某个特征是另外几个特征的线性组合】6.多选题：对于结构化数据中的特征，其可能的数据类型包括

选项：

A、以浮点数或整数存储的数值型

B、以字符或整数或逻辑值存储的布尔型

C、以字符存储的字符型

D、以整数存储的排序型

答案：【以浮点数或整数存储的数值型;以字符或整数或逻辑值存储的布尔型;以字符存储的字符型;以整数存储的排序型】7.多选题：在EDA的阶段，我们主要的任务是

选项：

A、了解数据规模

B、了解数据的意义

C、了解特征的意义和数据类型

D、检查缺失、冗余和异常并做相应处理

E、描述性统计

F、对数据建模

答案：【了解数据规模;了解数据的意义;了解特征的意义和数据类型;检查缺失、冗余和异常并做相应处理;描述性统计】8.单选题：非数值型的特征，由于不能计算位置性测度和离散性测度，所以在描述性统计中没有任何用处。

选项：

A、正确

B、错误

答案：【错误】9.单选题：箱型图只能用于数值型的特征。

选项：

A、正确

B、错误

答案：【正确】10.单选题：图形化的统计描述，只能针对数值型的特征。

选项：

A、正确

B、错误

答案：【错误】11.单选题：结构化数据中的特征，其存储类型就是特征真实的数据类型，因此只要是浮点数或整数存储的特征，就可以当做数值型来对待，例如可对其进行各种数学运算。

选项：

A、正确

B、错误

答案：【错误】12.单选题：对于已整理成二维表格的结构化数据，通常一行代表一个样本，一列代表一个特征（或属性）。

选项：

A、正确

B、错误

答案：【正确】非计分项-第5讲数据1.Titanic数据

答案：【无】第六讲建模I非计分项-第6讲数据1.数据文件

答案：【无】6单元测验1.单选题：H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，此时，你应该

选项：

A、接受H0，拒绝H1

B、拒绝H0，接受H1

C、同时接受H0和H1

D、同时拒绝H0和H1

答案：【拒绝H0，接受H1】2.单选题：张三获得了一批贷款申请用户的数据，在各种处理之后，张三提取了100个数值型特征。他考察了高风险客户和低风险客户在这100个特征上的均值，并进行了双样本均值检验，发现其中有4个特征的假设检验p值小于设定的alpha(0.05)，请问，以下他应该采取哪种做法。

选项：

A、发表论文，报道他已找到4个有效区分高风险和低风险客户的特征。

B、针对同一批数据，换一批特征，看看有没有p值更小的特征。

C、换一批数据，换一批特征，看看有没有p值更小的特征。

D、对这4个特征，在一批新数据上重新检验，看看是否p值依然小于显著性水平alpha

答案：【对这4个特征，在一批新数据上重新检验，看看是否p值依然小于显著性水平alpha】3.单选题：H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，如果你选择拒绝H0而接受H1，那么你错误拒绝H0的概率是

选项：

A、0.001

B、0.003

C、0.997

D、0.999

答案：【0.001】4.多选题：以下属于描述性统计的方法或参数是

选项：

A、均值、标准差

B、直方图

C、中位数

D、均值t-检验的p值

答案：【均值、标准差;直方图;中位数】5.多选题：以下关于线性回归分析的说法，正确的是

选项：

A、给定不重合的点，一定能找到回归直线

B、只要找到回归直线，y就一定与x线性相关

C、回归分析中r-square越大说明回归效果越好

D、r-square就是线性相关系数，因此取值在-1到1之间

答案：【给定不重合的点，一定能找到回归直线;回归分析中r-square越大说明回归效果越好】6.单选题：样本的统计均值就是总体均值的无偏估计。

选项：

A、正确

B、错误

答案：【正确】7.单选题：基于样本的统计量而对总体分布的参数进行估计就是参数估计。

选项：

A、正确

B、错误

答案：【正确】8.单选题：线性回归常常被用来预测一个连续区间上的数量值，而逻辑回归则被用于二分类问题。

选项：

A、正确

B、错误

答案：【正确】9.单选题：线性回归只能用来预测一个连续区间上的数量值，不能用来分类。

选项：

A、正确

B、错误

答案：【错误】10.参数估计包括点估计和（）估计。

答案：【区间】11.统计推断包括参数估计和（）两大类。

答案：【假设检验】第七讲建模II非计分项-第7讲数据1.可下载附件

答案：【无】7单元测验1.单选题：对鸢尾花数据集，如果以sepal_length,sepal_width为特征，基于朴素贝叶斯训练一个鸢尾花的分类模型，你会选择以下哪个模型：

选项：

A、高斯模型

B、伯努利模型

C、多项式模型

D、无效选项

答案：【高斯模型】2.单选题：以下说法不正确的是

选项：

A、有监督学习模型需要有标签数据

B、无监督学习模型不需要有标签数据

C、有监督学习模型都分为模型的训练和模型的应用两个阶段，前一阶段利用有标签数据建立模型，后一阶段则在标签未知的数据上应用模型来预测标签。

D、无监督学习模型的性能评价和模型解释与有监督学习模型没有大的区别。

答案：【无监督学习模型的性能评价和模型解释与有监督学习模型没有大的区别。】3.单选题：以下属于非监督学习模型的是

选项：

A、贝叶斯模型

B、回归模型

C、决策树模型

D、K-Means模型

答案：【K-Means模型】4.单选题：敏感性指标的取值范围在

选项：

A、[0,1]

B、[-1,1]

C、[0,正无穷)

D、(负无穷,0]

答案：【[0,1]】5.多选题：以下关于决策树的说法正确的是：

选项：

A、决策树中有节点和叶。

B、每个节点可看做一个条件分支。

C、树顶端第一个节点称为根节点，根节点对于分类的重要性最高。

D、构建决策树时，选择节点的特征和划分的依据是使数据纯度提升最多的特征和划分。

答案：【决策树中有节点和叶。;每个节点可看做一个条件分支。;树顶端第一个节点称为根节点，根节点对于分类的重要性最高。;构建决策树时，选择节点的特征和划分的依据是使数据纯度提升最多的特征和划分。】6.多选题：以下说法正确的是：

选项：

A、敏感性和特异性两个指标，两个取值都是[0,1]

B、单独来看，敏感性指标越大越好

C、单独来看，特意性指标越大越好

D、现实情况中，敏感性与特异性两个指标往往不能兼顾，例如常常敏感性高了，特异性就会降低

答案：【敏感性和特异性两个指标，两个取值都是[0,1];单独来看，敏感性指标越大越好;单独来看，特意性指标越大越好;现实情况中，敏感性与特异性两个指标往往不能兼顾，例如常常敏感性高了，特异性就会降低】7.单选题：为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率小于全部判断“不属于setosa”的空模型准确率2/3，所以小明不应该接受该模型。

选项：

A、正确

B、错误

答案：【正确】8.单选题：为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率大于50%，所以小明应该接受该模型。

选项：

A、正确

B、错误

答案：【错误】9.单选题：分类任务中，只要输入特征是连续取值的数值型特征，就一定可以应用高斯贝叶斯分类模型。

选项：

A、正确

B、错误

答案：【错误】10.sklearn库中有多种基本模型的对象，可以直接拿来生成实例后使用。这些对象中一般都用（）函数来训练模型。

答案：【fit】11.某个科幻网站拟发展新会员。据权威报道，目前网络用户中科幻爱好者的比例为5%。为了快速筛选出潜在会员，公司给了你以往积累的数据如下表，喜欢《三体》不喜欢《三体》科幻爱好者71非科幻爱好者2080现在，有一位用户表示他喜欢《三体》，请问：他是科幻爱好者的概率是（）。请保留2位小数。

答案：【0.19】期末考试《探索数据的奥秘》期末测验1.单选题：一位葡萄酒经销商找到你，想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问，从数据科学的观点，这是一个什么问题？

选项：

A、关联化

B、预测

C、特征提取

D、分类

选项：

A、特征提取

B、聚类

C、关联化

D、分类

答案：【聚类】3.单选题：关于模型的评价，以下说法中不正确的是：

选项：

A、分类模型的性能评价常规采用混淆矩阵

B、对于一个有效的数据科学模型，其评价指标需优于以往实现同类任务的模型所实现的指标

C、模型采用什么样的评价指标和具体的模型类型密切相关

D、在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可

答案：【在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可】4.单选题：一个完整的数据科学项目，应起始于

选项：

A、问题的确定

B、数据搜集

C、建立高大上的模型

D、目标制定

答案：【问题的确定】5.单选题：以下关于数据科学的说法，你认为正确的是

选项：

A、数据科学涉及多学科与工程应用的融合与交叉

B、数据科学其实就是统计学

C、数据科学就是机器学习

D、数据科学就是传统意义的“科学”，不必过多考虑工程应用

答案：【数据科学涉及多学科与工程应用的融合与交叉】6.单选题：以下关于大数据的特点描述，错误的是

选项：

A、数据量大到常常需要并行计算处理

B、大数据是指体量非常大的结构化数据

C、大数据的价值密度相对较低

D、大数据具有种类繁多、速度快时效高的特点

答案：【大数据是指体量非常大的结构化数据】7.单选题：人类探索世界的第四科学范式是指

选项：

A、实验

B、数据科学

C、理论

D、计算

答案：【数据科学】8.单选题：关于欠拟合与过拟合，以下哪种说法是不正确的

选项：

A、欠拟合一般是由于样本集合太大而造成的

B、欠拟合时，增加模型的复杂度，或者增加输入特征的个数，可有望改善

C、过拟合时，增加训练集样本个数，可有望改善

D、过拟合时，减小模型复杂度，可有望改善

答案：【欠拟合一般是由于样本集合太大而造成的】9.单选题：关于偏差-变异性权衡，以下哪种说法是不正确的

选项：

A、减少输入的特征种类，可一定程度上减小模型的偏差

B、一般而言，模型的复杂度越高，训练集内偏差越小

C、复杂度过高的模型常面临泛化能力差的问题

D、增加训练样本，可一定程度上减小模型的变异性

答案：【减少输入的特征种类，可一定程度上减小模型的偏差】10.单选题：以下说法不正确的是

选项：

A、无监督学习模型的性能评价和模型解释与有监督学习模型没有大的区别。

B、有监督学习模型需要有标签数据

C、无监督学习模型不需要有标签数据

D、有监督学习模型都分为模型的训练和模型的应用两个阶段，前一阶段利用有标签数据建立模型，后一阶段则在标签未知的数据上应用模型来预测标签。

答案：【无监督学习模型的性能评价和模型解释与有监督学习模型没有大的区别。】11.单选题：Numpy.loadtxt导入数据文件以后，返回的数据结构是：

选项：

A、Numpy.ndarray

B、List

C、Tuple

D、Set

答案：【Numpy.ndarray】12.单选题：以下适合存储含不同数据类型数据的二维表的数据结构是：

选项：

A、Pandas.DataFrame

B、Numpy.ndarray

C、List

D、Dict

答案：【Pandas.DataFrame】13.单选题：以下说法正确的是

选项：

A、当数据集中的类别数量严重不匹配时，用ROC曲线的AUC指标衡量分类参数的性能会更好。

B、k折交叉验证是一种与训练-测试划分截然不同的做法。

C、模型的调参就是寻找使模型性能最优的参数，不必考虑资源消耗代价。

D、随机森林和决策树模型都可以很方便的可视化。

答案：【当数据集中的类别数量严重不匹配时，用ROC曲线的AUC指标衡量分类参数的性能会更好。】14.单选题：关于随机森林，以下说法不正确的是

选项：

A、随机森林只能用来分类，不能用来预测一个连续的数值型结果。

B、随机森林模型训练和应用的速度都较决策树慢

C、都不做K折交叉验证时，随机森林的性能评价比决策树的可靠

D、随机森林通常性能比决策树好

答案：【随机森林只能用来分类，不能用来预测一个连续的数值型结果。】15.单选题：对鸢尾花数据集，如果以sepal_length,sepal_width为特征，基于朴素贝叶斯训练一个鸢尾花的分类模型，你会选择以下哪个模型：

选项：

A、高斯模型

B、伯努利模型

C、多项式模型

D、无效选项

答案：【高斯模型】16.单选题：张三获得了一批贷款申请用户的数据，在各种处理之后，张三提取了100个数值型特征。他考察了高风险客户和低风险客户在这100个特征上的均值，并进行了双样本均值检验，发现其中有4个特征的假设检验p值小于设定的alpha(0.05)，请问，以下他应该采取哪种做法。

选项：

A、对这4个特征，在一批新数据上重新检验，看看是否p值依然小于显著性水平alpha

B、发表论文，报道他已找到4个有效区分高风险和低风险客户的特征。

C、针对同一批数据，换一批特征，看看有没有p值更小的特征。

D、换一批数据，换一批特征，看看有没有p值更小的特征。

答案：【对这4个特征，在一批新数据上重新检验，看看是否p值依然小于显著性水平alpha】17.单选题：H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，如果你选择拒绝H0而接受H1，那么你错误拒绝H0的概率是

选项：

A、0.001

B、0.003

C、0.997

D、0.999

答案：【0.001】18.单选题：以下属于非监督学习模型的是

选项：

A、K-Means模型

B、贝叶斯模型

C、回归模型

D、决策树模型

答案：【K-Means模型】19.单选题：敏感性指标的取值范围在

选项：

A、[0,1]

B、[-1,1]

C、[0,正无穷)

D、(负无穷,0]

答案：【[0,1]】20.单选题：以下不属于离散性测度的是

选项：

A、众数

B、极差

C、标准差

D、变异系数

答案：【众数】21.单选题：以下不属于位置性测度统计量的是

选项：

A、变异系数

B、均值

C、中位数

D、p百分位数

E、众数

答案：【变异系数】22.单选题：对于随机缺失情况下的缺失值填充，以下说法不正确的是

选项：

A、缺失值填充是一种加分手段，可以修复缺失的信息。

B、可以指定用众数填充缺失值

C、可以指定用均值填充缺失值

D、可以用邻近值填充缺失值

答案：【缺失值填充是一种加分手段，可以修复缺失的信息。】23.单选题：H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，此时，你应该

选项：

A、拒绝H0，接受H1

B、接受H0，拒绝H1

C、同时接受H0和H1

D、同时拒绝H0和H1

答案：【拒绝H0，接受H1】24.单选题：当我们想观察两个数值型特征之间的相互关系时，可以选择的图形化方法是

选项：

A、散点图

B、直方图

C、箱型图

D、柱状图

答案：【散点图】25.单选题：Pandas.read_csv函数读取数据文件时，指定参数（）（也就是为其赋值）可以实现数据的流读取，即不将数据一次性加载，而是以连续流的方式加载。

选项：

A、chunksize

B、index

C、header

D、delimiter

答案：【chunksize】26.单选题：在JupyterNotebook中执行以下代码，在输出区会打印（）：my_list=['haha',True,56,7,8,9,10]print（my_list[1:3])

选项：

A、[True,56]

B、['haha',True]

C、[56,7]

D、[9,10]

答案：【[True,56]】27.单选题：执行以下代码：my_list=['C#','Java','Python','R']foriin[1,2]:print('xixi')foropt_languageinmy_list:print('haha')print('hello')会在输出区打印（）次xixi

选项：

A、2

B、1

C、4

D、3

答案：【2】28.单选题：执行以下代码：my_list=['C#','Java','Python','R']foriin[1,2]:print('xixi')foropt_languageinmy_list:print('haha')print('hello')会在输出区打印（）次hello

选项：

A、1

B、2

C、8

D、7

答案：【1】29.多选题：以下说法正确的是：

选项：

A、问题和目标，都涉及两个层面：用户层面和数据科学层面。

B、数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。

C、用户层面的问题与目标涉及到最后项目的验收，因此一旦明确，也就指出了我们努力的方向和路径。

D、用户层面我们面临的一般是一个现实世界中的具体问题。

答案：【问题和目标，都涉及两个层面：用户层面和数据科学层面。;数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。;用户层面我们面临的一般是一个现实世界中的具体问题。】30.多选题：以下哪些是数据？

选项：

A、你听讲座时的录音文件

B、十字路口的监控视频

C、传感器采集到的你的生命体征信息

D、你在朋友圈里发布的动态

答案：【你听讲座时的录音文件;十字路口的监控视频;传感器采集到的你的生命体征信息;你在朋友圈里发布的动态】31.多选题：“张大妈服用我们的产品治好了多年的老寒腿”，为什么不能作为产品有效的科学依据？

选项：

A、样本容量太小

B、存在抽样偏差

C、未考虑混杂因素

D、单个个体不能代表总体

答案：【样本容量太小;存在抽样偏差;未考虑混杂因素;单个个体不能代表总体】32.多选题：以下哪些技术支撑了现今的数据时代？

选项：

A、传感技术

B、互联网与通信技术

C、存储技术

D、航天技术

答案：【传感技术;互联网与通信技术;存储技术】33.多选题：以下关于集成模型的说法，正确的是

选项：

A、随机森林是一种集成模型。

B、集成模型提高性能的条件之一是模型间必须是相互独立的。

C、好模型和好模型集成才能得到更好的模型。

D、决策树是一种集成模型。

答案：【随机森林是一种集成模型。;集成模型提高性能的条件之一是模型间必须是相互独立的。;好模型和好模型集成才能得到更好的模型。】34.多选题：以下关于结果展示，正确的是

选项：

A、面向用户展示结果时，应侧重介绍项目给用户带来的改变及如何使用项目结果（如模型）。

B、结果展示的听众（对象）不同，展示的侧重应有所不同。

C、面向投资方时，应主要展示项目的各种技术细节。

D、面向同行时，应主要展示项目的社会效益与经济效益。

答案：【面向用户展示结果时，应侧重介绍项目给用户带来的改变及如何使用项目结果（如模型）。;结果展示的听众（对象）不同，展示的侧重应有所不同。】35.多选题：以下属于描述性统计的方法或参数是

选项：

A、均值、标准差

B、直方图

C、中位数

D、均值t-检验的p值

答案：【均值、标准差;直方图;中位数】36.多选题：以下关于线性回归分析的说法，正确的是

选项：

A、给定不重合的点，一定能找到回归直线

B、回归分析中r-square越大说明回归效果越好

C、只要找到回归直线，y就一定与x线性相关

D、r-square就是线性相关系数，因此取值在-1到1之间

答案：【给定不重合的点，一定能找到回归直线;回归分析中r-square越大说明回归效果越好】37.多选题：以下关于决策树的说法正确的是：

选项：

A、决策树中有节点和叶。

B、每个节点可看做一个条件分支。

C、树顶端第一个节点称为根节点，根节点对于分类的重要性最高。

D、构建决策树时，选择节点的特征和划分的依据是使数据纯度提升最多的特征和划分。

答案：【决策树中有节点和叶。;每个节点可看做一个条件分支。;树顶端第一个节点称为根节点，根节点对于分类的重要性最高。;构建决策树时，选择节点的特征和划分的依据是使数据纯度提升最多的特征和划分。】38.多选题：以下说法正确的是：

选项：

A、敏感性和特异性两个指标，两个取值都是[0,1]

B、单独来看，敏感性指标越大越好

C、单独来看，特意性指标越大越好

D、现实情况中，敏感性与特异性两个指标往往不能兼顾，例如常常敏感性高了，特异性就会降低

答案：【敏感性和特异性两个指标，两个取值都是[0,1];单独来看，敏感性指标越大越好;单独来看，特意性指标越大越好;现实情况中，敏感性与特异性两个指标往往不能兼顾，例如常常敏感性高了，特异性就会降低】39.多选题：以下情况中，应判断数据有冗余的是

选项：

A、有重复行

B、有重复列

C、某个特征（某列）是另一个特征（另一列）的简单线性变换

D、某个特征是另外几个特征的线性组合

答案：【有重复行;有重复列;某个特征（某列）是另一个特征（另一列）的简单线性变换;某个特征是另外几个特征的线性组合】40.多选题：对于结构化数据中的特征，其可能的数据类型包括

选项：

A、以浮点数或整数存储的数值型

B、以字符或整数或逻辑值存储的布尔型

C、以字符存储的字符型

D、以整数存储的排序型

答案：【以浮点数或整数存储的数值型;以字符或整数或逻辑值存储的布尔型;以字符存储的字符型;以整数存储的排序型】41.多选题：我想创建一个其元素可以被修改、同时支持不同数据类型的数据结构，可以选择以下的：

选项：

A、list（列表）

B、Pandas的DataFrame（数据框）

C、tuple（元组）

D、set（集合）

答案：【list（列表）;Pandas的DataFrame（数据框）】42.多选题：在EDA的阶段，我们主要的任务是

选项：

A、了解数据规模

B、了解数据的意义

C、了解特征的意义和数据类型

D、检查缺失、冗余和异常并做相应处理

E、描述性统计

F、对数据建模

答案：【了解数据规模;了解数据的意义;了解特征的意义和数据类型;检查缺失、冗余和异常并做相应处理;描述性统计】43.多选题：以下其元素不允许被修改的数据结构是

选项：

A、tuple

B、set

C、list

D、dict

E、DataFrame

答案：【tuple;set】44.单选题：现在的模型功能非常强大，所以拿到数据以后，可以直接建模，让模型自动化分析。

选项：

A、正确

B、错误

答案：【错误】45.单选题：一个数据科学项目，可能涉及的人员包括项目出资方、客户（或用户）、数据科学家、数据架构师和运营工程师，不同的角色有不同任务，大家各有其专业领域，各司其职即可，不要相互影响。

选项：

A、正确

B、错误

答案：【错误】46.单选题：产生“辛普森悖论”的主要原因是没有排除混杂因素的影响。

选项：

A、正确

B、错误

答案：【正确】47.单选题：抽样偏差（Samplingbias）是指从总体中非随机性抽样带来的系统性错误。

选项：

A、正确

B、错误

答案：【正确】48.单选题：传统统计学认为样本容量大于30就具备统计学意义了，所以大数据时代的数据，哪怕不是全部数据，也可以有效代表总体。

选项：

A、正确

B、错误

答案：【错误】49.单选题：确定数据的构成，一般是指建立一张不可再分的二维表。表中一行代表一个样本，一列代表样本的一个特征或属性。

选项：

A、正确

B、错误

答案：【正确】50.单选题：明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设，不同的假设很可能会涉及不同的数据，最终导致不同的研究内容。

选项：

A、正确

B、错误

答案：【正确】51.单选题：根据前提假设，只要能设计出对应的数据构成，我们就可以进入数据收集。

选项：

A、正确

B、错误

答案：【错误】52.单选题：明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设。

选项：

A、正确

B、错误

答案：【正确】53.单选题：只要是将多个模型集成，就一定能提高性能。

选项：

A、正确

B、错误

答案：【错误】54.单选题：由于偏差-方差困境，评价模型时不能只看训练集上的性能，更要看模型处理新数据时的性能。

选项：

A、正确

B、错误

答案：【正确】55.单选题：Python中，用缩进来界定循环语句块，当退出缩进时即表示不再属循环块了。

选项：

A、正确

B、错误

答案：【正确】56.单选题：为研究长寿秘诀，小明去多个长寿之乡采访了100位百岁老人，把他们共同的生活习惯总结成为了长寿秘诀。由于幸存者偏差，小明的结论并不可靠。

选项：

A、正确

B、错误

答案：【正确】57.单选题：线性回归常常被用来预测一个连续区间上的数量值，而逻辑回归则被用于二分类问题。

选项：

A、正确

B、错误

答案：【正确】58.单选题：线性回归只能用来预测一个连续区间上的数量值，不能用来分类。

选项：

A、正确

B、错误

答案：【错误】59.单选题：分类任务中，只要输入特征是连续取值的数值型特征，就一定可以应用高斯贝叶斯分类模型。

选项：

A、正确

B、错误

答案：【错误】60.单选题：为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率小于全部判断“不属于setosa”的空模型准确率2/3，所以小明不应该接受该模型。

选项：

A、正确

B、错误

答案：【正确】61.单选题：为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率大于50%，所以小明应该接受该模型。

选项：

A、正确

B、错误

答案：【错误】62.

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【答案】《探索数据的奥秘》(南京大学)章节期末慕课答案

文档简介

温馨提示

最新文档

评论

【答案】《探索数据的奥秘》(南京大学)章节期末慕课答案

文档简介

温馨提示

最新文档

评论

相关文档