【答案】《数据挖掘与python实践》(中央财经大学)章节期末慕课答案_第1页
【答案】《数据挖掘与python实践》(中央财经大学)章节期末慕课答案_第2页
【答案】《数据挖掘与python实践》(中央财经大学)章节期末慕课答案_第3页
【答案】《数据挖掘与python实践》(中央财经大学)章节期末慕课答案_第4页
【答案】《数据挖掘与python实践》(中央财经大学)章节期末慕课答案_第5页
已阅读5页,还剩53页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【答案】《数据挖掘与python实践》(中央财经大学)章节期末慕课答案有些题目顺序不一致,下载后按键盘ctrl+F进行搜索第一单元导言第一单元测验1.单选题:为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为()。

选项:

A、通过Anaconda安装

B、直接下载Python安装

C、通过浏览器查找处理过的Python安装包

D、直接安装Pycharm

答案:【通过Anaconda安装】2.单选题:以下Python包中,提供了DataFrame数据类型的是()。

选项:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Pandas】3.单选题:以下Python包中,最适合用于机器学习的是()。

选项:

A、Scikit-learn

B、Pandas

C、Numpy

D、Matplotlib

答案:【Scikit-learn】4.单选题:以下Python包中,绘图功能最强大的是()。

选项:

A、Matplotlib

B、Pandas

C、Scikit-learn

D、Numpy

答案:【Matplotlib】5.单选题:Python科学计算的基本包是()。

选项:

A、Numpy

B、Pandas

C、Scikit-learn

D、Matplotlib

答案:【Numpy】6.单选题:Python语言的创始人是()。

选项:

A、GuidovanRossum

B、BillGates

C、SergeyBrin

D、LarryPage

答案:【GuidovanRossum】7.单选题:下列应用场景不属于分类的是()。

选项:

A、对信用卡申请者判断其信誉高低

B、医生根据患者的症状判断所患疾病类型

C、推广新产品时预测已有客户是否对新产品感兴趣

D、为了解用户特点,公司将客户分群

答案:【为了解用户特点,公司将客户分群】8.单选题:数值预测用于连续变量的取值,常用的预测方法是()。

选项:

A、回归分析

B、聚类

C、关联

D、分类

答案:【回归分析】9.单选题:结构化的数据是指一些数据通过统一的()的形式存储的,这类数据我们称为结构化的数据。

选项:

A、文档

B、二维表格

C、图像

D、声音

答案:【二维表格】10.单选题:一般数据挖掘的流程顺序,下列正确的是()。①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤创建目标数据集

选项:

A、③④①⑤②

B、⑤④②①③

C、③②⑤①④

D、③⑤②①④

答案:【③⑤②①④】11.单选题:数据挖掘又称从数据中发现知识,前者英文简称为()。

选项:

A、KPP

B、DM

C、KDD

D、DD

答案:【DM】12.单选题:数据挖掘又称从数据中发现知识,后者英文简称为()。

选项:

A、KPP

B、KDP

C、KDD

D、KPD

答案:【KDD】13.多选题:数据挖掘和哪些学科领域有关系()。

选项:

A、统计

B、机器学习

C、数据库

D、优化

答案:【统计;机器学习;数据库;优化】14.多选题:数据挖掘包括下面哪些方法()。

选项:

A、分类

B、聚类

C、关联

D、异常发现

答案:【分类;聚类;关联;异常发现】15.单选题:关联分析是数据分析中常用的分析方法。

选项:

A、正确

B、错误

答案:【正确】16.单选题:序列分析经常会用在购物篮分析中。

选项:

A、正确

B、错误

答案:【错误】17.单选题:分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。

选项:

A、正确

B、错误

答案:【错误】18.单选题:分类和回归都可用于预测,分类的输出是离散的类别值。

选项:

A、正确

B、错误

答案:【正确】19.单选题:聚类针对有标签的数据。

选项:

A、正确

B、错误

答案:【错误】20.预测的模型构建需要来进行分析。

答案:【历史数据】21.从存储方式对数据类型进行分类,可分为数据和数据。(输入两个位置的答案时,以一个空格作为分隔符)

答案:【结构化非结构化】22.在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是技术和数据挖掘技术。

答案:【数据仓库】23.在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是数据仓库技术和技术。

答案:【数据挖掘】24.就是根据有类别的数据提供的信息,来概括类别的主要特征,构建模型或者规则,根据该模型或者规则预测对象的类别。

答案:【分类】第二单元认识数据第二章单元测验1.单选题:为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为()。

选项:

A、直接下载Python安装

B、通过Anaconda安装

C、通过浏览器查找处理过的Python安装包

D、直接安装Pycharm

答案:【通过Anaconda安装】2.单选题:以下Python包中,提供了DataFrame数据类型的是()。

选项:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Pandas】3.单选题:以下Python包中,最适合用于机器学习的是()。

选项:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Scikit-learn】4.单选题:以下Python包中,绘图功能最强大的是()。

选项:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Matplotlib】5.单选题:Python科学计算的基本包是()。

选项:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Numpy】6.单选题:Python语言在创始人是()。

选项:

A、BillGates

B、SergeyBrin

C、LarryPage

D、GuidovanRossum

答案:【GuidovanRossum】7.单选题:度量作为一种测度,满足以下哪些条件:

选项:

A、同一性

B、对称性

C、三角不等式

D、以上均是

答案:【以上均是】8.单选题:4人喜欢服饰的颜色如下,属性是标称属性。李四和孙六的相似性是()。姓名帽子颜色上衣颜色裤子颜色鞋子颜色围巾颜色张三红蓝蓝绿红李四红蓝蓝红粉王五黄绿蓝绿红孙六蓝蓝蓝红粉

选项:

A、1/5

B、2/5

C、3/5

D、4/5

答案:【4/5】9.单选题:()可以观察从一个分布到另一分布是否有漂移。

选项:

A、直方图

B、散点图

C、盒图

D、分位数-分位数图

答案:【分位数-分位数图】10.单选题:下列哪些选项能表示序数属性的数据集中趋势度量()。

选项:

A、众数

B、均值

C、四分位数

D、标准差

答案:【众数】11.单选题:下列对学生相关属性描述中,不是标称属性的是()。

选项:

A、头发颜色

B、婚姻状况

C、身高

D、学号

答案:【身高】12.多选题:在探索性数据分析中,认为最有代表性,最能反映数据重要特征的五数概括,包括:

选项:

A、中位数Q2

B、四分位数Q1

C、四分位数Q3

D、最小值

E、最大值

答案:【中位数Q2;四分位数Q1;四分位数Q3;最小值;最大值】13.多选题:下列哪些指标可以度量数据的离散趋势度量:

选项:

A、极差

B、四分位数

C、四分位数极差

D、五数概括

答案:【极差;四分位数;四分位数极差;五数概括】14.多选题:下列对学生的描述属性中,标称属性的属性是:

选项:

A、头发颜色

B、婚姻状况

C、身高

D、学号

答案:【头发颜色;婚姻状况;学号】15.单选题:序数属性的值存在有意义的序。相邻两者之间的差是已知的。

选项:

A、正确

B、错误

答案:【错误】16.单选题:二元属性是一种特殊的标称属性,分为对称和不对称两种。

选项:

A、正确

B、错误

答案:【正确】17.单选题:在文献中,属性、维、特征和变量通常可以互换地使用。

选项:

A、正确

B、错误

答案:【正确】18.单选题:在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上,实现在单个相异性矩阵中进行计算。

选项:

A、正确

B、错误

答案:【正确】19.单选题:相异性矩阵又称对象-对象结构,存放n个对象两两之间的邻近度。

选项:

A、正确

B、错误

答案:【正确】20.单选题:一般来说数据库中行对应于数据对象,而列对应于属性。

选项:

A、正确

B、错误

答案:【正确】21.单选题:对于非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义,其中负匹配数t被认为是不重要的,因此在计算时可以忽略。

选项:

A、正确

B、错误

答案:【正确】22.单选题:盒图用来考察两个属性之间是否存在正相关和负相关。

选项:

A、正确

B、错误

答案:【错误】23.单选题:四分位数极差(IQR)是第1个和第2个四分位数之间的距离。

选项:

A、正确

B、错误

答案:【错误】24.单选题:如果属性不是离散的,则它是连续的。

选项:

A、正确

B、错误

答案:【正确】25.x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式计算这两个向量之间的相似性等于。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】

答案:【0.9】26.给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的上确界距离。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】

答案:【3】27.给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的曼哈顿距离。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】

答案:【7】28.给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的欧氏距离。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】

答案:【4.1】29.中列数是数据集的最大值和的平均值。

答案:【最小值】30.为了抵消少数极端值对均值计算的影响,我们可以使用。

答案:【截尾均值】第三单元数据预处理第三单元测验1.单选题:运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本特征数为()。

选项:

A、150

B、4

C、600

D、154

答案:【4】2.单选题:运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本个数为()。

选项:

A、150

B、4

C、600

D、154

答案:【150】3.单选题:主成分分析方法PCA属于属于python中的哪个包()。

选项:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】4.单选题:最小最大规范化方法MinMaxScaler属于python中的哪个包()。

选项:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】5.单选题:使用python处理缺失值的方法中叙述错误的是()。

选项:

A、isnull()判断缺失值

B、dropna()删除缺失值

C、fillna()填充缺失值

D、interpolate()使用中位数填充缺失值

答案:【interpolate()使用中位数填充缺失值】6.单选题:数据预处理的任务不包括()。

选项:

A、数据分类

B、数据清洗

C、数据规范化和离散化

D、特征提取与特征选择

答案:【数据分类】7.单选题:下列关于等距离分箱的说法中错误的是()。

选项:

A、又称为等宽度分箱

B、若区间个数为k,每个区间的间距为I=(max-min)/k

C、等距离分箱能使每个区间内包含的取值个数大致相同

D、等距离分箱可能导致属于某些的取值非常多,而某些又非常少

答案:【等距离分箱能使每个区间内包含的取值个数大致相同】8.单选题:最小-最大法中,假设需要映射到目标区间为[L,R],原来的取值范围为[l,r]。一个值x映射到新区间后的值v的计算方法是()。

选项:

A、

B、

C、

D、

答案:【】9.单选题:主成分分析的步骤是()。

选项:

A、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集

B、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集

C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集

D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集

答案:【中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集】10.单选题:缺失值处理方法中错误的是()。

选项:

A、对于分类属性,使用同类对象属性值的均值

B、对于离散属性或定性属性,使用众数

C、对于所有属性都可以使用均值

D、转换为分类问题或数值预测问题

答案:【对于所有属性都可以使用均值】11.单选题:下列关于数据规范化说法错误的是()。

选项:

A、数据规范化又称为数据标准化

B、数据规范化是将属性的取值范围统一

C、数据规范化是为了给重要的属性赋予更大的权重

D、数据规范化是为了避免不同属性的不平等地位

答案:【数据规范化是为了给重要的属性赋予更大的权重】12.单选题:下列不属于数据预处理原因的是()。

选项:

A、数据可能存在缺失、错误、不一致等问题

B、数据有可能不能很好地反映潜在的模式

C、有些数据属性是无用的或者冗余的

D、数据量过于庞大

答案:【数据量过于庞大】13.单选题:()是指对描述对象的属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程。()是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。

选项:

A、特征提取;特征选择

B、特征选择;特征提取

C、数据提取;数据选择

D、数据选择;数据提取

答案:【特征提取;特征选择】14.单选题:关联规则的挖掘算法只能处理()类型的取值,为此()是继续其知识发现过程的必要步骤。

选项:

A、离散;数据离散化

B、连续;数据离散化

C、离散;数据规范化

D、连续;数据规范化

答案:【离散;数据离散化】15.单选题:运行以下代码”importmatplotlib.pyplotasplt”引入plt后,要绘制散点图,需要利用的函数为()。

选项:

A、plt.bar()

B、plt.scatter()

C、plt.plot()

D、plt.hist()

答案:【plt.scatter()】16.单选题:运行以下代码”importmatplotlib.pyplotasplt”引入plt后,要绘制直方图,需要利用的函数为()。

选项:

A、plt.bar()

B、plt.pie()

C、plt.plot()

D、plt.hist()

答案:【plt.hist()】17.单选题:运行以下代码”importmatplotlib.pyplotasplt”引入plt后,要绘制折线图,需要利用的函数为()。

选项:

A、plt.bar()

B、plt.pie()

C、plt.plot()

D、plt.hist()

答案:【plt.plot()】18.单选题:运行以下代码”importmatplotlib.pyplotasplt”引入plt后,要绘制饼状图,需要利用的函数为()。

选项:

A、plt.bar()

B、plt.pie()

C、plt.plot()

D、plt.hist()

答案:【plt.pie()】19.单选题:给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为()。

选项:

A、df.summary()

B、df.statistics()

C、df.mean()

D、df.describe()

答案:【df.describe()】20.单选题:在Numpy包中,计算标准差的函数为()。

选项:

A、numpy.mean()

B、numpy.median()

C、numpy.std()

D、numpy.var()

答案:【numpy.std()】21.单选题:在Numpy包中,计算中位数的函数为()。

选项:

A、numpy.mean()

B、numpy.median()

C、numpy.std()

D、numpy.var()

答案:【numpy.median()】22.单选题:在使用主成分分析法进行数据属性特征提取中,在对数据集进行中心化处理后,为了去除冗余和降低噪音,应将协方差矩阵非对角线上的元素化为()。

选项:

A、-1/2

B、0

C、1/2

D、不用处理

答案:【0】23.单选题:特征选择方法中,一般的启发式方法有()。

选项:

A、逐步增加法

B、逐步递减法

C、随机选择

D、以上都是

答案:【以上都是】24.单选题:使用等距离分箱法进行数据离散化,数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200,区间个数为4。下列属于4个箱的区间是()。

选项:

A、[20,65]

B、(65,110)

C、[110,155)

D、(155,200]

答案:【[110,155)】25.单选题:使用零均值规范化方法,年收入属性的均值为65,标准差为12,则年收入59万元规范化后为()。

选项:

A、-0.5

B、-0.2

C、0.3

D、0.5

答案:【-0.5】26.单选题:使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是()。

选项:

A、80

B、85

C、90

D、95

答案:【90】27.多选题:数据清洗的主要目的是将数据集中存在的()和()进行处理,降低其对后续数据分析处理的影响。

选项:

A、缺失

B、噪声

C、最大值

D、最小值

答案:【缺失;噪声】28.多选题:数据规范化方法有哪些()。

选项:

A、最小-最大法

B、z-score

C、聚类

D、分类

答案:【最小-最大法;z-score】29.多选题:数据预处理的任务有哪些()。

选项:

A、数据离散化

B、数据规范化

C、数据清洗

D、特征提取与特征选择

答案:【数据离散化;数据规范化;数据清洗;特征提取与特征选择】30.多选题:在利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包()。

选项:

A、Wordcloud

B、Scikit-learn

C、Jieba

D、Matplotlib

答案:【Wordcloud;Jieba】31.单选题:选择属性子集的方法一般采用启发式方法,只检验部分可能性比较大的子集,这样可以快速完成属性的选择。

选项:

A、正确

B、错误

答案:【正确】32.单选题:基于熵的离散化方法是常用的有监督的离散化方法。

选项:

A、正确

B、错误

答案:【正确】33.单选题:分箱离散化是一种有监督离散化方法。

选项:

A、正确

B、错误

答案:【错误】34.单选题:在主成分分析中,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。

选项:

A、正确

B、错误

答案:【正确】35.单选题:将数据分为n个等频的箱中,可以?箱均值、箱中位数或箱边界光滑数据。

选项:

A、正确

B、错误

答案:【正确】36.单选题:主成分分析能够达到去除冗余、降低噪音和降维的目的,但无法得到反映事物本质的新变量。

选项:

A、正确

B、错误

答案:【错误】37.单选题:一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋予此缺失值。

选项:

A、正确

B、错误

答案:【正确】38.单选题:基于熵的方法可以被看做是自顶向下的分裂方法,ChiMerge则属于自底向上的合并方法。

选项:

A、正确

B、错误

答案:【正确】39.单选题:有监督的离散化方法常用的有分箱法和ChiMerge方法。

选项:

A、正确

B、错误

答案:【错误】40.单选题:通过数据离散化,可以实现缩减数据量的效果。

选项:

A、正确

B、错误

答案:【正确】41.单选题:特征选择过程是描述同一对象的多个属性的取值范围,统一到相同的范围,避免某些属性的作用大于其它属性。

选项:

A、正确

B、错误

答案:【错误】42.一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法进行数据规范化,目标区间为[0,1],则80映射到新区间后的值为___。(四舍五入保留小数点后两位)

答案:【0.33】43.一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。采用等距分箱法分为4箱,其中82位于第____个箱。(填写阿拉伯数字)

答案:【2】44.使用主成分分析法进行数据属性特征提取中,每个新的特征是原有特征的。

答案:【线性组合】45.面对噪音,一类是识别出噪音,将其去除;另一类是可以使用方法,用于平滑噪音。

答案:【分箱】46.等距离分箱可能导致属于某些区间的取值非常多,而某些区间的取值又非常少。则能够解决此问题。

答案:【等频】第四单元关联规则挖掘第四单元测验1.单选题:如下表所示,使用FP-Growth计算其频繁集,给定最小支持度为40%,频繁模式树(FP树)有()个结点。(不包括根结点)。交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

选项:

A、5

B、8

C、9

D、10

答案:【9】2.单选题:如下表所示,X={butter,cheese},Y={beer},则置信度confidence(X→Y)=()。交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

选项:

A、1/2

B、1/3

C、1/4

D、2/5

答案:【1/2】3.单选题:如下表所示,X={butter,cheese},则支持度support(X)=()。交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

选项:

A、1/5

B、2/5

C、3/5

D、4/5

答案:【2/5】4.单选题:Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是()。

选项:

A、频繁项集

B、关联规则

C、最小支持度

D、最小置信度

答案:【关联规则】5.单选题:Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第一个返回值是()。

选项:

A、频繁项集

B、关联规则

C、最小支持度

D、最小置信度

答案:【频繁项集】6.单选题:在FP-growth构建频繁模式树中,每个()(除根结点外)代表一个单项,树中的每条()代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串,则字符串前缀相同时共享相同的()。

选项:

A、结点;路径;路径

B、结点;路径;结点

C、路径;路径;结点

D、路径;路径;路径

答案:【结点;路径;路径】7.单选题:在多层次关联规则分析中,如果将商品进行归类,每一商品类别的支持度会()其包含的每个商品的支持度,从而有利于发现一些有意义的频繁模式或关联规则。

选项:

A、小于

B、等于

C、大于

D、不确定

答案:【大于】8.单选题:对于任一个频繁项集X和它的一个非空真子集Y,S=X-Y,规则S→Y成立的条件是()。

选项:

A、confidence(S→Y)

B、confidence(S→Y)≥minconf

C、confidence(Y→S)

D、confidence(Y→S)≥minconf

答案:【confidence(S→Y)≥minconf】9.单选题:FP-growth算法无须生成候选项集的方法,可以避免产生大量候选项集。

选项:

A、正确

B、错误

答案:【正确】10.单选题:给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。

选项:

A、正确

B、错误

答案:【正确】11.单选题:如果一个规则X→Y同时满足support(X→Y)≥minsup和confidence(X→Y)≥minconf,则称该规则在数据库D中成立,其中minsup和minconf分别是用户给定的最小支持度和最小置信度的阈值。

选项:

A、正确

B、错误

答案:【正确】12.单选题:具体来讲,若一个项集X的支持度大于用户给定的一个最小支持度阈值,则X被称为频繁项集(或频繁模式)。

选项:

A、正确

B、错误

答案:【正确】13.单选题:若Y和Z是X的两个不同的k项子集,只有当confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都满足时,X-(Y∪Z)→(Y∪Z)一定成立。

选项:

A、正确

B、错误

答案:【错误】14.单选题:在结构化数据中进行关联分析发现其中的频繁模式和关联规则。对于取值连续的属性,首先将其离散化,然后将每个取值区间作为一个值,继而转化为“属性=值”的形式。

选项:

A、正确

B、错误

答案:【正确】15.单选题:利用项的概念层次信息,不仅可以发现涉及那些出现频率比较低的商品的频繁模式和关联规则,而且还可以发现概括性更强的规则。

选项:

A、正确

B、错误

答案:【正确】16.单选题:逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。

选项:

A、正确

B、错误

答案:【错误】17.单选题:如果一个项集是不频繁的,则其所有的超集都是不频繁的。利用这一性质可以简化Apriori算法中的计算过程。

选项:

A、正确

B、错误

答案:【正确】18.单选题:购买了此商品后还会购买的商品,它们的地位是平等的,其中涉及了时间和顺序的概念,强调的是一个规则,也就是我们所说的关联规则。

选项:

A、正确

B、错误

答案:【错误】19.Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时,设定最小置信度的参数是______。

答案:【min_confidence】20.Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时,设定最小支持度的参数是______。

答案:【min_support】21.如果一个规则和其祖先规则具有近似相同的置信度,则该规则称为_____。为了减少发现的规则数目,可以将其从输出的结果中删除。

答案:【冗余规则】22.给定一个频繁负项集X,我们可以从中发现隐含的负关联规则。负项集和负关联规则统称为_____。

答案:【负模式】第五单元分类第五单元测验1.单选题:假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的错误率errorrate为()。PredictedyesnoActualyes155no1020

选项:

A、30%

B、25%

C、33.3%

D、20%

答案:【30%】2.单选题:假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的准确率accuracy为()。PredictedyesnoActualyes155no1020

选项:

A、70%

B、75%

C、66.7%

D、80%

答案:【70%】3.单选题:朴素贝叶斯分类中得到条件概率的方法错误的是()。

选项:

A、对于定性属性,计算某一类别的样本中某种属性取该值的样本所占比例来近似

B、对于定性属性,将转化为定量属性,再计算相应的概率

C、对于定量属性,将取值离散化变为区间,再当做定性属性处理

D、对于定量属性,假设变量服从某种概率分布,通过训练数据集估计分布的参数

答案:【对于定性属性,将转化为定量属性,再计算相应的概率】4.单选题:下列属于决策树中应该剪枝的情景是()。

选项:

A、一个结点关联的数据集的信息熵高于指定阈值

B、一个结点关联的数据集的信息熵低于指定阈值

C、双亲结点的误差比子女结点的加权误差大

D、双亲结点的误差比子女结点的平均误差大

答案:【一个结点关联的数据集的信息熵低于指定阈值】5.单选题:以下哪种算法是分类算法()。

选项:

A、DBSCAN

B、C4.5

C、K-Mean

D、EM

答案:【C4.5】6.单选题:通过代码“fromsklearnimporttree”引入决策树模块,并通过代码“clf=tree.DecisionTreeClassifier()”构造分类器对象后,训练时要调用的方法是()。

选项:

A、clf.train()

B、clf.fit()

C、clf.learn()

D、clf.predict()

答案:【clf.fit()】7.单选题:决策树中不包含一下哪种结点()。

选项:

A、根结点(rootnode)

B、内部结点(internalnode)

C、外部结点(externalnode)

D、叶结点(leafnode)

答案:【外部结点(externalnode)】8.单选题:用于分类与回归应用的主要算法有()。

选项:

A、Apriori算法、HotSpot算法

B、RBF神经网络、K均值法、决策树

C、K均值法、SOM神经网络

D、决策树、BP神经网络、贝叶斯

答案:【决策树、BP神经网络、贝叶斯】9.单选题:在Scikit-learn模块下,不同分类模型在预测时,调用的方法名称()。

选项:

A、相同

B、不同

C、视情况而定

D、不知道

答案:【相同】10.单选题:在Scikit-learn模块下,不同分类模型在训练时,调用的方法名称()。

选项:

A、相同

B、不同

C、视情况而定

D、不知道

答案:【相同】11.单选题:通过代码“fromsklearnimportmetrics”引入评价指标模块后,面对真实标签true_label和模型预测标签predicted_label,混淆矩阵可通过调用()代码得到。

选项:

A、confusion_matrix(true_labe,predicted_label)

B、confusion_matrix(predicted_label,true_labe)

C、metrics.confusion_matrix(true_labe,predicted_label)

D、metrics.confusion_matrix(predicted_label,true_labe)

答案:【metrics.confusion_matrix(true_labe,predicted_label)】12.单选题:利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、判断标准

D、设置结点的最小样本数量

答案:【样本标签Y】13.单选题:利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、判断标准

D、设置结点的最小样本数量

答案:【样本特征X】14.单选题:通过代码“fromsklearnimporttree”引入决策树模块,并通过代码“clf=tree.DecisionTreeClassifier()”构造分类器对象,在训练后做预测时要调用的方法是()。

选项:

A、clf.predict()

B、clf.forecast()

C、clf.guess()

D、clf.outlook()

答案:【clf.predict()】15.多选题:为了比较利用不同分类算法构建的分类模型的性能,可以利用图形进行比较,常用的图形包括()。

选项:

A、增益图

B、ROC曲线

C、直方图

D、条形图

答案:【增益图;ROC曲线】16.多选题:构造训练数据集和测试数据集的常用方法有()。

选项:

A、保持法(holdout)

B、交叉验证法(crossvalidation)

C、自助抽样法(bootstrap)

D、留一法(leaveoneout)

答案:【保持法(holdout);交叉验证法(crossvalidation);自助抽样法(bootstrap);留一法(leaveoneout)】17.单选题:K近邻方法的核心思想是对一个预测样本A,从训练数据集中找到与其最相似的k个样本,利用这个k个样本的类别来决策该样本A的类别。

选项:

A、正确

B、错误

答案:【正确】18.单选题:k近邻方法不需要事先学习分类模型,当需要预测的时候,根据预测样本的特性和已知训练数据集中的数据进行类别的判断。

选项:

A、正确

B、错误

答案:【正确】19.单选题:朴素贝叶斯分类基于贝叶斯定理的一种分类方法。

选项:

A、正确

B、错误

答案:【正确】20.单选题:ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。

选项:

A、正确

B、错误

答案:【正确】21.单选题:决策树的思想是自顶向下递归的构建过程,关键点是在于分裂属性和分裂条件的选择。

选项:

A、正确

B、错误

答案:【正确】22.单选题:留一法是交叉验证法的特殊情况。

选项:

A、正确

B、错误

答案:【正确】23.单选题:决策树方法通常用于关联规则挖掘。

选项:

A、正确

B、错误

答案:【错误】24.单选题:在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

选项:

A、正确

B、错误

答案:【错误】25.单选题:分类模型的误差大致分为两种:训练误差(trainingerror)和泛化误差(generalizationerror)。

选项:

A、正确

B、错误

答案:【正确】26.单选题:Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

选项:

A、正确

B、错误

答案:【错误】27.单选题:分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程。又可称为无监督学习。

选项:

A、正确

B、错误

答案:【错误】28.分类算法针对某个测试数据集的有效性通常通过矩阵来反映。

答案:【混淆】29.决策树中根结点的层次为。【请填写阿拉伯数字】

答案:【1】30.为了评价一个分类模型的性能,我们通常根据分类模型判断一组已知类别的对象的类别,这些已知类别的对象构成的数据集称为。

答案:【测试数据集/测试集】31.假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,请计算该分类器的错误率,以类别yes为正例,计算分类器的查全率recall为%。【保留到整数位】PredictedyesnoActualyes155no1020

答案:【75】32.假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,请计算该分类器的错误率,以类别yes为正例,计算分类器的查准率precision为%。【保留到整数位】PredictedyesnoActualyes155no1020

答案:【60】第六单元数值预测第六单元测验1.单选题:在比较模型的拟合效果时,甲、乙、丙、丁四个模型的决定系数R^2的值分别约为0.96、0.85、0.80和0.7,则拟合效果好的模型是()。

选项:

A、甲

B、乙

C、丙

D、丁

答案:【甲】2.单选题:模型树的叶子结点对应()。

选项:

A、某个类别

B、一个数值

C、一个线性回归方程

D、以上都可以

答案:【一个线性回归方程】3.单选题:回归树的叶子结点对应()。

选项:

A、某个类别

B、一个数值

C、一个线性回归方程

D、以上都可以

答案:【一个数值】4.单选题:决策树的叶子结点对应()。

选项:

A、某个类别

B、一个数值

C、一个线性回归方程

D、以上都可以

答案:【某个类别】5.单选题:下列选项中错误的是()。

选项:

A、MST=SST/dfT

B、MSE=SSE/dfE

C、MSR=SSR/dfR

D、SSR=SST+SSE

答案:【SSR=SST+SSE】6.单选题:下面关于构建模型树的说法中,错误的是()。

选项:

A、创建一个结点t,与结点t关联的数据集记为Dt

B、如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值,则将该结点标记为叶子节点

C、在选择分类属性时,应选择时SDR值最小的属性

D、SDR代表误差的期望减少

答案:【在选择分类属性时,应选择时SDR值最小的属性】7.单选题:对于指数曲线y=a*e^(bx),令u=lny,c=lna,经过非线性化回归分析之后,可以转化成的形式为()。

选项:

A、u=c+bx

B、u=b+cx

C、y=b+cx

D、y=c+bx

答案:【u=c+bx】8.单选题:已知对一组观察值(xi,yi)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=0.51,x=61.75,y=38.14,则线性回归方程为()。

选项:

A、y=0.51x+6.65

B、y=6.65x+0.51

C、y=0.51x+42.30

D、y=42.30x+0.51

答案:【y=0.51x+6.65】9.单选题:在以下四个散点图中,其中适用于作线性回归的散点图为()。

选项:

A、①②

B、①③

C、②③

D、③④

答案:【①③】10.单选题:在利用linear_model.LinearRegression()构造的reg对象训练模型后,可以通过以下哪行代码查看回归模型系数()。

选项:

A、reg.coefficient_

B、reg._coefficient

C、reg._coef

D、reg.coef_

答案:【reg.coef_】11.单选题:利用linear_model.LinearRegression()训练模型时调用.fit()方法需要传递的第二个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、样本权重

D、是否考虑计算截距

答案:【样本标签Y】12.单选题:利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、样本权重

D、是否考虑计算截距

答案:【样本特征X】13.单选题:通过代码”fromsklearnimportlinear_model”引入线性模型模块,并通过代码“reg=linear_model.LinearRegression()”构造回归器对象,在训练后做预测时要调用的方法是()。

选项:

A、reg.guess()

B、reg.forecast()

C、reg.predict()

D、reg.outlook()

答案:【reg.predict()】14.单选题:通过代码”fromsklearnimportlinear_model”引入线性模型模块,并通过代码“reg=linear_model.LinearRegression()”构造回归器对象后,在训练时要调用的方法是()。

选项:

A、reg.train()

B、reg.fit()

C、reg.learn()

D、reg.predict()

答案:【reg.fit()】15.多选题:常用的非线性函数除了多项式函数之外,还包括()。

选项:

A、幂函数

B、指数函数

C、对数函数

D、双曲函数

答案:【幂函数;指数函数;对数函数;双曲函数】16.多选题:多元回归建模后的检验包括()。

选项:

A、拟合优度检验

B、回归关系的显著性检验

C、回归系数的显著性检验

D、倾向值检验

答案:【拟合优度检验;回归关系的显著性检验;回归系数的显著性检验】17.多选题:预测性能的优劣需要一定的度量来衡量,常用的度量是()。

选项:

A、MAE(平均绝对误差)

B、MSE(均方误差)

C、RSE(相对平方误差)

D、RAE(相对绝对误差)

答案:【MAE(平均绝对误差);MSE(均方误差);RSE(相对平方误差);RAE(相对绝对误差)】18.多选题:()采用自顶向下分而治之的思想,将训练集不断分割成子数据集来不断扩展树枝,当满足一定条件时停止树的生长。

选项:

A、决策树

B、模型树

C、回归树

D、多元回归

答案:【决策树;模型树;回归树】19.单选题:K近邻数值预测是利用一个样本的K个最相似的邻居的目标属性的取值来进行预测。

选项:

A、正确

B、错误

答案:【正确】20.单选题:在模型树的构建过程中,分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为误差的期望减少,称为SDR。

选项:

A、正确

B、错误

答案:【正确】21.单选题:模型树构建之后,为了避免过度拟合,需要对模型树进行剪枝。

选项:

A、正确

B、错误

答案:【正确】22.单选题:回归系数的检验可以采用t检验。

选项:

A、正确

B、错误

答案:【正确】23.单选题:多元回归是对一个自变量和多个因变量之间的回归分析。

选项:

A、正确

B、错误

答案:【错误】24.单选题:一元线性回归的步骤:构建包含因变量和自变量的训练集;通过散点图确认因变量和自变量之前的近似线性关系;计算系数和构建模型;模型检验;利用模型进行预测。

选项:

A、正确

B、错误

答案:【正确】25.单选题:在模型树的构建过程中,应选择使SDR值最小的属性。

选项:

A、正确

B、错误

答案:【错误】26.单选题:回归树和模型树都是通过自下而上、分而治之的思想,将训练集不断分割成子数据集来不断扩展树枝,当满足一定条件时停止树的生长。

选项:

A、正确

B、错误

答案:【错误】27.单选题:在模型树的剪枝过程中,两个叶子结点的期望误差通过加权求和结合在一起作为子树误差。

选项:

A、正确

B、错误

答案:【正确】28.单选题:为了检验回归系数的显著性,可以使用F检验。

选项:

A、正确

B、错误

答案:【错误】29.单选题:的值越接近1,说明回归直线对观测值的拟合程度越好。

选项:

A、正确

B、错误

答案:【正确】30.单选题:数值预测与分类都属于有监督学习,解决问题的过程相同,都是先通过训练数据集进行学习,以得到一个模型然后利用模型进行预测。

选项:

A、正确

B、错误

答案:【正确】31.在模型树的构建过程中,分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为误差的期望减少,称为_________(填写英文简称)。

答案:【SDR】32.模型树构建之后,为了避免过度拟合,需要对模型树进行________。

答案:【剪枝】第七单元聚类分析第七单元测验1.单选题:P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的切比雪夫距离是()。

选项:

A、

B、11

C、6

D、

答案:【6】2.单选题:P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的曼哈顿距离是()。

选项:

A、

B、11

C、6

D、

答案:【11】3.单选题:P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的欧几里得距离是()。

选项:

A、

B、11

C、6

D、

答案:【】4.单选题:轮廓系数的取值范围是()。

选项:

A、[0,1]

B、[-1,1]

C、[-1,0]

D、[0,∞)

答案:【[-1,1]】5.单选题:给定密度阙值为3,对象o的ξ邻域中有5个对象,那么o是()。

选项:

A、核心点

B、关键点

C、集中点

D、高密度点

答案:【核心点】6.单选题:k均值聚类的目标是()。

选项:

A、最大化簇间距离

B、最小化簇内距离的平方和

C、最大化质心距离

D、簇的大小基本一致

答案:【最小化簇内距离的平方和】7.单选题:皮尔森相关系数取值为()时说明两个对象最不相似。

选项:

A、0

B、1

C、0.05

D、-1

答案:【-1】8.单选题:余弦相似度适用于()情况。

选项:

A、属性类型多

B、属性数量多

C、有大量零值维度

D、距离相近

答案:【有大量零值维度】9.单选题:P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的闵可夫斯基距离(x=3)是()。

选项:

A、

B、11

C、6

D、

答案:【】10.单选题:根据聚类形成的簇的特点,如果有交集的簇之间必然存在包含关系,这种聚类称为()。

选项:

A、划分型聚类

B、层次型聚类

C、重叠聚类

D、以上均不是

答案:【层次型聚类】11.单选题:给定numpy.ndarray类型的数X,在以下代码中,eps参数的含义是()。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)

选项:

A、收敛条件阈值

B、簇的个数

C、邻域半径

D、每个簇的最小样本数

答案:【邻域半径】12.单选题:在利用sklearn.cluster.AgglomerativeClustering进行凝聚聚类时,使用的默认距离度量是()。

选项:

A、马氏距离

B、余弦距离

C、曼哈顿距离

D、欧氏距离

答案:【欧氏距离】13.单选题:以下哪种情况对Kmeans模型的影响较小()。

选项:

A、给定错误聚类个数

B、数据有各向异性分布

C、不同簇的方差相差较大

D、簇的大小分布不均衡

答案:【簇的大小分布不均衡】14.单选题:通过代码”fromsklearn.clusterimportKMeans”引入Kmenas模块后,生成模型对象“kmeans=KMeans(n_clusters=3)”并完成对数据X完成聚类后,以下哪个代码可以查看每个样本所属簇的标签()。

选项:

A、kmeans.labels_

B、kmeans.y_

C、kmeans.targets_

D、kmeans.output_

答案:【kmeans.labels_】15.单选题:通过代码”fromsklearn.clusterimportKMeans”引入Kmenas模块,生成模型对象“kmeans=KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。

选项:

A、kmeans.train()

B、kmeans.fit()

C、kmaens.train()

D、kmaens.fit()

答案:【kmeans.fit()】16.多选题:关于聚类下列说法正确的是()。

选项:

A、聚类有着广泛的应用。

B、聚类可以作为其他数据挖掘分析过程的一个基础处理步骤。

C、聚类可以发现偏离多数数据对象的孤立点。

D、聚类和分类没有区别。

答案:【聚类有着广泛的应用。;聚类可以作为其他数据挖掘分析过程的一个基础处理步骤。;聚类可以发现偏离多数数据对象的孤立点。】17.多选题:下面哪些聚类方法易于发现特殊形状的簇?

选项:

A、k均值聚类

B、层次聚类

C、DBSCAN

D、基于密度的聚类方法

答案:【DBSCAN;基于密度的聚类方法】18.多选题:下面哪些聚类方法易于发现具有球形形状的簇,难以发现椭圆形或者凹形形状的簇?

选项:

A、k均值聚类

B、层次聚类

C、DBSCAN

D、基于密度的聚类方法

答案:【k均值聚类;层次聚类】19.单选题:K均值聚类需要提前设定K值,而凝聚层次法不需要预先设置参数。

选项:

A、正确

B、错误

答案:【正确】20.单选题:DBSCAN是一种基于密度的聚类方法,容易发现特殊形状的簇。

选项:

A、正确

B、错误

答案:【正确】21.单选题:轮廓系数是将凝聚度和分离度相结合的一种度量,越大聚类效果越好。

选项:

A、正确

B、错误

答案:【正确】22.单选题:基于随机游走理论的链接相似度衡量方法(称为SimRank)计算两结点间的相似度,具有有界性、对称性、单调递增性、三角不等式性质。

选项:

A、正确

B、错误

答案:【错误】23.单选题:凝聚度是用于衡量簇间相似程度的,凝聚度越大越好。

选项:

A、正确

B、错误

答案:【正确】24.单选题:凝聚层次聚类法中每次簇的合并可以更改。

选项:

A、正确

B、错误

答案:【错误】25.单选题:多种属性相似度的综合度量,可以先对单个属性进行相似度度量,然后求所有属性相似度的均值作为整个对象相似度。

选项:

A、正确

B、错误

答案:【正确】26.单选题:摄氏温度属于比例属性。

选项:

A、正确

B、错误

答案:【错误】27.单选题:聚类分析的过程中,聚类效果较好时属于同一个簇的对象相似度很高,而属于不同簇的对象相似度很低。

选项:

A、正确

B、错误

答案:【正确】28.Jaccard系数适用于衡量用________二值属性描述的对象间的相似度。

答案:【非对称】29.____属性分为对称属性和非对称属性。

答案:【二值】第八单元复杂数据的挖掘第八单元测验1.单选题:顾客购物序列属于哪种数据类型()

选项:

A、时间序列数据

B、符号序列数据

C、生物学序列

D、空间数据

答案:【符号序列数据】2.单选题:()是指大量流入系统、动态变化的、可能无限的,并且包含多维特征的数据。

选项:

A、流数据

B、文本数据

C、序列数据

D、符号数据

答案:【流数据】3.单选题:典型的文本挖掘任务包括()

选项:

A、文本分类

B、文本聚类

C、观点分析

D、以上都是

答案:【以上都是】4.单选题:机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆,所记录的数据属于()

选项:

A、空间数据

B、时空数据

C、物联网系统数据

D、Web数据

答案:【时空数据】5.单选题:下列属于异质网络的是()

选项:

A、朋友网络

B、合著者网络

C、在线医疗网络

D、网页网络

答案:【在线医疗网络】6.单选题:下列哪项不是时间序列的主要研究方法()

选项:

A、相似性搜索

B、回归分析

C、趋势分析

D、序列模式挖掘

答案:【序列模式挖掘】7.多选题:下面哪些是时空数据的应用()。

选项:

A、动物学家把遥感设备安装在野生动物身上,以便分析生态行为

B、机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆

C、气象学家使用人造卫星和雷达观察飓风

D、从多媒体数据库中发现有趣的模式

答案:【动物学家把遥感设备安装在野生动物身上,以便分析生态行为;机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆;气象学家使用人造卫星和雷达观察飓风】8.多选题:根据分析目标,Web挖掘可以划分主要研究领域包括()。

选项:

A、Web内容挖掘

B、Web结构挖掘

C、Web使用挖掘

D、Web布局挖掘

答案:【Web内容挖掘;Web结构挖掘;Web使用挖掘】9.单选题:多媒体数据挖掘是一个交叉学科领域,涉及图像处理和理解、计算机视觉、数据挖掘和模式识别。

选项:

A、正确

B、错误

答案:【正确】10.单选题:“你和任何一个陌生人之间所间隔的人不会超过六个”称为小世界现象。

选项:

A、正确

B、错误

答案:【正确】11.单选题:物联网系统由大量相互作用的物理和信息部件组成,其例子包括患者护理系统,运输系统等。

选项:

A、正确

B、错误

答案:【正确】12.单选题:网络由一个节点集和一个连接这些节点的边集组成。

选项:

A、正确

B、错误

答案:【正确】13.单选题:目前大部分系统能够多次读取流数据。

选项:

A、正确

B、错误

答案:【错误】14.单选题:多媒体数据挖掘是一个交叉学科领域,涉及图像处理和理解、计算机视觉、数据挖掘和模式识别。

选项:

A、正确

B、错误

答案:【正确】15.单选题:图与网络挖掘应用范围广泛,涉及生物信息学、化学情报学、计算机视觉、多媒体和文本检索。

选项:

A、正确

B、错误

答案:【正确】16.单选题:符号序列数据由事件或标称数据的长序列组成,通常时间间隔相等。

选项:

A、正确

B、错误

答案:【错误】17.单选题:生物学序列通常很长,携带重要的、复杂的、隐藏的语义。

选项:

A、正确

B、错误

答案:【正确】期末考试《数据挖掘与python实践》期末试卷1.单选题:50、给定numpy.ndarray类型的数X,在以下代码中,eps参数的含义是()fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)

选项:

A、收敛条件阈值

B、簇的个数

C、邻域半径

D、每个簇的最小样本数

答案:【邻域半径】2.单选题:在利用sklearn.cluster.AgglomerativeClustering进行凝聚聚类时,使用的默认距离度量是()

选项:

A、马氏距离

B、余弦距离

C、曼哈顿距离

D、欧氏距离

答案:【欧氏距离】3.单选题:以下那种情况对KMeans模型的影响较小()

选项:

A、给定错误聚类个数

B、数据有各向异性分布

C、不同簇的方差相差较大

D、簇的大小分布不均衡

答案:【簇的大小分布不均衡】4.单选题:通过代码fromsklearn.clusterimportKMeans引入Kmenas模块后,生成模型对象kmeans=KMeans(n_clusters=3)并完成对数据X完成聚类后,以下哪个代码可以查看每个样本所属簇的标签()

选项:

A、kmeans.labels_

B、kmeans.y_

C、kmeans.targets_

D、kmeans.output_

答案:【kmeans.labels_】5.单选题:通过代码fromsklearn.clusterimportKMeans引入KMeans模块,生成模型对象kmeans=KMeans(n_clusters=2)后,对于数据X训练时可以用以下哪行代码?()

选项:

A、kmeans.train(X)

B、kmeans.fit(X)

C、KMeans.train(X)

D、KMenas.fit(X)

答案:【kmeans.fit(X)】6.单选题:在利用linear_model.LinearRegression()构造的reg对象训练模型后,可以通过以下哪行代码查看回归模型系数()

选项:

A、reg.coefficient_

B、reg._coefficient

C、reg._coef

D、reg.coef_

答案:【reg.coef_】7.单选题:利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、判断标准

D、设置结点的最小样本数量

答案:【样本特征X】8.单选题:通过代码fromsklearnimporttree引入决策树模块,并通过代码clf=tree.DecisionTreeClassifier()构造分类器对象,在训练后做预测时要调用的方法是()。

选项:

A、clf.predict()

B、clf.forecast()

C、clf.guess()

D、clf.outlook()

答案:【clf.predict()】9.单选题:通过代码fromsklearnimporttree引入决策树模块,并通过代码clf=tree.DecisionTreeClassifier()构造分类器对象后,训练时要调用的方法是()。

选项:

A、clf.train()

B、clf.fit()

C、clf.learn()

D、clf.predict()

答案:【clf.fit()】10.单选题:在使用主成分分析法进行数据属性特征提取中,在对数据集进行中心化处理后,为了去除冗余和降低噪音,应将协方差矩阵非对角线上的元素化为()。

选项:

A、0

B、-1/2

C、1/2

D、不用处理

答案:【0】11.单选题:特征选择方法中,一般的启发式方法有()。

选项:

A、以上都是

B、逐步增加法

C、逐步递减法

D、随机选择

答案:【以上都是】12.单选题:使用等距离分箱法进行数据离散化,数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200,区间个数为4。下列属于4个箱的区间是()。

选项:

A、[110,155)

B、[20,65]

C、(65,110)

D、(155,200]

答案:【[110,155)】13.单选题:使用零均值规范化方法,年收入属性的均值为65,标准差为12,则年收入59万元规范化后为()。

选项:

A、-0.5

B、-0.2

C、0.3

D、0.5

答案:【-0.5】14.单选题:使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是()。

选项:

A、90

B、80

C、85

D、95

答案:【90】15.单选题:利用linear_model.LinearRegression()训练模型时调用.fit()方法需要传递的第二个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、样本权重

D、是否考虑计算截距

答案:【样本标签Y】16.单选题:利用linear_model.LinearRegression()训练模型时调用.fit()方法需要传递的第一个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、样本权重

D、是否考虑计算截距

答案:【样本特征X】17.单选题:通过代码fromsklearnimportlinear_model引入线性模型模块,并通过代码reg=linear_model.LinearRegression()构造回归器对象,在训练后做预测时要调用的方法是()

选项:

A、reg.guess()

B、reg.forecast()

C、reg.predict()

D、reg.outlook()

答案:【reg.predict()】18.单选题:通过代码fromsklearnimportlinear_model引入线性模型模块,并通过代码reg=linear_model.LinearRegression()构造回归器对象后,在训练时要调用的方法是()

选项:

A、reg.train()

B、reg.fit()

C、reg.learn()

D、reg.predict()

答案:【reg.fit()】19.单选题:在Scikit-learn模块下,不同分类模型在预测时,调用的方法名称是否相同()。

选项:

A、相同

B、不同

C、视情况而定

D、不知道

答案:【相同】20.单选题:在Scikit-learn模块下,不同分类模型在训练时,调用的方法名称是否相同()。

选项:

A、相同

B、不同

C、视情况而定

D、不知道

答案:【相同】21.单选题:通过代码fromsklearnimportmetrics引入评价指标模块后,面对真实标签true_label和模型预测标签predicted_label,混淆矩阵可通过哪行代码调用()

选项:

A、confusion_matrix(true_label,predicted_label)

B、confusion_matrix(predicted_label,true_label)

C、metrics.confusion_matrix(true_label,predicted_label)

D、metrics.confusion_matrix(predicted_label,true_label)

答案:【metrics.confusion_matrix(true_label,predicted_label)】22.单选题:利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二个参数是()。

选项:

A、样本特征X

B、样本标签Y

C、判断标准

D、设置结点的最小样本

答案:【样本标签Y】23.单选题:运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本个数为()。

选项:

A、150

B、4

C、600

D、154

答案:【150】24.单选题:主成分分析方法PCA属于属于python中的哪个包()。

选项:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】25.单选题:最小最大规范化方法MinMaxScaler属于python中的哪个包()。

选项:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】26.单选题:使用python处理缺失值的方法中叙述错误的是()。

选项:

A、interpolate()使用中位数填充缺失值

B、isnull()判断缺失值

C、dropna()删除缺失值

D、fillna()填充缺失值

答案:【interpolate()使用中位数填充缺失值】27.单选题:数据预处理的任务不包括()。

选项:

A、数据分类

B、数据清洗

C、数据规范化和离散化

D、特征提取与特征选择

答案:【数据分类】28.单选题:下列关于等距离分箱的说法中错误的是()。

选项:

A、等距离分箱能使每个区间内包含的取值个数大致相同

B、又称为等宽度分箱

C、若区间个数为k,每个区间的间距为I=(max-min)/k

D、等距离分箱可能导致属于某些的取值非常多,而某些又非常少

答案:【等距离分箱能使每个区间内包含的取值个数大致相同】29.单选题:主成分分析的步骤是()。

选项:

A、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集

B、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集

C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集

D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集

答案:【中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集】30.单选题:缺失值处理方法中错误的是()。

选项:

A、对于所有属性都可以使用均值

B、对于分类属性,使用同类对象属性值的均值

C、对于离散属性或定性属性,使用众数

D、转换为分类问题或数值预测问题

答案:【对于所有属性都可以使用均值】31.单选题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论