数据仓库与数据挖掘-青岛大学中国大学mooc课后章节答案期末考试题库2023年_第1页
数据仓库与数据挖掘-青岛大学中国大学mooc课后章节答案期末考试题库2023年_第2页
数据仓库与数据挖掘-青岛大学中国大学mooc课后章节答案期末考试题库2023年_第3页
数据仓库与数据挖掘-青岛大学中国大学mooc课后章节答案期末考试题库2023年_第4页
免费预览已结束,剩余4页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年非频繁项集的超集有可能是频繁的。

参考答案:

错误

决策树中不包含以下哪种节点。

参考答案:

外部节点(externalnode)

数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。数据源可能涉及多个数据库、数据立方体或一般文件。

参考答案:

正确

数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。

参考答案:

正确

若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:

参考答案:

1.976

朴素贝叶斯算法能够解决特征之间有相关性的问题。

参考答案:

错误

OLAP技术的核心是:

参考答案:

多维分析

假定某属性的最小与最大值分别为8000元和14000元。要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:

参考答案:

0.767

后验概率P(H|X)表示条件X下H的概率。

参考答案:

正确

只要有两个频繁3项集,就一定能够生成一个候选4项集。

参考答案:

错误

先验概率是根据历史资料或主观估计的方法得到的概率。

参考答案:

正确

公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:

参考答案:

0.714

数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。

参考答案:

正确

数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。

参考答案:

正确

假设吸烟的本科生比例为15%,而吸烟的研究生占23%。如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?

参考答案:

0.277

决策树构建之后,为了避免过度拟合,需要对树进行剪枝。

参考答案:

正确

根据下表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)的类标签y。表中X1,X2为特征,取值的范围分别为{1,2,3}和{S,M,L},Y为类标签。---------------------------------------------------------------------------------123456789101112131415----------------------------------------------------------------------------X1111112222233333X2SMMSSSMMLLLMMLLY001100011111110---------------------------------------------------------------------------

参考答案:

y=0

根据顾客去药店的买药记录,想要知道哪些药经常被同时服用,可以采用关联规则挖掘技术来解决。

参考答案:

正确

ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。

参考答案:

正确

留一法是交叉验证法的特殊情况。

参考答案:

正确

分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程,又可称为无监督学习。

参考答案:

错误

决策树方法可用于连续数据离散化。

参考答案:

正确

假设有14个样本,包含两类,其中1类为9个样本,2类为5个样本,则根据熵的计算公式,此数据集的信息量为:

参考答案:

0.940

数据仓库是随着时间变化的,下面的描述不正确的是:

参考答案:

数据仓库随事件变化不断删去旧的数据内容。

数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务.

参考答案:

正确

下面对C4.5决策树算法的描述错误的是:

参考答案:

只能处理连续属性。

设X={1,2,3}是频繁项集,则可由X产生个关联规则。

参考答案:

6

决策树方法可以称为一种数据挖掘技术,也可以称为一种机器学习技术,所以数据挖掘和机器学习是一样的。

参考答案:

错误

数据挖掘的过程可以粗略分为:问题定义、数据准备、数据预处理、数据挖掘,以及结果的解释和评估等步骤。

参考答案:

正确

一般数据挖掘的流程顺序,下列正确的是①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤收集数据,创建目标数据集

参考答案:

③⑤②①④

频繁项集的非空子集一定是频繁项集。

参考答案:

正确

FP-Growth算法挖掘频繁项集,只需扫描一次数据库。

参考答案:

错误

下列应用场景不属于分类的是

参考答案:

为了解用户特点,公司将客户分群

聚类分析可以作为其它算法的预处理步骤,如数据离散化,数据归约等。

参考答案:

正确

设有6个二维样本点,p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想将其聚类为2类,首先选择p1和p2为两类中心点,采用欧式距离测算方式,则第一轮划分结束,新生成的簇中心点分别为:

参考答案:

(0,0),(6.2,5.6)

关于K均值和DBSCAN的比较,以下说法不正确的是

参考答案:

K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

BIRCH是一种

参考答案:

聚类算法

简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作

参考答案:

划分聚类

数据挖掘是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。

参考答案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论