付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年非频繁项集的超集有可能是频繁的。
参考答案:
错误
决策树中不包含以下哪种节点。
参考答案:
外部节点(externalnode)
数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:
正确
数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:
正确
若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:
参考答案:
1.976
朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:
错误
OLAP技术的核心是:
参考答案:
多维分析
假定某属性的最小与最大值分别为8000元和14000元。要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:
参考答案:
0.767
后验概率P(H|X)表示条件X下H的概率。
参考答案:
正确
只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:
错误
先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:
正确
公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:
参考答案:
0.714
数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:
正确
数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:
正确
假设吸烟的本科生比例为15%,而吸烟的研究生占23%。如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?
参考答案:
0.277
决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
参考答案:
正确
根据下表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)的类标签y。表中X1,X2为特征,取值的范围分别为{1,2,3}和{S,M,L},Y为类标签。---------------------------------------------------------------------------------123456789101112131415----------------------------------------------------------------------------X1111112222233333X2SMMSSSMMLLLMMLLY001100011111110---------------------------------------------------------------------------
参考答案:
y=0
根据顾客去药店的买药记录,想要知道哪些药经常被同时服用,可以采用关联规则挖掘技术来解决。
参考答案:
正确
ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。
参考答案:
正确
留一法是交叉验证法的特殊情况。
参考答案:
正确
分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程,又可称为无监督学习。
参考答案:
错误
决策树方法可用于连续数据离散化。
参考答案:
正确
假设有14个样本,包含两类,其中1类为9个样本,2类为5个样本,则根据熵的计算公式,此数据集的信息量为:
参考答案:
0.940
数据仓库是随着时间变化的,下面的描述不正确的是:
参考答案:
数据仓库随事件变化不断删去旧的数据内容。
数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务.
参考答案:
正确
下面对C4.5决策树算法的描述错误的是:
参考答案:
只能处理连续属性。
设X={1,2,3}是频繁项集,则可由X产生个关联规则。
参考答案:
6
决策树方法可以称为一种数据挖掘技术,也可以称为一种机器学习技术,所以数据挖掘和机器学习是一样的。
参考答案:
错误
数据挖掘的过程可以粗略分为:问题定义、数据准备、数据预处理、数据挖掘,以及结果的解释和评估等步骤。
参考答案:
正确
一般数据挖掘的流程顺序,下列正确的是①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤收集数据,创建目标数据集
参考答案:
③⑤②①④
频繁项集的非空子集一定是频繁项集。
参考答案:
正确
FP-Growth算法挖掘频繁项集,只需扫描一次数据库。
参考答案:
错误
下列应用场景不属于分类的是
参考答案:
为了解用户特点,公司将客户分群
聚类分析可以作为其它算法的预处理步骤,如数据离散化,数据归约等。
参考答案:
正确
设有6个二维样本点,p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想将其聚类为2类,首先选择p1和p2为两类中心点,采用欧式距离测算方式,则第一轮划分结束,新生成的簇中心点分别为:
参考答案:
(0,0),(6.2,5.6)
关于K均值和DBSCAN的比较,以下说法不正确的是
参考答案:
K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
BIRCH是一种
参考答案:
聚类算法
简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作
参考答案:
划分聚类
数据挖掘是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。
参考答案
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢桁架安装施工方案
- 学校筹建处考勤制度
- 培训人员外出考勤制度
- 小学考勤制度范本
- 商业物业考勤制度
- 卖场上班考勤制度
- 阿里云产品技术顾问面经及要点梳理
- 家长教育考勤制度
- 实行弹性考勤制度
- 铁路运输业调度主管面试技巧
- 以热爱为翼为青春飞驰+课件+-2026届高三高考百日冲刺励志主题班会
- 2026-2030中国汽车加气站行业市场发展分析及发展趋势与投资机会研究报告
- 2026年福建莆田市涵江区区属一级国有企业高级管理人员招聘2人笔试备考题库及答案解析
- 2026福建莆田市涵江区选聘区属一级国有企业高级管理人员2人笔试备考题库及答案解析
- 2026年AI原生网络架构项目投资计划书
- 《非物质文化遗产概论(第三版)》全套教学课件
- 2024年江苏法院书记员招聘笔试参考题库附带答案详解
- 2024年部编人教版四年级下册道德与法治全册背诵知识点
- 家庭教育学整套课件
- DB34-T 4592-2023 大水面生态渔业技术规范
- 现代规模化猪场饲养管理与疫病控制
评论
0/150
提交评论