MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案_第1页
MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案_第2页
MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案_第3页
MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案_第4页
MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MOOC数据仓库与数据挖掘-青岛大学中国大学慕课答案数据挖掘导论单元测试1、问题:数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务.选项:A、正确B、错误正确答案:【正确】2、问题:寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。选项:A、正确B、错误正确答案:【错误】3、问题:分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。选项:A、正确B、错误正确答案:【正确】4、问题:数据挖掘的过程可以粗略分为:问题定义、数据准备、数据预处理、数据挖掘,以及结果的解释和评估等步骤。选项:A、正确B、错误正确答案:【正确】5、问题:决策树方法可以称为一种数据挖掘技术,也可以称为一种机器学习技术,所以数据挖掘和机器学习是一样的。选项:A、正确B、错误正确答案:【错误】6、问题:数据挖掘是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。选项:A、正确B、错误正确答案:【正确】数据仓库与OLAP单元测试1、问题:数据仓库是随着时间变化的,下面的描述不正确的是:选项:A、数据仓库随时间的变化不断增加新的数据内容。B、捕捉到的新数据不会覆盖原来的快照。C、数据仓库随事件变化不断删去旧的数据内容。D、数据仓库中包含大量的综合数据。正确答案:【数据仓库随事件变化不断删去旧的数据内容。】2、问题:OLAP技术的核心是:选项:A、在线性B、对用户的快速响应C、互操作性D、多维分析正确答案:【多维分析】数据预处理单元测试1、问题:假定某属性的最小与最大值分别为8000元和14000元。要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:选项:A、0.751B、0.767C、0.813D、0.827正确答案:【0.767】2、问题:若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:选项:A、1.867B、2.201C、1.987D、0.778正确答案:【1.867】3、问题:等宽分箱法使每个箱子的取值区间相同。选项:A、正确B、错误正确答案:【正确】4、问题:数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。选项:A、正确B、错误正确答案:【正确】5、问题:数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。数据源可能涉及多个数据库、数据立方体或一般文件。选项:A、正确B、错误正确答案:【正确】6、问题:数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。选项:A、正确B、错误正确答案:【正确】7、问题:采用分箱方法不能进行数据离散化。选项:A、正确B、错误正确答案:【错误】关联分析单元测试1、问题:设X={1,2,3}是频繁项集,则可由X产生个关联规则。选项:A、4B、5C、6D、7正确答案:【6】2、问题:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?选项:A、关联分析B、聚类分析C、分类分析D、序列分析正确答案:【关联分析】3、问题:一般数据挖掘的流程顺序,下列正确的是①选择数据挖掘的技术、功能和合适的算法②选择数据,数据清洗和预处理③了解应用领域,了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤收集数据,创建目标数据集选项:A、③⑤②①④B、③②⑤①④C、⑤④②③①D、③④①⑤②正确答案:【③⑤②①④】4、问题:频繁项集的非空子集一定是频繁项集。选项:A、正确B、错误正确答案:【正确】5、问题:FP-Growth算法挖掘频繁项集,只需扫描一次数据库。选项:A、正确B、错误正确答案:【错误】6、问题:只要有两个频繁3项集,就一定能够生成一个候选4项集。选项:A、正确B、错误正确答案:【错误】7、问题:非频繁项集的超集有可能是频繁的。选项:A、正确B、错误正确答案:【错误】8、问题:根据顾客去药店的买药记录,想要知道哪些药经常被同时服用,可以采用关联规则挖掘技术来解决。选项:A、正确B、错误正确答案:【正确】决策树单元测试1、问题:决策树中不包含以下哪种节点。选项:A、根节点(rootnode)B、内部节点(internalnode)C、外部节点(externalnode)D、叶节点(leafnode)正确答案:【外部节点(externalnode)】2、问题:下列应用场景不属于分类的是选项:A、推广新产品时预测已有客户是否对新产品感兴趣B、对信用卡申请者判断其信誉高低C、医生根据患者的症状判断所患疾病类型D、为了解用户特点,公司将客户分群正确答案:【为了解用户特点,公司将客户分群】3、问题:下面对C4.5决策树算法的描述错误的是:选项:A、只能处理连续属性。B、采用信息增益比作为分类能力的测算指标。C、能够处理具有缺失值的数据集。D、能够通过使用修剪技术避免过拟合。正确答案:【只能处理连续属性。】4、问题:已知某一连续属性数据集如下,当分割点为31时,该分割点的信息增益比为:属性值:25,30,32,40,48,67,98,100类别:1,1,1,1,2,2,2,2选项:A、0.2B、0.39C、0.53D、1正确答案:【0.39】5、问题:假设有14个样本,包含两类,其中1类为9个样本,2类为5个样本,则根据熵的计算公式,此数据集的信息量为:选项:A、0.5B、0.951C、0.940D、0.986正确答案:【0.940】6、问题:分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程,又可称为无监督学习。选项:A、正确B、错误正确答案:【错误】7、问题:决策树方法可用于连续数据离散化。选项:A、正确B、错误正确答案:【正确】8、问题:留一法是交叉验证法的特殊情况。选项:A、正确B、错误正确答案:【正确】9、问题:ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。选项:A、正确B、错误正确答案:【正确】10、问题:决策树构建之后,为了避免过度拟合,需要对树进行剪枝。选项:A、正确B、错误正确答案:【正确】11、问题:数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。选项:A、正确B、错误正确答案:【正确】贝叶斯单元测试1、问题:根据下表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)的类标签y。表中X1,X2为特征,取值的范围分别为{1,2,3}和{S,M,L},Y为类标签。---------------------------------------------------------------------------------123456789101112131415----------------------------------------------------------------------------X1111112222233333X2SMMSSSMMLLLMMLLY001100011111110---------------------------------------------------------------------------选项:A、y=0B、y=1C、y=2D、y=3正确答案:【y=0】2、问题:假设吸烟的本科生比例为15%,而吸烟的研究生占23%。如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?选项:A、0.166B、0.277C、0.5D、0.312正确答案:【0.277】3、问题:公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:选项:A、0.2502B、0.714C、0.286D、0.25正确答案:【0.714】4、问题:先验概率是根据历史资料或主观估计的方法得到的概率。选项:A、正确B、错误正确答案:【正确】5、问题:后验概率P(H|X)表示条件X下H的概率。选项:A、正确B、错误正确答案:【正确】6、问题:朴素贝叶斯算法能够解决特征之间有相关性的问题。选项:A、正确B、错误正确答案:【错误】聚类分析单元测试1、问题:简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作选项:A、层次聚类B、划分聚类C、密度聚类D、模糊聚类正确答案:【划分聚类】2、问题:BIRCH是一种选项:A、分类器B、聚类算法C、关联分析算法D、特征选择算法正确答案:【聚类算法】3、问题:关于K均值和DBSCAN的比较,以下说法不正确的是选项:A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。正确答案:【K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。】4、问题:设有6个二维样本点,p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想将其聚类为2类,首先选择p1和p2为两类中心点,采用欧式距离测算方式,则第一轮划分结束,新生成的簇中心点分别为:选项:A、(0,0),(1,2)B、(0,0),(6.2,5.6)C、(1,2),(8,8)D、(0.5,1),(8,8)正确答案:【(0,0),(6.2,5.6)】5、问题:聚类分析可以作为其它算法的预处理步骤,如数据离散化,数据归约等。选项:A、正确B、错误正确答案:【正确】期末考试1、问题:假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出在第一次循环执行后的三个聚类中心:选项:A、(2,10),(5,8),(1,2)B、(2,10),(6,6),(2,3)C、(2,10),(6,6),(1.5,3.5)D、(2,10),(5,8),(2,3)正确答案:【(2,10),(6,6),(1.5,3.5)】2、问题:设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,请问“收入”属性具有几种划分可能?12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是选项:A、5B、6C、7D、8正确答案:【7】3、问题:设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,对于“收入”属性的划分“2.75”,计算其信息增益率:12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是选项:A、0.255B、0.39C、0.575D、1正确答案:【0.255】4、问题:在下表中给定的样本上进行合并(凝聚)层次聚类,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的终止条件为3个簇,则此3个簇为:序号属性1属性2序号属性1属性21210575225664384712458849选项:A、最后3个簇为:{2,5},{1,7,8},{3,4,6}B、最后3个簇为:{2,4,7},{1,3,8},{5,6}C、最后3个簇为:{1,2,7},{4,5},{3,6,8}D、最后3个簇为:{2,7},{1,4,8},{3,5,6}正确答案:【最后3个簇为:{2,7},{1,4,8},{3,5,6}】5、问题:简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作选项:A、层次聚类B、划分聚类C、密度聚类D、模糊聚类正确答案:【划分聚类】6、问题:1.数据库有5个事物,设min_sup=60%,min_conf=80%。TID购买的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}使用Apriori算法找出所有频繁项集包括:选项:A、频繁1项集:{M},{O},{K},{E},{Y}B、频繁2项集:{M,K},{O,K},{O,E},{K,E},{K,Y}C、频繁3项集:{O,K,E}D、频繁4项集:{O,N,K,E}正确答案:【频繁1项集:{M},{O},{K},{E},{Y}#频繁2项集:{M,K},{O,K},{O,E},{K,E},{K,Y}#频繁3项集:{O,K,E}】7、问题:数据库有5个事物,设min_sup=60%,min_conf=80%。TID购买的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}列举所有的强关联规则(给出支持度s和置信度c):选项:A、{E}-{O,K}(60%,100%)B、{O,K}-{E}(60%,100%)C、{K}-{O,E}(60%,100%)D、{O,E}-{K}(60%,100%)正确答案:【{O,K}-{E}(60%,100%)#{O,E}-{K}(60%,100%)】8、问题:假设数据挖掘的任务是将如下8个点(用(x,y)代表位置)聚类为3个簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是欧式距离。假设初始选择A1,B1和C1分别为每个聚类的中心,用K-平均算法来给出最后的三个簇以及簇中心:选项:A、最后三个簇为:{A1,B1,C2}、{A3,B2,B3}、{A2,C1}B、最后三个簇为:{A1,B1,C1}、{A3,B2,B3}、{A2,C2}C、最后三个簇中心为:(3,9.5),(6.5,5.25),(1.5,3.5)D、最后三个簇中心为:(3.67,9),(7,4.33),(1.5,3.5)正确答案:【最后三个簇为:{A1,B1,C2}、{A3,B2,B3}、{A2,C1}#最后三个簇中心为:(3.67,9),(7,4.33),(1.5,3.5)】9、问题:设训练样本集包含{ID,收入(万元),婚否,爱旅游}四个特征,8条记录如表所示,采用C4.5算法进行连续属性划分,通过构建决策树,输出规则为:12.5否否212

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论