版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1题下列不属于数据挖掘功能的是____A关联B分类C预测D误差分析第2题商务分析简单分类中不包括____A描述性分析B实验性分析C预测性分析D规范性分析第3题预测性分析中运用到的技术有____A数据挖掘B时间序列预测C统计技术正确答案:ABC第4题规范性分析中使用到的技术有____A优化B模拟C决策建模D专家系统正确答案:ABCD第5题商务智能系统通常包括____A数据仓库及其数据源B商务分析工具C实验数据分析工具D用户界面正确答案:ABD第6题商务智能的价值体现在____A制定合适的市场营销策略B改善顾客管理C经营成本与收入分析D提高风险管理能力,改善业务洞察力正确答案:ABCD第7题下列哪一项不属于商务智能的目标____A交互式访问数据B操纵数据C污染数据D获得有价值的洞察第8题特征是数据汇总的形式。()第9题知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模式评估和知识表示。()第10题数据模式只能从同一类型的数据库挖掘。()第11题模式兴趣度度量客观的才可以用来指导发现过程。()第12题数据是描述事物的符号,通过有意义的组合来表达现实世界中某种实体的特征。()第13题知识是对信息内容进行的挖掘、分析、概括、断和推论。知识作为一种资源,其重要性越来越受到重视。()第14题知识分为事实性知识和逻辑性知识。()第15题商务智能的目标是交互式访问数据,操纵数据、获得有价值的洞察、做出更好的决策。()第1题当超过规定的存储期限,数据从仓库中删除,同时定期加载新的数据输入数据仓库。()第2题数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。()第3题数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。()第4题数据仓库从数据源经过转换、集成后获得,同时提供给可视化用户接口用于下层分析。()第5题数据仓库是面向主题的,其数据包括元数据和经过ETL的业务数据。数据仓库是数据集市的一个子集。()第6题模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(
)第7题Scrapy是一个开源的网络资源获取框架。其最初是为了页面抓取所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。(
)第8题网络爬虫是一种按照一定的规则,自动地抓取因特网信息的程序。()第9题传统爬虫从一个或若干初始网页的URL开始信息抓取,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列并进一步抓取,直到满足系统的停止条件。(
)第10题在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是____A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样第11题数据仓库是随着时间变化的,下面的描述不正确的是____
A数据仓库随时间的变化不断增加新的数据内容B捕捉到的新数据会覆盖原来的快照C数据仓库随事件变化不断删去旧的数据内容D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.第12题在有关数据仓库测试,下列说法不正确的是____A在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D在测试之前没必要制定详细的测试计划第13题关于基本数据的元数据是指____A基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B基本元数据包括与企业相关的管理方面的数据和信息C基本元数据包括日志文件和简历执行处理的时序调度信息D基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息第14题数据采集得到的数据源可以来源于____A企业各种应用系统B办公自动化系统等产生的业务数据、文档C市场、竞争对手的数据D各类外部统计数据正确答案:ABCD第15题数据仓库特性具有易失性。章节作业第1题数据挖掘的主要挑战有____A挖掘方法B用户交互C效率和可扩展性D数据库类型的多样化正确答案:ABCD第2题下列几种数据挖掘功能中被广泛的用于购物篮分析的是____A关联分析B分类和预测C聚类分析D演变分析第3题数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。(
)第4题数据挖掘需要掌握一定的机器学习模型例如贝叶斯方法、决策树、监督学习模型。(
)第5题数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。(
)第6题数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。(
)第7题数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。(
)第8题商业智能是数据挖掘的核心,分类和预测技术是商业智能的预测分析的核心。(
)第9题超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?____A关联规则发现B聚类C分类D自然语言处理第10题数据挖掘算法的组件包括____A模型或模型结构B评分函数C优化和搜索方法D数据管理策略正确答案:ABCD第11题数据挖掘的预测建模任务主要包括哪几大类问题____A分类B回归C模式发现D模式匹配正确答案:AB第12题通过数据挖掘过程所推倒出的关系和摘要经常被称为____A模型B模式C模范D模具正确答案:AB第13题数据挖掘任务可以被归类为两种类别:描述性的和非描述性的。()第14题数据挖掘过程应该是高度交互性的。需要建立灵活的用户界面和探索性的挖掘环境,以便于用户的交互。(
)第15题数据挖掘的步骤是数据清理、数据集成、数据选择、数据转换、数据挖掘、模式评估、知识表示。()章节作业第1题结构化数据包括标称、序数、数值和文本。第2题下面哪个不属于数据的属性类型A标称B序数C区间D相异第3题属于定量的属性类型是____A标称B序数C区间D相异第4题光年所属的属性类型为____A标称属性B序数属性C区间标度属性D比率标度属性第5题曼哈顿距离可用于计算数值属性相异性的距离度量。(
)第6题某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y=8.25x+60.13,下列叙述正确的是____。A该地区一个儿童的身高为142.63cmB该地区2~9岁的儿童每年的身高约增加8.25cmC该地区9岁儿童的平均身高是134.38cmD利用这个模型可以准确地预测该地区每个2~9岁儿童的身高第7题衡量中心性的测量有均值、中值、众数和中列数。(
)第8题某班数学期末考成绩分组数据如下,则数据的中位数区间是____A60至69分B70至79分C80至89分D90至100分第9题只有非零值才重要的二元属性被称作____A计数属性B离散属性C非对称的二元属性D对称属性第10题下面哪个不属于数据的属性类型____A标称B序数C区间D相异第11题下列属于定量的属性类型是____A标称B序数C区间D相异第12题离群点是指数据集中不遵守一般行为和模型的数据。()第13题频繁模式,含义是数据中经常发生的模式。包括频繁项集,频繁序列,频繁子结构。()第14题聚类分析针对有标签的数据进行。基于最大化类别内部的相似度,最小化类别之间的相似度的原则来分组。(
)第15题回归是建立离散值函数模型,预测缺失或难以获得的数值型数据。(
)章节作业第1题最常用的中心性度量之一是数据的均值。()第2题中列数是数据集中最大值和最小值的平均值。可以用来评估数值型数据的中心性趋势。()第3题在对称的单峰频率曲线数据分布中,平均数,中值和众数都在同样的中点值上。()第4题众数可以是定性但不能定量的属性。()第5题为了处理由少数极端值带来的效果,可以使用削减均值,即去掉极端大和极端小的值之后的平均值。()第6题当数据集很大时,计算中值代价很高。对于数值型属性,比较容易计算其近似值。()第7题对于偏斜的数据,使用众数是更好的中心性测量。()第8题相对均值而言,中位数对极端值比较敏感。()第9题假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为____A0.821B1.224C1.458D0.716第10题考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是____A2B3C3.5D5第11题一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是____A一年级B二年级C三年级D四年级第12题考虑值集{12243324556826},其四分位数极差是____A31B24C55D3第13题假设我们有salary的如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110
下列不是其中的四分位数的是____A47B52C63D70第14题下列数据中的中列数是____30,31,47,50,52,52,56,60,63,70,70,110A70B52C56D60第15题假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为____A18.3B22.6C26.8D27.9章节作业第1题寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
(
)第2题先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
(
)第3题具有较高的支持度的项集具有较高的置信度。(
)第4题关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(
)第5题下表是一个购物篮,假定支持度阈值为40%,其中____是频繁闭项集。AabcBadCcdDbde第6题一个数据库有5个事务,如下表所示。设min_sup=60%,min_conf=80%。从下列选项中不是频繁2-项集的是___A{M,K}B{O,K}C{K,E}D{M,O}第7题关联规则的经典算法包括Apriori和FP-growth,其中Apriori的效率更高。()第8题Aprior算法包括连接和剪枝两个基本步骤。(
)第9题考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,产生的4-项集不包含___A1,2,3,4B1,2,3,5C1,2,4,5D1,3,4,5第10题利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(
)第11题Apriori算法的计算复杂度不受____影响。A支持度B项数(维度)C事务数D事务平均宽度第12题下面购物篮能够提取的3-项集的最大数量是多少,假设支持数为2()
A1B2C3D4第13题下列算法属于频繁项集挖掘方法的是()AAGNESBCartCDIANADApriori第14题下面选项中t不是s的子序列的是____As=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>Bs=<{2,4},{3,5,6},{8}>t=<{2},{8}>Cs=<{1,2},{3,4}>t=<{1},{2}>Ds=<{2,4},{2,4}>t=<{2},{4}>第15题频繁项集、频繁闭项集、最大频繁项集之间的关系是:____A频繁项集>频繁闭项集=最大频繁项集B频繁项集=频繁闭项集>最大频繁项集C频繁项集>频繁闭项集>最大频繁项集D频繁项集=频繁闭项集=最大频繁项集章节作业第1题剪枝是决策树学习算法对付____现象的主要手段?
A标记噪声B数据少C过拟合D欠拟合第2题利用分类函数将数据映射到给定类别的过程叫做分类。
(
)第3题分类中测试集与训练集不独立也不会影响模型的性能。
(
)第4题无监督学习中的样本类编号是未知的。
(
)第5题决策树的生成由构建和剪枝两部分组成。
(
)第6题决策树可被用于对未知样本进行分类。
(
)第7题C4.5用信息增益比来选择特征。
(
)第8题增益率的表达式是Gain_ratio(D,a)=___AGain(D,a)+IV(a)BGain(D,a)-IV(a)CGain(D,a)*IV(a)DGain(D,a)/IV(a)第9题下列说法错误的是
___A划分选择的各种准择对泛化性能的影响有限B划分选择的各种准择对决策树尺寸有较大影响CCART算法在候选属性集合中选取使划分后基尼指数最大的属性D相比划分准则,剪枝方法和程度对决策树泛化性能的影响更为显著第10题信息熵是度量样本集合___最常用的一种指标A对称差B纯度C大小D重要性第11题以下哪个是信息增益的定义___A划分前的信息熵-划分后的信息熵B划分后的信息熵-划分前的信息熵C划分前的信息熵/划分后的信息熵D划分后的信息熵+划分前的信息熵第12题以下哪个不是决策树算法___ACartBId3CC4.5DBIRCH第13题Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
(
)第14题无监督学习常被用于聚类分析。
(
)第15题以下哪项关于决策树的说法是错误的___A冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是NP完全问题章节作业第1题朴素贝叶斯分类法的性能可以媲美特定的神经网络。(
)第2题贝叶斯分类是非增量式的。(
)第3题朴素贝叶斯分类的优势在于易于实现且各属性间无依赖性。(
)第4题朴素贝叶斯分类在大量的情况下都能得到较好的结果。(
)第5题ROC曲线能够显示分类器TPR和FPR之间的关系。(
)第6题AUC的值就是处于ROC曲线下方的那部分面积的大小。(
)第7题当测试集中的正负样本的分布变化的时候,Precision-Recall曲线能够保持不变。(
)第8题两个模型AUC值相等则代表模型效果相同。(
)第9题特效性计算公式为____ATN/PBTP/PCTN/NDTP/N第10题以下哪个不能用于度量评估分类器的性能____A可伸缩性B可变通性C可解释性D鲁棒性第11题如下表,精度为____A0.91B0.09C0.95D0.93第12题以下哪个是计算F_β度量的公式____A((1+β^2)×precision×recall)/(β^2×precision+recall)B((1+β^2)×precision×recall)/(β^2×precision×recall)C((1+β^2)×precision×recall)/(β×precision+recall)D((1+β^2)×precision×recall)/(β×precision×recall)第13题如1的表中,错误率为____A0.91B0.09C0.95D0.93第14题如1的表中,F值为_____A0.91B0.09C0.95D0.93第15题如1的表中,召回率为___A0.91B0.09C0.95D0.93章节作业第1题以下哪个是层次聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学22.2二次函数与一元二次方程教案及反思
- 高中物理人教版 (2019)选择性必修 第二册1 认识传感器一等奖教案设计
- 山东省泰安市肥城市2026届高三下学期高考适应性训练语文试题(一)(含答案)
- 冀教版六 小数的初步认识教案
- 河南省濮阳市2026届高三下学期一模英语试卷(含解析含听力原文无音频)
- 中国石油天然气集团校招面笔试题及答案
- 第11课 反文旁与欠字旁教学设计-2025-2026学年小学书法练习指导四年级下册西泠版
- 安徽省2025-2026学年九年级下学期中考名校互鉴(一)化学 (B)试卷(含答案)
- 第13课《卖油翁》 教学设计2025-2026学年统编版语文七年级下册
- 初中英语人教新目标 (Go for it) 版七年级下册Section A表格教案设计
- 季度安全生产总结
- 《中国姓氏的来源》课件
- 屋顶光伏施工合同范本
- HG/T 20686-2024 化工企业电气设计图形符号和文字代码统一规定(正式版)
- 呆滞物料管理规定
- 病案信息技术基础知识考试重点梳理(中级)
- 聚丙烯题库PP通用部分
- 卫生监督PPT课件 卫生监督证据
- 【民宿空间设计(论文)6200字】
- GB/T 4893.9-1992家具表面漆膜抗冲击测定法
- GB/T 14039-2002液压传动油液固体颗粒污染等级代号
评论
0/150
提交评论