数据挖掘复习大纲答案新新.doc_第1页
数据挖掘复习大纲答案新新.doc_第2页
数据挖掘复习大纲答案新新.doc_第3页
数据挖掘复习大纲答案新新.doc_第4页
数据挖掘复习大纲答案新新.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘复习提纲分值分布一、 选择题(单选10道20分多选5道20分)二、 填空题(10道20分)三、 名词解释(5道20分)四、 解答题(4道20分)五、 应用题(Apriori算法20分)1什么是数据挖掘?1答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2. 什么是数据清理?2答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性3. 什么是数据仓库?3答:是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门决策的过程。(最显著特征:数据不易丢失2分选择题)4. 什么是数据集成?4.数据集成:集成多个数据库、数据立方体或文件5. 什么是数据变换?5答:将数据转换或统一成适合于挖掘的形式。6. 什么是数据归约?6答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果7. 什么是数据集市?7答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的) 8.在数据挖掘过程中,耗时最长的步骤是什么?8.答:数据清理9. 数据挖掘系统可以根据什么标准进行分类?9答:根据挖掘的数据库类型分类 、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类10. 多维数据模型上的 OLAP 操作包括哪些? 10.答:上卷、 下钻、切片和切块、转轴 / 旋转、其他OLAP操作 11. OLAP 服务器类型有哪几种?11.答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器 (HOLAP)、特殊的 SQL 服务器 12. 数据预处理技术包括哪些? (选择)12.答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。13. 形成“脏数据”的原因有哪些? 13. 答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码 14. 与数据挖掘类似的术语有哪些? 14答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。15.常用的四种兴趣度的客观度量是什么?15答:简单性 、确定性、 实用性、新颖性 16.数据立方体的物化可以有哪三种选择?16q 全物化q 不物化q 部分物化17. 从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?17 答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。18. 在数据挖掘系统中,为什么数据清理十分重要?18答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。19.脏数据形成的原因有哪些?如何理解现实世界的数据是“肮脏的”?19答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码 不完整的、含噪声的、不一致的、重复的20. 数据清理时,对空缺值有哪些处理方法?20.答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值21. 什么是数据变换?包括哪些内容?21. 答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造22. 数据归约的策略包括哪些?22.答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生23. 提高数据挖掘算法效率有哪几种思路?23.答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法24. 假定属性income的最小值与最大值分别为12000和98000到区间0.0,1.0,根据 min-max 规范化,income的值73600将变为_0.716_。25. 假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为1.225。26. 假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为-0.98627. 从结构角度来看,有哪三种数据仓库模型。27. 答:企业仓库、数据集市、虚拟仓库28. 什么是聚类分析?28.答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程30. 可以对按季度汇总的销售数据进行_B_,来观察按月汇总的数据。 A 上卷 B 下钻 C 切片 D 切块31. 可以对按城市汇总的销售数据进行_A_,来观察按国家总的数据。 A 上卷 B 下钻 C 切片 D 切块 32. 通过不太详细的数据得到更详细的数据,称为_B_。 A 上卷 B 下钻 C 细化 D 维规约33. 三层数据仓库结构中,从底层到尾层分别是仓库数据服务器、OLAP服务器、前端客户层_。34.已知事务数据库D,假定最小支持度为2,求所有的频繁项集35.给出数据仓库的某种概念模式图,会用DMQL语句描述该概念模式,包括事实与维。见pptn DMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义q 立方体定义 (事实表)define cube : q 维定义 (维表) define dimension as ()q 特殊案例 (共享维表的定义) n 第一次作为维表定义 “cube definition” n 然后:define dimension as in cube 实例:使用DMQL定义星型模式q define cube sales_star time, item, branch, location:q dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)q define dimension time as (time_key, day, day_of_week, month, quarter, year)q define dimension item as (item_key, item_name, brand, type, supplier_type)q define dimension branch as (branch_key, branch_name, branch_type)q define dimension location as (location_key, street, city, province_or_state, country)实例:使用DMQL定义雪花模式define cube sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country) 使用DMQL定义事实星座模式define cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales36. 四种常用的概念分层类型是什么?36. 答:模式分层、集合分组分层、操作导出的分层、基于规则的分层37. 各种DMQL子句的表述?(支持度、置信度) 37.见ppt eg: with support threshold = 15%38.数据挖掘任务的五种原语是什么?38.答:说明数据库的部分或用户感兴趣的数据集任务相关数据要挖掘的知识类型用于指导挖掘的背景知识模式评估、兴趣度度量如何显示发现的知识发现模式的可视化39.在进行数据预处理时,对于离群点的处理方法是:视需要而定,有时需要删除,有时需要保留。40. 多维数据仓库有哪几种概念模型?40.答:星形模式、雪花形模式或事实星座形模式。41.Apriori算法的性质是什么?41答:频繁项集的所有非空子集也必须是频繁的。AB模式不可能比A更频繁地出现Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率42.应用Apriori算法进行寻找频繁项集时,两个关键的步骤是什么?42答:Apriori算法两个关键的步骤是连接和剪枝。43.数据挖掘技术的发展动力来自于什么?43.答:数据爆炸问题44.“数据挖掘”英文缩写是DM,它源于英文Data Mining45.“数据挖掘”亦称为KDD,其中文含义是什么?45.答:数据库中的知识发现46.max()函数属于分布函数,avg()函数属于代数函数,median()函数属于整体函数47.数据仓库的特征是什么?47.答:数据仓库关键特征1面向主题面向主题,是数据仓库显著区别于关系数据库系统的一个特征数据仓库关键特征2数据集成数据仓库关键特征3随时间而变化数据仓库关键特征4数据不易丢失48.数据仓库的概念模式有哪几种?48.答:最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。49.一个数据立方体有3个维,则它的2-D,3-D方体有几个?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论