已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘复习提纲第一章 数据挖掘概述1、什么是数据挖掘从大量数据中挖掘有用的知识2、 数据挖掘的动机数据丰富,信息贫乏3、数据挖掘的同义词从数据中挖掘知识,知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获、资料勘探等等4、 知识发现的过程1.数据清理2.数据集成3.数据选择4.数据变换5.数据挖掘6.模式评估7.知识表示5、数据挖掘和知识发现是一回事吗?数据挖掘是知识发现过程的一个步骤6、数据挖掘可以挖掘的两类模式?描述性的数据挖掘,预测性的数据挖掘7、常用的数据挖掘技术?概念/类描述: 特性化和区分,挖掘频繁模式、关联和相关,分类和预,聚类分析,离群点(孤立点)分析,趋势和演变分析8、 什么是离群点?离群点总是被抛弃的吗?离群点:一些与数据的一般行为或模型不一致的孤立数据。通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论9、 挖掘的所有模式都是有趣的吗?什么样的模式是有趣的?如何度量模式的有趣度?一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的易于理解,在某种必然程度上,对于新的或检验数据是有效的,是潜在有用的,是新颖的,符合用户确信的某种假设客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性等.10、 数据挖掘原语类型?任务相关的数据,挖掘的知识类型,背景知识,模式相关度度量,发现模式的可视化第二章 数据预处理1、现实世界中的数据是“脏”的,主要体现在哪几个方面?数据为什么脏?不完整、含噪声和不一致不完全数据源于:数据收集时未包含,数据收集和数据分析时的不同考虑.,人/硬件/软件问题噪音数据源于:收集数据的设备可能出现故障,数据输入时人为录入错误,数据传输错误不一致数据源于:不同的数据源,数据代码不一致(日期格式)2、 为什么要进行数据预处理?现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤3、 数据预处理的主要形式?数据清理,数据集成,数据变换,数据归约4、 数据中心趋势度量:均值、加权均值、截断均值、中位数、众数、中列数。(计算题)5、数据离中趋势度量:极差、百分位数、四分位数、五数概括、中间四分位数极差、方差和标准差(计算题)6、度量的三个分类?(学会判断某种度量属于哪一类)分布式度量:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样代数度量:可以 通过在一个或多个分布式度量上应用一个代数函数而得到整体度量:必须对整个数据集计算的度量7、盒图、直方图的画法。 8、什么是数据清理?数据清理的任务包括哪些?数据清理是数据仓库构建中最重要的问题数据清理任务:填写空缺的值,识别离群点和平滑噪声数据,纠正不一致的数据,解决数据集成造成的冗余9、 如何处理缺失值?忽略元组,人工填写,使用一个全局常量填充缺失值,使用属性均值填充缺失值,使用与给定元组属于同一类的所有样品的属性均值,使用最可能的值填充10、 什么是噪声?处理噪声的方法有哪些?噪声(noise):被测量变量中的随机错误或偏差分箱,回归,聚类,计算机和人工检查结合,离散化的数据归约方法11、 分箱技术(计算题)排序后数据:4,8,15,21,21,24,25,28,34划分为(等深的)箱:箱1: 4, 8,15 箱2:21,21,24箱3:25,28,34用箱均值平滑:箱1: 9, 9, 9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1: 4, 4,15箱2:21,21,24箱3:25,25,3412、 什么是数据集成?数据集成需要处理哪些关键问题?合并多个数据源中的数据,存放在一个一致的数据存储中模式集成和对象匹配问题,冗余问题,数据值冲突的检测与处理13、 什么是数据变换?数据变换的形式有哪些?将数据转换或统一成适合于挖掘的形式平滑:去除数据中的噪声。聚集:对数据进行汇总和聚集数据泛化:使用概念分层,用高级概念替换底层或“原始数据”。规范化:将数据按比例缩放,使之落入一个小的特定区间属性构造14、三种数据规范化方法(计算题)15、什么是数据归约?为什么需要进行数据归约?数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果数据仓库中往往存有海量数据,在整个数据集上进行复杂的数据分析与挖掘需要很长的时间16、 常用的数据归约策略?数据立方体聚集,属性子集选择,维度归约,数值归约,离散化和概念分层产生17、 数据归约的原则是什么?用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间18、 什么是数据的离散化?为什么要进行数据的离散化?将连续属性的范围划分为区间有些分类算法只接受离散属性值,通过离散化有效的归约数据,离散化的数值用于进一步分析19、3-4-5规则(计算题)第三章 数据仓库与OLAP技术概述1、什么是数据仓库?解释数据仓库的四个关键字?数据仓库是 面向主题的, 集成的, 时变的, 和非易失的数据集合, 支持管理部门的决策过程面向主题的,集成的,时变的,非易失的2、 数据仓库和传统的操作数据库有什么区别?数据仓库:主要任务是联机分析处理OLAP,数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要操作数据库系统:主要任务是联机事务处理OLTP,日常操作: 购买,库存,银行,制造,工资,注册,记帐等3、 OLTP和OLAP的区别?用户和系统的面向性:OLTP: 面向顾客(事务),用于办事员、客户、信息专业人员的事务和查询处理。OLAP: 面向市场(分析),用于知识工人(经理,主管和分析人员)的数据分析。数据内容:OLTP:当前的、详细的数据 ,OLAP:历史的、汇总的数据数据库设计:OLTP:实体联系模型(ER)和面向应用的数据库设计 OLAP:星型/雪花模型和面向主题的数据库设计数据视图OLTP:当前的、企业内部的数据 ,OLAP: 经过演化的、集成的数据访问模式:OLTP:简短的原子事务,需要并发控制和恢复机制。 OLAP:复杂的查询,只读操作访问数据量:OLTP:数十个 ,OLAP:数百万个4、 为什么要把数据仓库和操作数据库分开存放?为了两个系统的高性能,有不同的功能和不同的数据5、多维数据模型、数据立方体、维表、事实表、方体、格。6、常用数据仓库模型:星形模式、雪花型模式、事实星座模式。7、典型的OLAP操作8、数据立方体计算。9、为什么不能对数据立方体进行完全的与计算?维灾难。10、两种OLAP数据索引方法?11、加快数据立方体查询处理速度的两个方法?12、OLAP查询:方体的选择。第四章 挖掘频繁模式、关联和相关1、基本概念理解:频繁模式、频繁项集、频繁序列、频繁子结构、购物篮分析、关联规则、强规则、频繁闭项集、极大频繁项集2、布尔向量表示购物篮3、支持度和置信度的计算4、关联规则挖掘的两步过程?5、单层关联规则、多层关联规则7、单维关联规则、多维关联规则8、布尔关联规则、量化关联规则10、Apriori性质、思想、算法过程11、由频繁项集产生关联规则12、FP树算法思想、过程13、ECLAT算法过程14、相关度lift计算第五章 分类和预测1、基本概念:分类、预测、类标号、类标号属性、分类器、训练数据集、检验数据集。2、简述分类的过程3、简述数据预测的过程4、分类和预测的异同?5、决策树归纳算法(ID3、C4.5、CART)6、决策树的节点7、决策树生成的两步过程8、什么是属性选择度量?常用属性选择度量有哪些?9、信息增益的计算。10、朴素贝叶斯分类过程11、急切学习法、懒惰学习法12、最小二乘法做线性回归第六章 聚类分析1、概念理解:监督学习、无监督学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工艺整合招聘面试题及答案
- 2026年苏州经贸职业技术学院单招职业倾向性测试题库必考题
- 2025广西南宁市马山县人力资源和社会保障局招聘外聘人员1人参考题库带答案详解(完整版)
- 2026年武汉海事职业学院单招职业技能考试必刷测试卷及答案1套
- 2026年四川应用技术职业学院单招职业倾向性测试题库及答案1套
- 2026年重庆化工职业学院单招职业适应性测试题库必考题
- 2025年河北省省直及部分省辖市事业单位招聘考试真题试卷 公共基础知识附答案详解(达标题)
- 2025广东深圳市光明区委宣传部招聘(选聘)专干2人参考题库及1套参考答案详解
- 2026年北京社会管理职业学院单招职业技能测试必刷测试卷汇编
- 2026年安徽中澳科技职业学院单招综合素质考试题库必考题
- GB/T 31402-2023塑料和其他无孔材料表面抗菌活性的测定
- 平面构成-特异构成的创意设计
- (完整word版)PEP五年级上册英语教案
- 银行跨银行现金管理产品运维外包管理办法模版
- 室内装饰工程施工进度横道图
- 绿色化学工艺-绿色技术教学课件
- 熔铝工安全操作规程
- 建筑电气基础知识第一章
- 国开电大应用写作(汉语)形考任务5参考答案
- 三标体系内审员培训课件
- 体育商业综合体规划方案
评论
0/150
提交评论