




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 名词术语及概念 1. 数据挖掘(P3):指从大量数据中提取或“挖掘”知识。 2. 知识发现过程(P3): 3. 数据库(P5): 按照数据结构来组织、存储和管理数据的仓 库。可以对这些数据进行数据清理和集成。 4. 数据挖掘作为知识发现过程的步骤(P4):清理与集成、选择 与变换、数据挖掘、评估与表示。 1) 数据清理:清楚噪声和不一致数据 2) 数据集成:多种数据源可以组合在一起 3) 数据选择:从数据库中提取与分析人物相关的数据 4) 数据变换:数据变换或统一成合适挖掘形式,如通过汇总 或聚集操作 5) 数据挖掘:基本步骤,使用智能方法提取数据模式 6) 模式评估:根据某种兴趣度度量,识别表示知识的真正有 趣的模式 7) 知识表示:使用可视化和知识表示技术,向用户提供挖掘 的知识。 5. 数据仓库(5,8,67): 数据仓库是一个从多个数据源收集的信息储存库,存放在一个一 致的模式下,并且通常驻留在某个站点;是一个面向主题的、集 成的、时变的和非易失的数据集合,可以对数据进行清理和集成 等操作,支持管理部门的决策过程。 6. 多维数据立方体(8):作为数据仓库的一种实际物理结构 (另外一种是关系数据库),提供数据的多维视图,并允许 计算和快速访问汇总数据。 7. 数据集市(9):数据集市是数据仓库的一个部门子集。它焦 点在选定的主题上,是部门范围的。(数据仓库是企业范围 的) 8. OLAP及相应的操作(9):联机分析处理,OLAP操作使用数 据的领域背景知识,允许在不同的抽象层提供数据。其操作 的例子包括下钻和上卷。 9. 事物数据库(10):由一个文件组成,其中每个记录代表一个 事物。通常,一个事物包含唯一的事物标识号(trans_ID)和 组成该事物的项的列表。 10. 时间数据库(11):通常存放包含时间相关属性的关系数据 库。 11. 空间数据库(11):包含设计空间的信息。 12. 多媒体数据库(12):存放图像、音频和视频数据。 13. 异构数据库(12):由一组互连的、自治的成员数据库组 成。这些成员数据库相互通信,以便交换信息和回答查询。 14. 频繁模式(15):是指在数据中频繁出现的模式。存在多种 类型的频繁模式,包括项集、子序列和子结构。 15. Support/Confidenct(15): 置信度又称为规则的正确率,是指在前提出现的情况 下,后件出现的概率 支持度又称为规则的覆盖率,是指包含规则出现的属性值的 交易占所有交易的百分比 16. 分类(15):分类是一个过程,它找出描述和区分数据类或 概念的模型(或函数),以便能够使用模型预测类标号未知 的对象类。导出模型是基于对训练数据集(即类标号已知的 数据对象)的分析。 17. 预测(15):建立连续值函数模型。它用来预测空缺的或不 知道的数值数据值,而不是类标号。 18. 决策树(16):是一种类似于流程图的树结构,其中每个节 点代表在一个属性值上的测试,每个分枝代表测试的一个输 出,而树叶代表类或类分布。 19. 聚类分析(17):聚类分析数据不考虑已知的类标号,对象 根据最大化类内部的相似性、最小化类之间的相似性的原则 进行聚类或分组。 20. 离群点(17):数据库中可能包含一些数据对象,它们与数 据的一般行为或模型不一致。 21. 均值(33): 设x1,x2,xn是n个值或观测的集合。该值集的均值是: 22. 加权算术平均(33):;在集合中每个值xi与一个权值wi相关 联,权值反应对应值的显著性、重要性或出现频率。 23. 中位数(33):设给定的N个不同值得数据集按数值序排 序。如果N是奇数,则中位数是有序集的中位数;否则,中 位数是中间两个值得平均值。 24. 众数、中列数、百分位数(34): 众数:另外一个中心趋势量,集合中出现频率最高的数。 中列数:数据集的最大和最小值的平均值。 百分位数:在数值序下,数据集合的第K个百分位数是具有如下性 质的值xl:百分之K的数据项位于或低于xl. 百分位数的求法:特点:数组按低到高,即从小到大。 Eg,实际步骤: 1. 排序(升) 2. 求(n-1)*k%; 整数部分i;小数部分j; 3. 最终结果=(1-j)*(1+i)th+j*(i+2)th.(th表示序列中第几个 数) 如题: 求1 3 4 5 6 7 8 9 19 29 39 49 59 69 80的30%百分位数。 解:(16-1)*0.3=4.5;得出整数部分为4,小数部分为0.5; 结果=(1-0.5)*6+0.5*7=6.5 25. 五数概况(35):由中位数,四分位数Q1和Q3,最小和最大 观测值组成,按一下序列写为: Minimun,Q1,Median,Q3,Maximum. 26. 方差、标准差(35): N个观测值x1,x2Xn的方差是: 其中,x是观测值的均值,观测值的方差是标准差得平方根。 27. 直方图(36):频率直方图,是一种概括给定属性分布的图 形方法。属性A的直方图是将A的数据分布划分成不相交的子 集或桶。通常,每个桶的宽度是一致的。每个桶用一个矩形 表示,其高度等于桶中的值计数或相对频率。 28. 分箱(40):分箱方法通过考察数据的“邻近”(即周围的 值)来光滑有序数的值。有序值分布到一些“桶”或箱中。一 般来说,宽度越大,光滑效果越大。 29. 回归、聚类(40): 回归:可以用一个函数(如回归函数)拟合数据来光滑数据。 聚类:可以通过聚类检测离群点,将类似的值组织成群或“簇”。 直观地,落在簇之外的值视为离群点。 30. 相关系数(43):又称皮尔逊积矩系数 其中N是元组的个数,ai和bi分别是元组i中A和B的值,和分别是A 和B的均值,和分别是A和B的标准差,是A和B叉积的和(即:对 于每个元组,A的值乘以该元组B的值). -1=min_conf,则输出规则: “S=(L-S)”,min_conf是最小置信度阀值。 43. 多层关联规则、多维关联规则(163): (1) 在多个抽象层上挖掘数据产生的关联规则称为多层关 联规则。多层关联规则设计不同抽象层中的概念。 (2) 涉及两个或多个维或谓词的关联规则称为多维关联规 则。 44. 从决策树提取规则(208): 45. 后向传播分类(212-217): 46. K最近邻居分类(226): 47. 遗传算法(228): 48. 预测(231): 最小二乘法:P231-P233(例6-11;作业:6.14(P246));线性回归 (P231-P233); 49. 提升度(169):例5-9,例5-10 提升度(lift):项集A的出现独立于项集B的出现,如果;否则作 为事件项集A和B是依赖的和相关的。 A和B出现之间的提升度(等价于P(B|A)/P(B)或 conf(A=B)/sup(B));若lift(A,B)值小于1,则A的出现和B的出现 是负相关的。如果结果大于1,则A和B是正相关的,意味着一个 的出现蕴含另一个的出现。如果结果等于1,则A和B 是独立的, 它们之间无相关性。 50. 监督学习(185):分类器的学习在被告知每个训练元组属于 哪个类的“监督”下进行。 51. 无监督学习(185):又称为“聚类”,每个训练元组的类标号 是未知的,并且要学习的类的个数或集合也可能事先不知 道。 52. 如何评价学习算法(187): 从以下几个方面评价:准确 率、速度、鲁棒性、可升缩性、可解释性。 2 练习题目 1. ex 2.2 2. ex 2.4 3. ex 2.9 4. ex 2.14 5. ex3.4 6. ex 3.5 7. ex 3.7 8. ex 3.12 9. ex 3.13 10. ex 5.3 11. ex 5.5 12. ex 5.10(a) 13. ex 5.13 14. ex 5.14 3 经典算法 1. Aprior算法(P151):直接;剪枝 例5-3 2. 决策树(P189):信息增益(192)例6-1;增益率(184)例6- 2; 3. 贝叶斯分类(P200);贝叶斯定理(201);朴素贝叶斯分类 (202);例6-4 P203 4 综合 1. 数据挖掘产生的背景 答:随着信息科技的进步以及电子化时代的到来,人们以更快 捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量 以指数方式增长。据粗略估计,一个中等规模企业每天要产生 100MB以上的商业数据。而电信、银行、大型零售业每天产生的 数量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐 藏着许多重要的信息,人们希望对其进行更高层次的分析,以便 更好的利用这些数据。先前的数据库系统可以高效的实现数据的 录入、查询、统计等功能,但无法发现数据背后隐藏的知识手 段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要 学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息 淹没?如何从中及时发现有用的知识、提高信息利用率?如何从 浩瀚如烟海的资料中选择性的搜集他们认为有用的信息?这给我 们带来了另一些头疼的问题: (1) 信息过量,难以消化; (2) 信息真假难以辨别; (3) 信息安全难以保证 (4) 信息形式不一,难以统一处理 面对这一挑战,面对数量很大而有意义的信息很难得到的状况, 面对大量繁杂而分散的数据资源,随着计算机数据仓库技术的不 断成熟,从数据中发现知识及其核心技术数据挖掘便应运而生 了,数据挖掘可以看作是信息技术自然演化的结果。 2. 数据挖掘的定义和意义 答:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机 的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在 有用的信息和知识的过程。 意义: (1) 让海量数据充分利用,挖掘数据重隐藏的“秘密”。 (2) 通过数据挖掘技术,可以降低企业收集数据、提取有 用信息并作出决策的成本。 (3) 通过数据挖掘技术,可以发现重要的数据模式,对商 务策略、知识库、科学和医学研究作出巨大贡献。 3. 数据挖掘也可看成知识发现的过程,这一过程主要分几个部 分,各是什么? 数据挖掘被看成知识发现的过程,主要分成了四个部分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省成都市简阳市阳安中学2022-2023学年高一下学期3月月考地理试题 无答案
- 终止加盟合同协议书范本
- 合同弃权协议书
- 中国新质生产力技术
- 协议入股合同协议书
- 纺织材料的创新使用与环境影响试题及答案
- 佛教合同协议书
- 合同金额协议书
- 果园种植合同协议书模板
- 美工合同协议书
- 2021-2022学年浙江省“9 1”高中联盟高一年级下册学期期中数学试题【含答案】
- 硬笔书法:幼小衔接识字写字教学课件
- 盘扣支模架工程监理细则
- 崇尚科学反邪教主题教育PPT反对邪教主题教育宣讲课件
- smt首件检验记录表
- 大众Formel-Q培训材料全解析含案例
- 莫扎特贝多芬肖邦英文简介课件
- 青岛中瑞泰丰新材料有限公司2万吨无机环保新材料来料加工项目 环境影响报告书
- 《现代汉语词汇》PPT课件(教学)
- 编码理论第3章
- 北京市46家种猪场地址及联系方式
评论
0/150
提交评论