




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 1.数据挖掘导论, Pang-Ning Tan,Michael Steinbach等著, 人 民邮电出版社.2011 2.数据挖掘:概念与技术(原书第2版 ), 韩加炜等著, 机械工业出版社 .2007 3.数据挖掘原理与应用(第2版)- SQL Server 2008数据库, (美 )Jamie MacLennan,ZhaoHui Tang 等著,清华大学出版社.2010 1.1 1.1 数据挖掘发展简述数据挖掘发展简述 1.2 1.2 对何种数据进行数据挖掘对何种数据进行数据挖掘 1.3 1.3 数据挖掘的功能数据挖掘的功能 1.4 1.4 数据挖掘结果的评估数据挖掘结果的评估 1.5
2、1.5 数据挖掘系统分类数据挖掘系统分类 1.6 1.6 数据挖掘的研究重点数据挖掘的研究重点 数据爆炸问题 自动数据收集工具和成熟的数据库技术使 得大量的数据被收集,存储在数据库或其他信 息库中以待分析。 数据丰富,而知识匮乏 解决方法:数据仓库技术和数据挖掘技术 (1)数据仓库(Data Warehouse)和在线分析处理(OLAP) (2)数据挖掘:在大量的数据中挖掘感兴趣的知识(规 则,规律,模式,约束) 数据挖掘 (从数据中发现知识) 数据挖掘(Data Mining,DM),又称为数据库中的 知识发现(Knowledge Discovery from Database,KDD ),
3、它是从大量的数据中挖掘哪些令人感兴趣的、有 用的、隐含的、先前未知的和可能有用的模式或知识 的复杂过程。 数据挖掘是一个多学科交叉研究领域 它融合了数据库技术、人工智能、机器学习、统 计学、知识工程、面向对象方法、信息检索、高性能 计算以及数据可视化等最新技术的研究成果。 数据挖掘数据挖掘 数据库系统数据库系统统计学统计学 其他学科 算法 可视化机器学习机器学习 数据挖掘知识挖 掘的核心 数据清洗数据清洗 与集成与集成 数据库数据库 数据仓库数据仓库 任务相关数据任务相关数据 选择与转换选择与转换 数据挖掘数据挖掘 模式模式 评估与评估与 表示表示 从KDD对数据挖掘的定义中可以看到当前研 究
4、领域对数据挖掘的狭义和广义认识 数据清理数据清理:清除数据噪声和与挖掘主题明显无关的数据 数据集成数据集成:将来自多数据源中的相关数据组合在一起 数据选择数据选择:从DB中提取与分析任务相关的数据 数据变换数据变换:将数据转换为易于进行挖掘的存储形式 数据挖掘数据挖掘:选择适当的算法来找到感兴趣的模式或规律 知识 模式评估模式评估:根据一定的评估标准从挖掘结果筛选出有意 义的模式 知识表示知识表示:利用可视化和知识表达技术,向用户展示所 挖掘出的相关知识 其它信息库其它信息库 数据库或数据仓库服务器 数据挖掘引擎数据挖掘引擎 模式评估模式评估 图形用户界面图形用户界面 知识库 数据清理、集成和
5、选择数据清理、集成和选择 万维网万维网数据仓库数据仓库数据库数据库 一个典型的数据挖掘系统主要包含以下部件: 数据库、数据仓库或其它信息库数据库、数据仓库或其它信息库 数据库或数据仓库服务器:数据库或数据仓库服务器:根据用户的相关请 求读取相关数据; 知识库:知识库:存放数据挖掘所需的领域知识,用于 指导数据挖掘的搜索过程或用于帮助对挖掘结 果的评估; 数据挖掘引擎数据挖掘引擎:完成特征化、关联和相关分析 、分类、预测、聚类分析、离群点分析等任务 模式评估模块模式评估模块:根据兴趣度度量,协助数据挖 掘模块聚集挖掘更有意义的模式知识; 1.1.可视化用户界面可视化用户界面:帮助用户与数据挖掘系
6、统本 身进行沟通交流。 基于数据仓库的OLAP系统 OLAP系统专注于数据的汇总,而数据挖掘系统可以对数 据进行多种复杂的处理。 机器学习系统,数据统计分析系统 这些系统所处理的数据容量往往很有限。 信息系统 专注于数据的查询处理。 相比于上述系统,数据挖掘系统关注更广的范 围,是一个多学科的融合 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和历史(legacy)数据库 文本数据库和万维网(WWW) 空间数据库是指在关系型数据库(DBMS)内部对 地理信息进行物理存储。空间数
7、据库中存储的海 量数据包括对象的空间拓扑特征、非空间属性特 征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据 数据挖掘技术的应用:通过空间分类和空间趋势 分析,引入机器学习算法,对有用模式进行智能 检索 时间数据库和时序数据库都存放与时间 有关的数据。时间数据库通常存放包含 时间相关属性的数据。时序数据库存放 随时间变化的值序列。 对时间数据库和时序数据库的数据挖掘 ,可以通过研究事物发生发展的过程, 有助于揭示事物发展的本质规律,可以 发现数据对象的演变特征或对象变化趋 势。 与传统的数据库技术中的静态数据不同,流 数据是连续的、有
8、序的、变化的、快速的、 大量的数据输入的数据。 主要应用场合 网络监控 网页点击流 股票市场 流媒体等等 与传统数据库技术相比,流数据在存储、查 询、访问、实时性的要求等方面都有很大区 别。 多媒体数据库实现用计算机管理庞大复 杂的多媒体数据,主要包括包括图形、 图象、声音、视频等等,现代数据库技 术一般将这些多媒体数据以二进制大对 象的形式进行存储。 对于多媒体数据库的数据挖掘,需要将 存储和检索技术相结合。目前的主要方 法包括构造多媒体数据立方体、多媒体 数据库的多特征提取和基于相似性的模 式匹配。 面向对象数据库是面向对象技术和数据库技术 结合的产物,该技术对数据以对象的形式进行 存储,
9、并在这个基础上实现了传统数据库的功 能,包括持久性、并发控制、可恢复性、一致 性和查询数据库的能力等。 对象关系数据库基于对象关系模型构造, 该模型通过处理复杂对象的丰富数据类型和对 象定位等功能,扩充关系模型。 面向对象数据库和对象关系数据库中的数据 挖掘会涉及一些新的技术,比如处理复杂对象 结构、复杂数据类型、类和子类层次结构、构 造继承以及方法和过程等等。 历史数据库是一系列的异构数据库系统的集 合,包括不同种类的数据库系统,像关系数 据库、网络数据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数 据库之间的数据信息资源、硬件设备资源和 人力资源的合并和共享。 对于异构数据库系
10、统,实现数据共享应当达 到两点:一是实现数据库转换;二是实现数 据的透明访问。 WEB SERVICE技术的出现有利于历史数据库数据的 重新利用。 文本数据库存储的是对对象的文字性描述。 文本数据库的分类 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆的目录数据库) 万维网(WWW)可以被看成最大的文本数据库 数据挖掘内容 内容检索 WEB访问模式检索 通常,数据挖掘任务分为下面两大类: 预测任务预测任务。这些任务的目标是根据其他属性 的值,预测特定属性的值。被预测的属性一 般称目标变量或因变量,而用来预测的属性 称说明变量或自变量。 1.1.描述任务描述任务
11、。目标是导出概括数据中潜在联系 的模式(相关、趋势、聚类、轨迹和异常) 。 我们将论述以下四种主要数据挖掘任务: 涉及以说明变量函数的方式为目标 变量建立模型。有两类预测建模任务: 分类:用于预测离散的目标变量。 例:预测某一个web用户是否会在网上购书是分类任 务,因为该目标变量是二值的。 回归:用于预测连续的目标变量。 例:预测某股票的未来价格是回归任务。 两项任务目标都是训练一个模型, 使目标变量预测值与实际值之间的误差 达到最小。 考虑如下任务:根据是否属于Setosa、 Versicolour、Virginica这三类之一对鸢尾花(Iris )进行分类。给出150种花的花瓣宽度与花瓣
12、长度的对 比图。花瓣宽度分成low、medium、high三类,分别对 应于区间0,0.75)、0.75,1.75)、1.75,)。花 瓣的长度分成low、medium、high三类,分别对应于区 间0,2.5)、2.5,5)、5, )。 花瓣长度(花瓣长度(cm) 花瓣宽度花瓣宽度(cm) 花瓣宽度和花瓣长度为low蕴涵Setosa; 花瓣宽度和花瓣长度为medium蕴涵Versicolour; 花瓣宽度和花瓣长度为high蕴涵Virginica. 尽管这些规则不能对所有的花进行分类, 但是它们对大多数花都能很好地进行分类。 注意:根据花瓣宽度和花瓣长度,Setosa种类 的花完全可以与Ve
13、rsicolour和Virginica种类的 花分开;但是后两类花在这些属性上有一些重叠 。 用来发现描述数据中强关联特征的 模式。所发现的模式通常用蕴涵规则或 特征子集的形式表示。由于搜索空间是 指数规模的,关联分析的目标是以有效 的方式提取最有趣的模式。关联分析的 应用包括找出具有相关功能的基因组、 识别一起访问的Web页面、市场营销、 理解地球气候系统不用元素之间的联系 等。 以下给出的事务是一家超市的销售数据。 事务事务ID商商 品品 1 2 3 4 5 6 7 8 9 10 面包,黄油,尿布,啤酒面包,黄油,尿布,啤酒 咖啡,糖,小甜饼,鲑鱼咖啡,糖,小甜饼,鲑鱼 面包,黄油,咖啡,
14、尿布,啤酒,面包,黄油,咖啡,尿布,啤酒,鸡蛋鸡蛋 面包,黄油,鲑鱼,鸡面包,黄油,鲑鱼,鸡 鸡蛋,面包,黄油鸡蛋,面包,黄油 鲑鱼,尿布,啤酒鲑鱼,尿布,啤酒 面包,茶,糖,鸡蛋面包,茶,糖,鸡蛋 咖啡,糖,鸡,鸡蛋咖啡,糖,鸡,鸡蛋 面包,尿布,啤酒,面包,尿布,啤酒,盐盐 茶,鸡蛋,小甜饼,尿布,啤酒茶,鸡蛋,小甜饼,尿布,啤酒 关联分析可以用来发现大量顾客频繁 地同时购买的商品。例如,我们可能发现 规则 尿布尿布-啤酒啤酒 。该规则暗示购买尿布 的顾客多半会购买啤酒啤酒。这种类型的规则 可以用来发现相关商品中可能的交叉销售 的机会。 聚类分析旨在发现紧密相关的观测 值组群,使得与属于不
15、同簇的观测值相 比,属于同一簇的观测值相互之间尽可 能类似。聚类可用来对相关顾客分组、 找出显著影响地球气候的海洋区域以及 压缩数据等。 以下给出的新闻文章可以根据它们各自的主 题分组。 文章文章词词 1 2 3 4 5 6 7 8 Dollar:1, industry:4, country:2, loan:3, deal:2, government:2 Machinery:2, labor:3, market:4, industry:2, work:3, country:1 Job:5, inflation:3, rise:2, jobless:2, market:3, country:2,
16、 index:3 Domestic:3, forecast:2, gain:1, market:2, sale:3, price2 Patient:4, symptom:2, drug:3, health:2, clinic:2, doctor:2 Pharmaceutical:2, company:3, drug:2, vaccine:1, flu:3 Death:2, cancer:4, drug:3, public:4, health:3, director:2 Medical:2, cost:3, increase:2, patient:2, health:3, care:1 每篇文章
17、表示为词-频率对(w,c)的集 合,其中w是词,而c是该词在文章中出现 的次数。在该数据集中,有两个自然簇。 第一个簇由前四篇文章组成,对应于 经济新闻,而第二个簇包含后面四篇文章 ,对应于卫生保健新闻。一个好的聚类算 法应当能够根据文章中出现的词的相似性 ,识别这两个簇。 异常检测的目标是发现与大部分其他对 象不同的对象。通常,异常对象被称作离群 点(outlier),因为在数据的散布图中, 它们远离其他数据点。 异常检测也称偏差检测,因为异常对象 的属性值显著地偏离期望的或常见的属性值 。异常检测也称为例外挖掘,因为异常对象 在某种意义上是例外的。 异常检测的应用包括检测欺诈、网络攻 击、
18、疾病的不寻常模式、生态系统扰动等。 一个数据挖掘系统在完成一个(组) 挖掘算法之后,常常会获得成千上万的模式 或规则,其中只会有一小部分是有实际应用 价值的。 如何对挖掘结果进行有效地评估以便最 终能够获得有价值的模式(或规则)知识? 这就给数据挖掘提出了许多需要解决 的问题: 问题1:使一个模式有价值的因素是什么? 问题2:一个数据挖掘算法能否产生所有有 价值的模式? 问题3:一个数据挖掘算法能否只产生有价 值的模式? 评估一个模式兴趣度的标准 它易于被人理解 ; 对于新数据或测试数据能够确定有效程度; 具有潜在价值; 新颖的 模式兴趣度的客观和主观度量 客观度量客观度量: 基于所发现模式的
19、结构和关于它们的统 计, 比如: 支持度、置信度等等。 主观度量主观度量: 基于用户对数据的判断。比如:出乎意 料的、新颖的、可行的等等。 期望数据挖掘算法能够产生所有有价 值的模式(知识)是不现实的。实际上一 个搜索方法可以利用兴趣测度来帮助缩小 模式的探索范围。因此通常只需要保证挖 掘算法的完全性就可以了。关联规则的挖 掘算法就是这样的一个例子。 问题3涉及数据挖掘算法的最优化问题 。一般当然希望数据挖掘算法仅挖掘有价 值的模式(知识),但这题一个较为棘手 的最优化高效搜索问题,至今尚没有好的 解决方法。 假定希望分析爱喝咖啡的爱喝茶的人之 间的关系。收集一组人关于饮料偏爱的信息 ,并汇总
20、在下表中: 可以使用表中给出的信息来评估关联规 则 茶茶-咖啡咖啡 。猛一看,似乎喜欢喝茶 的人也喜欢喝咖啡,因为该规则的支持度 (15%)和置信度(75%)都相当的高。这 个推论也许是可以接受的,但是所有的人 中,不管他是否喝茶,喝咖啡的人的比例 80%,而喝咖啡的饮茶都却只占75%。这意 味着,一个人如果喝茶,则他喝咖啡的可 能性由80%减至75%。因此,尽管规则 茶茶- 咖啡咖啡 有很高的置信度,但是它却是一个 误导。 数据挖掘技术的多样性,导致数据 挖掘系统的多样性。 根据所挖掘的对象进行分类: 关系型数据库挖掘;面向对象数据库挖掘;空间数 据库挖掘;时态数据库挖掘;文本数据库挖掘;多 媒体数据库挖掘;异质数据库挖掘;web数据挖掘等 根据所挖掘的知识类型分类: 挖掘关联型知识;挖掘预测型知识;挖掘偏离型知 识;挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国护士帽行业供需平衡与经营效益分析报告
- 广东省揭阳、金中2026届高三化学第一学期期末联考试题含解析
- 宁夏银川市宁夏大学附中2026届高一化学第一学期期末调研试题含解析
- 常染色体显性遗传课件
- 2026届福建省泉州市第十六中学化学高一上期末监测试题含解析
- 河南省商丘市睢阳区2024-2025学年六年级下学期期末语文试卷(有答案)
- 带情景剧的脑卒中课件
- 师范生化妆课件
- 2026届江苏省七校联盟化学高一上期中统考试题含解析
- 2025年金属非金属矿山安全检查作业(露天矿山)考试题库含答案
- 15D500-15D505 防雷与接地图集(合订本)
- 带状疱疹护理查房
- SX-22163-QR345工装维护保养记录
- 中国重症加强治疗病房建设与管理指南
- 2023年航空职业技能鉴定考试-候机楼服务技能考试题库(含答案)
- MBA培训进修协议
- p型半导体和n型半导体课件
- LY/T 2501-2015野生动物及其产品的物种鉴定规范
- GB/T 748-2005抗硫酸盐硅酸盐水泥
- GB 15763.1-2001建筑用安全玻璃防火玻璃
- 民间文学(全套课件)
评论
0/150
提交评论