第六章 现代数据挖掘技术与发展_第1页
第六章 现代数据挖掘技术与发展_第2页
第六章 现代数据挖掘技术与发展_第3页
第六章 现代数据挖掘技术与发展_第4页
第六章 现代数据挖掘技术与发展_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 现代数据挖掘技术与发展,6.1 知识挖掘系统的体系结构,(1)知识发现是用一种简洁的方式从大量的数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。 (2)知识发现可看成是一种价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它能通过全面的信息发现与分析,找到有价值的商业规则。 (3)知识发现意味着数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。,6.1.1 知识发现技术的定义,6.1.2 知识发现系统的结构,知识发现系统的结构由知识发现系统管理器、知识库

2、、商业分析员、数据仓库的数据接口、数据选择、知识发现引擎、知识发现评价、知识发现描述等部分组成。见图6-1。,1知识发现系统管理器 知识发现系统管理器控制并管理整个知识发现过程。商业分析人员的输入和知识库中的信息用于驱动以下三个过程: (1)数据选择过程。 (2)抽取算法的选择及使用过程。 (3)发现的评价过程。,2知识库和商业分析员 知识库包含源于各方面的知识。商件分析员将元数据输入数据仓库,描述数据仓库的数 据结构、商业分析员还要在知识库中输入其他相关的数据知识(如应当注意的关键数据字段、 分析中用于产生数据需求的商业规则、任何数据层次等)。其目的是按一种有效的方式指导 对关注性信息的发现

3、。,3数据仓库的数据库接口 知识发现系统利用数据库的查询机制,从数据仓库中抽取数据。对于关系数据库,可使用SQL查询语言。知识库中的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式。 为了提高效率,知识发现系统的数据库接口可以直接与数据仓库通信。,4数据选择 数据选择构件可以确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件,选择需要抽取的数据以及抽取方式。如果只需示例数据,数据选择构件必须有能力选择并抽取恰当的随机事例。此外,它还要选择算法所需要的数据类型,同时将数据类型输入算法。,5知识发现引擎 知识发现引擎将知识库中的抽取算法提供数据选

4、择构件抽取的数据,其目的是抽取数据元素间的模式和关系。存储在知识库中的经验对发现抽取有重要的作用。 许多数据挖掘算法可与知识发现系统结合,作为知识发现引擎,如数据依赖、分类规则、聚类、概括数据、偏差检查、归纳和模糊推理等。,6发现评价 商业分析员需要寻找关注性的数据模式,以便了解顾客、产品、市场等等。数据仓库潜 在地具有宿主模式。评价构件或过滤构件有助于商业分析员筛选模式,选出关注性的信息。 用于分析关注性模式的技术包括统计的重点、覆盖级别的置信度因子,以及可视化分析。,7发现描述 发现描述构件提供两种必须的功能。一种是发现评价辅助商业分析员,在知识库中保存 关注性的发现结果,以备引用和使用。

5、另一种是保持发现与商业经理(或商业总经理)的通信。其目的是利用知识发现来理解业务模式,将此理解转化成可执行的建议。知识发现系统 中的描述技术包括可视化导航和浏览、自然语言文本报告以及图表和图形。,6.2 现代数据挖掘技术及应用,6.2.1 规则型挖掘技术及应用,1关联规则的基本概念 布尔关联规则,单层规则 量化规则,单层规则 多层关联规则,Select C,P.item_name From Purchases,P Group by Cust.ID Having (Cust.age = 30 and Cust.age = 42000 and Cust.income = 50000

6、) And (p.item_name = “high_resolution_TV”),2关联规则的应用目标,3关联规则的算法 1993年Apriori算法 核心算法分成两步: (1)找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的称为k-项集 (2)使用第(1)步找到的频集产生所期望的规则,图6.2 Apriori算法应用例子,4关联规则应用 关联规则是知识挖掘中一种主要的挖掘技术,通过关联规则在数据仓库中的应用,可使人们了解各种事物发生的前因后果,使企业利用挖掘的各种商业规则在市场竞争中获取优势。 通常,关联规则用于值域的基数很高或有多个二值属性列的数据库。,表6-1 前件

7、和后件规则中的正确率和覆盖率,表6-2 关联规则正确率和覆盖率的平衡表,6.2.2 神经网络型挖掘技术,1.神经网络及其学习方法,图6.3 神经网络,2.基于神经网络的数据挖掘 1)基于自组织神经网络的数据挖掘技术 2)模糊神经网络类型的数据挖掘技术 模糊BP网络、模糊Kohonen网络、模糊推理网络和ART网络等。,3.后向传播模型(BP)及其算法 具体过程: (1)选定p个样本 (2)权值初始化(随机生成); (3)依次输入样本; (4)依次计算各层的输出; (5)求各层的反传误差; (6)按权值调整公式修正各权值和阀值; (7)按新权值计算各层的输出,直到误差小于事先设定的阀值。,Out

8、put layer,Input layer,Hidden layer,Output vector,Input vector: X,wij,4.神经网络的应用 人工种经网络是种有效的预测模型。其模型比较复杂,许多人都难以理解;但是在聚 类分析、奇异点分析、特征抽取中可以得到较大的应用,例如应用在信用卡欺诈、信贷风险、 客户分类、盈利客户特征分析商业模式的识别上。 神经元网络在使用时需要很长的圳练时间,因而对有足够长训练时间的应用更为合适。 此外,神经元网络对噪声数据具有较高的承受能力。,表6-3 神经网络模型的比较,图6.4 一个简单的预测贷款拖欠情况的神经网络,图6.5 预测树结果,6.2.3

9、 遗传算法型挖掘技术,1.遗传算法的基本原理,图6.6 遗传算法处理流程图,2.遗传算法的处理过程 1)编码并生成祖先群体 2)计算当前基因群体中所有个体的环境适应度 3)对适应函数评价每一个体对环境的适应度 4)选择适应度好的个体进行复制 5)选择适应度好的个体进行复制交叉配对繁殖 6)新生代的交叉操作,3.遗传算法的应用 遗传算法作为基于生物进化过程的组合优化方法,在数据挖掘中主要用于分类系统中, 并且经常与神经网络等数据挖掘技术综合应用。 神经元网络在客户的分类中的应用是比较成功的。,表6-4 客户的信息组成,表6-5 客户群的新基因组成,6.2.4 粗糙集挖掘技术,1.粗糙集技术,2.

10、粗糙集的应用,表6-6 流失客户的信息,6.2.5 决策树型挖掘技术,1.决策树技术,图6-7 “是否购买计算机”的决策树,表6-7 经过数据预处理的数据记录,6.3 知识发现工具与应用,6.3.1 知识发现工具的系统结构,1.无耦合 2.松散耦合 3.半紧密耦合 4.紧密耦合,6.3.2 知识发现工具运用中的问题,1.数据挖掘技术应用中的共性问题 1)数据质量 2)数据可视化 3)极大数据库 4)性能与成本 5)商业分析员的技能 6)处理数据噪声和不完全数据 7)模式评估-兴趣度问题,2.数据挖掘技术应用中的个性问题 1)规则归纳应用中的问题 2)神经网络应用中的问题 3)遗传算法应用中的问题,6.3.3 知识挖掘的价值,1 .了解商业活动 2.发现商业异常 3.预测未来趋势,6.4 数据挖掘技术的发展,1 .文本挖掘 2.可视化数据挖掘 3.空间数据挖掘 4.分布式数据挖掘,图6-8 PADMA体系结构,图6-9 CMA体系结构,数据挖掘分析与设计: 分组:每班6组,每组5-6人,自由组合,每组选出一个做答辩,答辩PPT要求10页以上,分组答辩前学委交分组名单。 讨论内容与题目: 组1:教务选课系统数据挖掘的分析与设计 组2:图书馆借

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论