决策支持系统的核心数据挖.ppt

上传人：x*** IP属地：四川上传时间：2020-04-01 格式：PPT 页数：79 大小：431KB 积分：15 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

决策支持系统的核心数据挖掘方法与技术 0决策支持系统 DSS 数据模型推理知识决策人机交互 1数据挖掘的基本概念数据挖掘 DM 的产生背景随着数据库技术的迅速发展以及数据库管理系统的广泛应用企业和组织积累的数据越来越多 1数据挖掘的基本概念数据挖掘 DM 的产生背景数据库系统可以高效地实现数据的录入查询统计等功能但无法发现数据中存在的关系和规则无法根据现有的数据预测未来的发展趋势从而出现数据爆炸但知识贫乏的现象 1数据挖掘的基本概念数据挖掘 DM 的产生背景大量数据背后隐藏着许多重要的信息企业和组织的管理决策者希望能够对其进行更高层次的分析 1数据挖掘的基本概念数据挖掘 DM 的产生背景GartnerGroup的一次高级技术调查结果将数据挖掘和人工智能列为将对未来三到五年内工业产生深远影响的五大关键技术之首世界500强企业中80 都涉足数据挖掘的前瞻性研究 1数据挖掘的基本概念数据挖掘的概念数据挖掘又称为数据库中的知识发现 KnowledgeDiscoveryfromDatabase KDD 它是一个从大量的不完全的有噪声的模糊的随机的实际应用数据中抽取挖掘出隐含其中的事先未知的有价值的模式或规律等知识的复杂过程该过程如下图所示 1数据挖掘的基本概念 1数据挖掘的基本概念数据挖掘的概念数据挖掘涉及多学科技术的集成数据库技术统计学机器学习高性能计算模式识别神经网络数据可视化信息检索图象与信号处理和空间数据分析 1数据挖掘的基本概念数据挖掘的概念数据挖掘功能用于指定数据挖掘任务中要找的模式类型数据挖掘任务一般分两类描述式数据挖掘刻画数据库或数据仓库中数据的一般特性预测式数据挖掘在当前数据上进行推断以进行预测 1数据挖掘的基本概念数据挖掘的功能概念描述 Conceptdescription 利用数据属性中更广义的属性内容对其进行归纳和总结 1数据挖掘的基本概念数据挖掘的功能关联分析 AssociationAnalysis 从给定的数据集中发现频繁出现的项集模式知识 1数据挖掘的基本概念数据挖掘的功能分类 Classification 找出一组能够描述数据集合典型特征的函数以便能够识别未知数据的归属或类别即将未知事例映射到某个离散类别 1数据挖掘的基本概念数据挖掘的功能聚类分析 ClusteringAnalysis 根据各聚集 cluster 之内数据对象的相似度最大化和各聚集之间数据对象相似度最小化这一原则将数据对象划分为若干组 1数据挖掘的基本概念数据挖掘的功能孤立点分析 OutlierAnalysis 寻找不符合大多数数据对象所构成的规律模型的数据对象 1数据挖掘的基本概念数据挖掘的功能演化分析 EvolutionAnalysis 对随时间变化的数据对象的变化规律和趋势进行建模描述 1数据挖掘的基本概念数据挖掘工具与传统数据分析工具的比较 2数据挖掘功能关联规则关联规则的基本概念关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系从大量商业事务记录中发现有趣的关联关系可以帮助许多商务决策的制定如分类设计交叉购物和促销分析等 2数据挖掘功能关联规则购物篮分析购物篮分析是关联规则挖掘的最初形式假定作为某商店经理你想更加了解你的顾客的购物习惯例如什么商品组或集合顾客多半会在一次购物时同时购买为解答这个问题可以在商店顾客事务零售数据上运行购物篮分析分析的结果可用于市场规划广告策划和分类设计 2数据挖掘功能关联规则购物篮分析若设商店中所有销售商品为一个集合则每个商品均为一个布尔变量表示该商品是否被一个顾客购买因此每个购物篮就可以用一个布尔向量表示 2数据挖掘功能关联规则购物篮分析分析相应布尔向量得到反映商品频繁关联或同时购买的购买模式并可用关联规则的形式表示模式例如购买计算机也趋向于同时购买财务管理软件可用以下关联规则表示 2数据挖掘功能关联规则购物篮分析关联规则的支持度 support 2 表示分析中的全部事务的2 同时购买计算机和财务管理软件关联规则的置信度 confidence 60 表示购买计算机的顾客60 也购买财务管理软件 2数据挖掘功能关联规则 Apriori算法Apriori算法是根据有关频繁项集性质的先验知识而命名该算法使用一种逐层搜索的迭代方法利用k 项集探索 k 1 项集具体做法首先找出频繁1 项集的集合记为L1 再用L1找频繁2 项集的集合L2 再用L2找L3 如此下去直到不能找到频繁k 项集为止找每个Lk需要一次数据库扫描 2数据挖掘功能关联规则 Apriori算法Apriori算法的有效性在于它利用了一个非常重要的原理即Apriori性质如果一个项集是频繁的则这个项集的任意一个非空子集都是频繁的 Apriori性质基于如下观察如果项集I不满足最小支持度阈值min sup 则I不是频繁的如果增加项A到I 则结果项集不可能比I更频繁出现因此也不是频繁的 2数据挖掘功能关联规则 Apriori算法该性质属于一种特殊的分类也称作反单调性意指如果一个集合不能通过测试则它的所有超集也都不能通过相同的测试反单调性能迅速减值提高搜索频繁项集的处理效率 2数据挖掘功能关联规则 Apriori算法整个过程由连接和剪枝两步组成即连接步为找Lk 可通过Lk 1与自己连接产生一个候选k 项集的集合该候选项集的集合记作Ck 2数据挖掘功能关联规则 Apriori算法设l1和l2是Lk 1中的项集记号li j 表示li的第j项为方便计假定事务或项集中的项按字典次序排序执行连接其中Lk 1的元素是可连接的如果它们前 k 2 个项相同 2数据挖掘功能关联规则 Apriori算法即Lk 1的元素l1和l2是可连接的如果 l1 1 l2 1 l1 2 l2 2 l1 k 2 l2 k 2 l1 k 1 l2 k 1 条件 l1 k 1 l2 k 1 可确保不产生重复的项集 2数据挖掘功能关联规则 Apriori算法剪枝步Ck是Lk的超集即它的成员不一定都是频繁项集但所有的频繁k 项集都包含在Ck中扫描数据库确定Ck中每个候选项集的计数从而确定Lk 然而 Ck可能很大这样所涉及的计算量就很大 2数据挖掘功能关联规则 Apriori算法剪枝步为了压缩Ck 可利用Apriori性质任何非频繁的 k 1 项集都不可能是频繁k 项集的子集因此若一个候选k 项集的 k 1 项子集不在Lk 1中则该候选也不可能是频繁的从而可以从Ck中删除 2数据挖掘功能关联规则例一个Apriori的具体例子该例基于右图某商店的事务DB DB中有9个事务 Apriori假定事务中的项按字典次序存放 2数据挖掘功能关联规则 1 在算法的第一次迭代每个项都是候选1 项集的集合C1的成员算法简单地扫描所有的事务对每个项的出现次数计数 C1 2数据挖掘功能关联规则 2 设最小支持计数为2 可以确定频繁1 项集的集合Lk 1 它由具有最小支持度的候选1 项集组成 L1 2数据挖掘功能关联规则 3 为发现频繁2 项集的集合L2 算法使用产生候选2 项集集合C2 C2 2数据挖掘功能关联规则 4 扫描D中事务计算C2中每个候选项集的支持计数 C2 2数据挖掘功能关联规则 5 确定频繁2 项集的集合L2 它由具有最小支持度的C2中的候选2 项集组成 L2 2数据挖掘功能关联规则 6 候选3 项集的集合C3的产生如下连接 C3 I1 I2 I1 I3 I1 I5 I2 I3 I2 I4 I2 I5 I1 I2 I1 I3 I1 I5 I2 I3 I2 I4 I2 I5 I1 I2 I3 I1 I2 I5 I1 I3 I5 I2 I3 I4 I2 I3 I5 I2 I4 I5 2数据挖掘功能关联规则 6 候选3 项集的集合C3的产生如下利用Apriori性质剪枝频繁项集的所有子集必须是频繁的存在候选项集判断其子集是否频繁 I1 I2 I3 的2 项子集是 I1 I2 I1 I3 和 I2 I3 它们都是L2的元素因此保留 I1 I2 I3 在C3中 I1 I2 I5 的2 项子集是 I1 I2 I1 I5 和 I2 I5 它们都是L2的元素因此保留 I1 I2 I5 在C3中 2数据挖掘功能关联规则 6 候选3 项集的集合C3的产生如下 I1 I3 I5 的2 项子集是 I1 I3 I1 I5 和 I3 I5 I3 I5 不是L2的元素因而不是频繁的由C3中删除 I1 I3 I5 I2 I3 I4 的2 项子集是 I2 I3 I2 I4 和 I3 I4 其中 I3 I4 不是L2的元素因而不是频繁的由C3中删除 I2 I3 I4 2数据挖掘功能关联规则 6 候选3 项集的集合C3的产生如下 I2 I3 I5 的2 项子集是 I2 I3 I2 I5 和 I3 I5 其中 I3 I5 不是L2的元素因而不是频繁的由C3中删除 I2 I3 I5 I2 I4 I5 的2 项子集是 I2 I4 I2 I5 和 I4 I5 其中 I4 I5 不是L2的元素因而不是频繁的由C3中删除 I2 I4 I5 这样剪枝后C3 I1 I2 I3 I1 I2 I5 2数据挖掘功能关联规则 7 扫描D中事务以确定L3 它由具有最小支持度的C3中的候选3 项集组成 C3 C3 2数据挖掘功能关联规则 8 算法使用产生候选4 项集的集合C4 尽管连接产生结果 I1 I2 I3 I5 这个项集将被剪去因为它的子集 I2 I3 I5 不是频繁的则C4 因此算法终止找出了所有的频繁项集 L3 2数据挖掘功能关联规则 Apriori算法基于上例结果假定数据包含频繁项集l I1 I2 I5 可以由l产生哪些关联规则 l的非空子集有 I1 I2 I1 I5 I2 I5 I1 I2 和 I5 则结果关联规则如下每个都列出置信度 2数据挖掘功能关联规则 Apriori算法 2数据挖掘功能关联规则 Apriori算法如果最小置信度阈值为70 那么只有第2 3 6个规则可以作为最终的输出因为只有这些是产生的强规则 3数据挖掘功能分类与预测分类与预测的基本知识基于判定树的分类简单贝叶斯分类 3数据挖掘功能分类与预测分类与预测的基本知识分类和预测是数据分析的两种形式可以用来提取描述重要数据类的模型或预测未来的数据趋势分类预测离散或分类属性预测预测连续或有序值 3数据挖掘功能分类与预测分类与预测的基本知识数据分类 1 学习建立一个描述已知数据集类别或概念的模型该模型是通过对DB中元组属性的分析而构造的假定每个元组属于一个预定义的类由类标号属性确定为建立模型所使用的元组形成训练数据集其中的单个元组称作训练样本并随机地从样本群体中选取由于提供了每个训练样本的类标号该步也称作有指导的学习 3数据挖掘功能分类与预测分类与预测的基本知识数据分类通常学习模型用分类规则判定树或数学公式的形式提供例如给定一个顾客信用信息DB 通过学习获得的分类规则可用于识别顾客是否具有良好的信用等级或一般的信用等级 3数据挖掘功能分类与预测分类与预测的基本知识数据分类 2 分类使用学习得到的模型进行分类首先评估模型的预测准确率有多种方法可以用来评估分类的准确率保持 holdout 方法是一种利用类标号样本测试集的简单方法这些样本随机选取并独立于训练样本对于每个测试样本将已知的类标号与学习所获模型的预测类别进行比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 3数据挖掘功能分类与预测分类与预测的基本知识数据预测预测是构造和使用模型评估无标号样本类或评估给定样本可能具有的属性值或值区间为了提高分类与预测过程的准确性有效性和可伸缩性可对数据进行预处理一般使用数据清理相关性分析数据变换概念分层或规范化 3数据挖掘功能分类与预测基于判定树的分类判定树判定树是一个类似流程图的树型结构其中每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出而每个树叶节点代表类或类分布判定树归纳是构造判定树的基本算法在判定树构造时许多分枝可能反映的是训练数据中的噪声或孤立点可用树剪枝方法检测和剪去这类分枝以提高在未知数据上分类的准确性 3数据挖掘功能分类与预测基于判定树的分类 1 判定树归纳以自顶向下递归的分而治之方式构造判定树算法的基本策略如下判定树以代表训练样本的单个节点开始若一个节点的样本均为同一类别则该节点成为树叶并用该类进行标记 3数据挖掘功能分类与预测基于判定树的分类 1 判定树归纳否则算法使用信息增益度量作为启发信息选择能够最好地将样本分类的属性作为该节点的测试属性在此算法中所有的属性都是分类的即取离散值对连续值的属性必须离散化对测试属性的每个已知的值创建一个分枝并具此划分样本 3数据挖掘功能分类与预测基于判定树的分类 1 判定树归纳算法使用同样的过程递归地形成每个划分上的样本判定树一个属性一旦出现在某个节点上就不再考虑该节点的任何后代递归划分操作仅当下列条件之一成立时停止 a 给定节点的所有样本属于同一类b 没有剩余属性可用来进一步划分样本c 测试属性的一个分枝没有样本 3数据挖掘功能分类与预测基于判定树的分类 2 属性选择方法在判定树的每个节点上使用信息增益度量选择测试属性选择具有最高信息增益的属性作为当前节点的测试属性可以使结果划分中的样本分类需要的信息量最小并反映划分的最小随机性这种信息论方法使得对一个对象分类所需的期望测试数目达到最小并确保找到一棵简单的树 3数据挖掘功能分类与预测基于判定树的分类信息增益度量设S是训练样本的集合其中每个样本的类标号已知假定有m个类设S包含si个Ci类样本 i 1 2 m任意一个样本属于类Ci的可能性为si s 其中s是集合S中样本的总数 3数据挖掘功能分类与预测基于判定树的分类信息增益度量一个决策树可用于对数据对象进行分类因此决策树可以看成是Ci的一个信息源为产生相应信息需要的信息熵 entropy 为 3数据挖掘功能分类与预测基于判定树的分类信息增益度量若属性A的取值为 a1 a2 an 且该属性用作决策树的一个结点时则可将S划分为子集 S1 S2 Sn 其中Sj包含属性A取同一值aj的数据行记sij为Sj包含类Ci的样本个数 3数据挖掘功能分类与预测基于判定树的分类信息增益度量根据属性A的取值对当前数据集划分所获得的信息就称为属性A的熵它的计算公式如下 3数据挖掘功能分类与预测基于判定树的分类信息增益度量A上该划分得到的信息增益定义为 3数据挖掘功能分类与预测基于判定树的分类 2 属性选择方法判定树归纳算法计算每个属性的信息增益并挑选具有最高信息增益的属性作为给定集合的测试属性创建一个节点并以该属性标记对属性的每个值创建分枝并据此划分样本 3数据挖掘功能分类与预测基于判定树的分类例下表给出一个商场顾客DB数据元组训练集类标号属性buys compute有两个不同值即 yes no 因此训练集中有两个不同的类 m 2 设类C1对应于yes 而类C2对应no 类C1有9个样本类C2有5个样本我们用前面的一组公式计算每个属性的信息增益 3数据挖掘功能分类与预测基于判定树的分类首先计算给定样本分类所需的信息增益接着计算每个属性的熵从属性age开始 3数据挖掘功能分类与预测基于判定树的分类若样本按age划分对一个给定的样本分类所需的期望信息为这种划分的信息增益是 3数据挖掘功能分类与预测基于判定树的分类类似地可计算由于age在属性中具有最高信息增益它被选作测试属性创建一个节点用age标记并对每个属性值引出一个分枝样本据此划分见下图 3数据挖掘功能分类与预测基于判定树的分类判定树归纳算法被广泛应用到许多进行分类识别的应用领域这类算法无需相关领域知识归纳的学习与分类识别的操作处理速度较快相应的分类准确率较高 3数据挖掘功能分类与预测基于判定树的分类 3 树剪枝在判定树构造时许多分枝可能反映的是训练数据中的噪声或孤立点可用树剪枝方法检测和剪去这类分

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

决策支持系统的核心数据挖.ppt

文档简介

温馨提示

最新文档

评论

决策支持系统的核心数据挖.ppt

文档简介

温馨提示

最新文档

评论

相关文档