《大数据》第3章数据挖掘算法(下)ppt课件_第1页
《大数据》第3章数据挖掘算法(下)ppt课件_第2页
《大数据》第3章数据挖掘算法(下)ppt课件_第3页
《大数据》第3章数据挖掘算法(下)ppt课件_第4页
《大数据》第3章数据挖掘算法(下)ppt课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据BIG DATA.3.1数据发掘概述第三章数据发掘算法3.2分类3.3聚类3.1数据发掘概述3.5预测规模习题3.6数据发掘算法综合运用3.4关联规那么of652.3.4 关联规那么关联规那么是数据发掘中最活泼的研讨方法之一,是指搜索业务系统中的一切细节或事务,找出一切能把一组事件或数据项与另一组事件或数据项联络起来的规那么,以获得存在于数据库中的不为人知的或不能确定的信息,它偏重于确定数据中不同领域之间的联络,也是在无指点学习系统中发掘本地方式的最普通方式。More运用市场:市场货篮分析、交叉销售Crossing Sale、部分分类Partial Classification、金融效力

2、Financial Service,以及通讯、互联网、电子商务 第三章 数据发掘算法of653.3.4 关联规那么第三章 数据发掘算法普通来说,关联规那么发掘是指从一个大型的数据集Dataset发现有趣的关联Association或相关关系Correlation,即从数据集中识别出频繁出现的属性值集Sets of Attribute Values,也称为频繁项集Frequent Itemsets,频繁集,然后利用这些频繁项集创建描画关联关系的规那么的过程。3.4.1 关联规那么的概念关联规那么发掘问题:发现一切的频繁项集是构成关联规那么的根底。经过用户给定的最小支持度,寻觅一切支持度大于或等于

3、Minsupport的频繁项集。经过用户给定的最小可信度,在每个最大频繁项集中,寻觅可信度不小于Minconfidence的关联规那么。发现频繁项集生成关联规那么如何迅速高效地发现一切频繁项集,是关联规那么发掘的中心问题,也是衡量关联规那么发掘算法效率的重要规范。of654.3.4 关联规那么第三章 数据发掘算法3.4.2 频繁项集的产生及其经典算法格构造Lattice Structure经常被用来枚举一切能够的项集。图3-10 项集的格of655.3.4 关联规那么第三章 数据发掘算法3.4.2 频繁项集的产生及其经典算法格构造Lattice Structure经常被用来枚举一切能够的项集。

4、查找频繁工程集经典的查找战略基于精简集的查找战略基于最大频繁项集的查找战略按照发掘的战略不同经典的发掘完全频繁项集方法基于广度优先搜索战略的关联规那么算法基于深度优先搜索战略的算法Apriori算法、DHP算法FP-Growth算法、ECLAT算法COFI算法与经典查找不同方法基于精简集的方法基于最大频繁工程集的方法A-close算法MAFIA算法、GenMax算法DepthProject算法of656.3.4 关联规那么第三章 数据发掘算法3.4.2 频繁项集的产生及其经典算法1Apriori算法Apriori算法基于频繁项集性质的先验知识,运用由下至上逐层搜索的迭代方法,即从频繁1项集开场

5、,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频繁项集为止。Apriori算法由以下步骤组成,其中的中心步骤是衔接步和剪枝步:生成频繁1项集L1衔接步剪枝步生成频繁k项集Lk反复步骤24,直到不能产生新的频繁项集的集合为止,算法中止。性能瓶颈Apriori算法是一个多趟搜索算法能够产生庞大的候选项集of657.3.4 关联规那么第三章 数据发掘算法3.4.2 频繁项集的产生及其经典算法2FP-Growth算法频繁方式树增长算法Frequent Pattern Tree Growth采用分而治之的根本思想,将数据库中的频繁项集紧缩到一棵频繁方式树中,同时坚持项集之间的关联关系。然后

6、将这棵紧缩后的频繁方式树分成一些条件子树,每个条件子树对应一个频繁项,从而获得频繁项集,最后进展关联规那么发掘。FP-Growth算法由以下步骤组成:扫描事务数据库D,生成频繁1项集L1将频繁1项集L1按照支持度递减顺序排序,得到排序后的项集L1构造FP树经过后缀方式与条件FP树产生的频繁方式衔接实现方式增长1234图3-11 FP树的构造of658.3.4 关联规那么第三章 数据发掘算法3.4.2 频繁项集的产生及其经典算法3辛普森悖论虽然关联规那么发掘可以发现工程之间的有趣关系,在某些情况下,隐藏的变量能够会导致察看到的一对变量之间的联络消逝或逆转方向,这种景象就是所谓的辛普森悖论Simp

7、sons Paradox。为了防止辛普森悖论的出现,就需求斟酌各个分组的权重,并以一定的系数去消除以分组数据基数差别所呵斥的影响。同时必需了解清楚情况,能否存在潜在要素,综合思索。of659.3.4 关联规那么第三章 数据发掘算法3.4.3 分类技术分类技术或分类法Classification是一种根据输入样本集建立类别模型,并按照类别模型对未知样本类标号进展标志的方法。根据所采用的分类模型不同基于决策树模型的数据分类基于统计模型的数据分类基于神经网络模型的数据分类基于案例推理的数据分类基于实例的数据分类1决策树决策树就是经过一系列规那么对数据进展分类的过程。决策树分类算法通常分为两个步骤:构

8、造决策树和修剪决策树。of6510.3.4 关联规那么第三章 数据发掘算法3.4.3 分类技术构造决策树修剪决策树根据实践需求及所处置数据的特性,选择类别标识属性和决策树的决策属性集在决策属性集中选择最有分类标识才干的属性作为决策树的当前决策节点根据当前决策节点属性取值的不同,将训练样本数据集划分为假设干子集 子集中的一切元组都属于同一类。 该子集是已遍历了一切决策属性后得到的。 子集中的一切剩余决策属性取值完全一样,已不能根据这些决策属性进一步划分子集。针对上一步中得到的每一个子集,反复进展以上两个步骤,直到最后的子集符合约束的3个条件之一根据符合条件不同生成叶子节点对决策树进展修剪,除去不

9、用要的分枝,同时也能使决策树得到简化。常用的决策树修剪战略基于代价复杂度的修剪悲观修剪最小描画长度修剪按照修剪的先后顺序先剪枝Pre-pruning后剪枝Post-pruningof6511.3.4 关联规那么第三章 数据发掘算法3.4.3 分类技术2k-最近邻最临近分类基于类比学习,是一种基于实例的学习,它运用详细的训练实例进展预测,而不用维护源自数据的笼统或模型。它采用n 维数值属性描画训练样本,每个样本代表n 维空间的一个点,即一切的训练样本都存放在n 维空间中。假设给定一个未知样本,k-最近邻分类法搜索方式空间,计算该测试样本与训练集中其他样本的临近度,找出最接近未知样本的k 个训练样

10、本,这k 个训练样本就是未知样本的k 个“近邻。其中的“临近度普通采用欧几里得间隔定义:两个点 和 的Euclid间隔是 。最近邻分类是基于要求的或懒散的学习法,即它存放一切的训练样本,并且直到新的未标志的样本需求分类时才建立分类。其优点是可以生成任不测形的决策边境,能提供更加灵敏的模型表示。of6512.3.4 关联规那么第三章 数据发掘算法3.4.4 案例:保险客户风险分析1发掘目的由过去大量的阅历数据发现机动车辆事故率与驾驶者及所驾驶的车辆有着亲密的关系,影响驾驶人员平安驾驶的主要要素有年龄、性别、驾龄、职业、婚姻情况、车辆车型、车辆用途、车龄等。因此,客户风险分析的发掘目的就是上述各主

11、要要素与客户风险之间的关系,等等。2数据预处置数据预备与预处置是数据发掘中的首要步骤,高质量的数据是获得高质量决策的先决条件。在实施数据发掘之前,及时有效的数据预处置可以处理噪声问题和处置缺失的信息,将有助于提高数据发掘的精度和性能。去除数据集之中的噪声数据和无关数据,处置脱漏数据和清洗“脏数据等。数据清洗处置通常包括处置噪声数据、填补脱漏数据值/除去异常值、纠正数据不一致的问题,等等。在处置完噪声数据后,就可以对数据进展转化,主要的方法有: 聚集 忽略无关属性 延续型属性离散化等。数据清洗数据转化of6513.3.4 关联规那么第三章 数据发掘算法3.4.4 案例:保险客户风险分析3关联规那

12、么发掘影响驾驶人员平安驾驶的主要要素年龄性别驾龄职业婚姻情况车辆车型车辆用途车龄其他根据前述关联规那么的生成方法,得到发掘出来的客户风险关联规那么序号关联规则支持度置信度1驾龄(X,A)被保车辆的价值(X,A)年赔付金额(X,B)0.18250.29652投保人年龄(X,A)驾龄(X,A)年赔付次数(X,B)0.16790.25713驾龄(X,B)车辆用途(X,A)年赔付金额(X,B)0.16630.33374驾龄(X,B)车辆用途(X,B)年赔付次数(X,A)0.17890.48515驾龄(X,B)被保车辆的价值(X,C)年赔付金额(X,C)0.18090.30036驾龄(X,C)车辆用途(

13、X,B)年赔付次数(X,A)0.19940.58647驾龄(X,C)被保车辆的价值(X,C)车辆用途(X,C)年赔付次数(X,A)0.10310.66398驾龄(X,A)被保车辆的价值(X,A)车辆用途(X,B)年赔付金额(X,B)0.10250.36549投保人年龄(X,B)驾龄(X,A)被保车辆的价值(X,D)年赔付金额(X,D)0.09340.454610驾龄(X,B)被保车辆的价值(X,A)车辆用途(X,A)年赔付金额(X,B)0.09680.448711投保人年龄(X,C)被保车辆的价值(X,C)车辆用途(X,C)年赔付金额(X,B)0.09090.353112投保人年龄(X,C)驾

14、龄(X,B)被保车辆的价值(X,C)年赔付次数(X,A)0.08270.6094表3-7 客户风险关联规那么详细分析所得数据,可以为公司业务提供数据支撑,针对不同客户提供偏好效力,既能确保公司收益,又能给予用户更多的实惠。of6514.3.4关联规那么3.1数据发掘概述第三章数据发掘算法3.2分类3.3聚类3.4关联规那么习题3.6数据发掘算法综合运用3.5预测规模of6515.3.5 预测模型3.5.1 预测与预测模型第三章 数据发掘算法预测分析是一种统计或数据发掘处理方案,包含可在构造化与非构造化数据中运用以确定未来结果的算法和技术,可为预测、优化、预告和模拟等许多其他相关用途而运用。时间

15、序列预测是一种历史资料延伸预测,以时间序列所能反映的社会经济景象的开展过程和规律性,进展引申外推预测开展趋势的方法。从时间序列数据中提取并组建特征,仍用原有的数据发掘框架与算法进展数据发掘将时间序列数据作为一种特殊的发掘对象,找寻对应的数据发掘算法进展专门研讨根据研讨的方式分类类似性问题发掘时态方式发掘根据研讨的内容分类根据研讨的对象分类事件序列的数据发掘事务序列的数据发掘数值序列的数据发掘时间序列预测及数据发掘分类of6516.3.5 预测模型3.5.1 预测与预测模型第三章 数据发掘算法预测方案分类时间序列预测定性预测方法根据预测方法的性质因果关系预测时间序列的统计特征1均值函数2自协方差

16、函数3自相关函数of6517.3.5 预测模型3.5.1 预测与预测模型第三章 数据发掘算法1自回归模型2挪动平均模型3自回归挪动平均模型of6518时间序列模型预测方案分类.3.5 预测模型3.5.2 时间序列预测第三章 数据发掘算法时间序列:对按时间顺序陈列而成的观测值集合,进展数据的预测或预估。典型的算法:序贯方式发掘SPMGC算法序贯方式发掘算法SPMGCSequential Pattern Mining Based on General ConstrainsSPMGC算法可以有效地发现有价值的数据序列方式,提供应大数据专家们进展各类时间序列的类似性与预测研讨。项集间的时间限制Cgap

17、序列继续时间限制Cduration数据约束Cdata项的约束Citem序列长度的约束CLength其他约束时间序列领域约束规那么of6519.3.5 预测模型3.5.2 时间序列预测第三章 数据发掘算法SPMGC算法的根本处置流程扫描时间序列数据库,获取满足约束条件且长度为1的序列方式L1,以序列方式L1作为初始种子集根据长度为i-1的种子集Li-1,经过衔接与剪切运算生生长度为i 并且满足约束条件的候选序列方式Ci,基于此扫描序列数据库,并计算每个候选序列方式Ci 的支持数,从而产生长度为I 的序列方式Li,将Li作为新种子集在此反复上一步,直至没有新的候选序列方式或新的序列方式产生SPBG

18、C算法首先对约束条件按照优先级进展排序,然后根据约束条件产生候选序列。SPBGC算法阐明了怎样运用约束条件来发掘序贯方式,然而,由于运用领域的不同,详细的约束条件也不尽一样,同时产生频繁序列的过程也可采用其他序贯方式算法。of6520.3.5 预测模型3.5.3 案例:地震预警第三章 数据发掘算法1地震波形数据存储和计算平台南京云创大数据为山东省地震局研发了一套可以处置海量数据的高性能地震波形数据存储和计算平台,将从现有的光盘中导入地震波形数据并加以管理,以提供集中式的地震波形数据分析与地震预测功能,为开展各种地震波形数据运用提供海量数据存储管理和计算效力才干。图3-12山东省地震波测数据云平

19、台的显示界面of6521.3.5 预测模型3.5.3 案例:地震预警第三章 数据发掘算法2地震波形数据存储和计算平台的主要性能目的数据存储和处置目的系统呼应时间目的地震波形数据存储性能目的每年的原始地震波形数据及相关辅助信息约为15TB,为保证数据存储的可靠性,要求采用3倍副本方式保管数据,云平台每年需求提供约45TB的总存储量,同时系统必需能实时接纳和处置高达10MB/s的入库数据千兆网络环境下,局域网客户端从分布式文件存储系统中读取4096B存储内容的呼应时间不高于50毫秒采用HDFS格式进展数据读取,读取性能为4080MB/s节点,数据规模10PB,数据负载平衡时间可根据流量配置而确定,

20、集群重新启动时间按10PB规模计算到达分钟级别of6522.3.5 预测模型3.5.3 案例:地震预警第三章 数据发掘算法3地震波形数据存储和计算平台的功能设计21345数据解析数据入库数据存储管理云计算平台的数据运用接口数据异地修复功能设计of6523.3.5 预测模型3.5.3 案例:地震预警第三章 数据发掘算法4平台的组成、总体构架与功能模块图3-13 地震波形数据云平台总体构架与功能模块of6524.3.5 预测模型3.5.3 案例:地震预警第三章 数据发掘算法5地震中的时间序列预测地震预测的主要手段也就是对地震序列进展特征研讨。经过对地震序列的特征研讨,可以协助判别某大地震发生后地质

21、活动的规律,掌握一定区域内地震前后震级次序间的某种内在关联性,有利于判别次地震发生后,震区地质活动的客观趋势1地震数据搜集和预处置采用SPBGC算法,预处置的流程步骤详细如下:设定地震序列的空间跨度,并划分震级规范M根据地震目录数据库,将震级大于或等于震级规范M的地震信息存入大地震文件获取大地震文件中的每一条记录E,并获得震级M与震中所在位置G扫描地震目录数据,对每一地震记录E,均判别当前地震位置与震中G的间隔能否满足设定的空间跨度。假设满足空间跨度,那么将该记录标注为与震中等同的序列号,同时将震中为圆心的区域范围内地震的次数加l;否那么继续处置下一条地震记录大地震文件处置终了后,该阶段地震数

22、据搜集和预处置阶段终了of6525.3.4关联规那么3.1数据发掘概述第三章数据发掘算法3.2分类3.3聚类3.5预测规模习题3.4关联规那么3.6数据发掘算法综合运用of6526.3.6数据发掘算法综合运用3.6.1 案例分析:准确营销中的关联规那么运用数据发掘在各领域的运用非常广泛,只需该产业拥有具备分析价值与需求的数据仓储或数据库,都可以利用发掘工具进展有目的的发掘分析。普通较常见的运用案例多发生在零售业、制造业、财务金融保险、通讯业及医疗效力等。?如何经过交叉销售,得到更大的收入?如何在销售数据中开掘顾客的消费习性,并由买卖记录找出顾客偏好的产品组合?如何找出流失顾客的特征与推出新产品

23、的时机点?经过关联规那么发掘来发现和捕捉数据间隐藏的重要关联,从而为产品营销提供技术支撑。第三章 数据发掘算法of6527.3.6数据发掘算法综合运用3.6.2 发掘目的的提出第三章 数据发掘算法电子商务网站中的商品引荐为例客户忠实度影响要素其他要素:如社会文化、国家政策等客户本身缘由企业缘由数据发掘技术可以建立客户忠实度分析模型,了解哪些要素对客户的忠实度有较大的影响,从而采取相应措施。因此,基于数据发掘技术的客户忠实度分析具有重要的运用价值。of6528.3.6数据发掘算法综合运用3.6.3 分析方法与过程第三章 数据发掘算法图3-14 电子商务网站操作流程of6529.3.6数据发掘算法

24、综合运用3.6.3 分析方法与过程第三章 数据发掘算法在电子商务系统中,忠实度分析所需求的客户信息和买卖信息分别存放在网站数据库的客户表、订单表及订单明细表中。将客户的忠实度分为4个等级:0忠实;1由忠实变为不忠实;2由不忠实变为忠实;3不忠实。客户编号性别年龄(岁)教育程度距最近一次购买时间(天)月均购买频率已消费金额忠诚度级别20120001男40大专53.4801.6020120002女28本科111.9246.31表3-9 经抽取而成的客户信息表所得到的用户数据很难做到完好全面,用户在注册时能够选择不填注册信息的几项,呵斥数据项空缺。对于空缺的数据项,要视情况排除或填入默许值。按照普通的统方案分阅历来对属性值进展分段,实现离散化。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论