版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘概述 2022/8/81Data Mining: Concepts and Techniques主要内容1 背景2 数据挖掘定义3 主要功能4 数据挖掘模型5 实现流程6 数据挖掘的应用7 主要工具2022/8/82Data Mining: Concepts and Techniques1 背景现实情况:人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。现在人们已经评估出世界上信息的数量每二十个月翻一番,并且数据库的数量与大小正在以更快的速度增长。2022/8/83Data Mining: Concepts and Tech
2、niques1 背景 著名的“啤酒尿布”案例:美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。这样,上述几种商品的销量大增。2022/8/84Data Mining: Concepts and Techniques2 数据挖掘定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘相近的包括:数据融合、数据分析和决策
3、支持等。发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。2022/8/85Data Mining: Concepts and Techniques数据挖掘的演化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、I
4、BM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息2022/8/86Data Mining: Concepts and Techniques数据挖掘与其他科
5、学的关系 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学 。2022/8/87Data Mining: Concepts and Techniques数据挖掘与传统数据分析方法 统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。 联系: 区别: 传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息
6、或知识,挖掘出的信息越是出乎意料,就可能越有价值。2022/8/88Data Mining: Concepts and Techniques3 主要功能1. 概念/类别描述(Concept/Class Description) 概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。 例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:3550岁,有工作,月收入5000元以上,拥有良好的信用度; 2022/8/89Data Mining: Concepts and Techniques3 主要功能2 关联分析
7、(Association Analysis)关联规则挖掘就是发现大量数据中项集之间有趣的关联关联规则挖掘的典型案例:购物篮问题 在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯。哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 一般用户的购买过程中是否存在一定的购买时间序列?2022/8/810Data Mining: Concepts and Techniques3 主要功能基本表示形式: 前提条件结论支持度, 置信度 buys(x, “diapers”) buys(
8、x, “beers”) 0.5%, 66% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75% 具体应用:利润最大化 商品货架设计:更加适合客户的购物路径 货存安排:实现超市的零库存管理 用户分类:提供个性化的服务 3 关联分析(Association Analysis)关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。2022/8/811Data Mining: Concepts and Techniques1.3 主要功能4 分类与预测(Classification and Prediction)研究已
9、分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。预测是根据对象属性、过去的观察值和有关资料对该属性的未来值进行预测,预测使用的技巧主要是回归分析、神经网络方法等。2022/8/812Data Mining: Concepts and Techniques1.3 主要功能常用方法决策树(decision tree)贝叶斯分类(bayes classification)人工神经网络(ANN)K最近邻分类法(k-nearest neighbor classifier)基于事例的推理(case-based re
10、asoning)遗传算法(genetic algorithm)粗糙集方法(rough set approach)模糊集方法(fuzzy set approach)回归分析(regression analysis)2022/8/813Data Mining: Concepts and Techniques1.3 主要功能5. 聚类分析(Clustering Analysis)把数据对象的集合分组到不同的聚类中聚类原则同一类内的数据尽可能相似不同类数据尽可能不相似聚类实际上是一个无导师分类:没有预先给定类别信息2022/8/814Data Mining: Concepts and Techniqu
11、es1.3 主要功能常用方法基于划分的聚类分析方法基于层次的聚类分析方法基于密度的聚类分析方法基于网格的聚类分析方法基于模型的聚类分析方法2022/8/815Data Mining: Concepts and Techniques1.3 主要功能6. 时间序列分析(Time-Series Analysis) 时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。 如对主要股票的交易数据进行建模分析。方法:趋势和偏差: 回归分析序列模式匹配:周期性分
12、析基于类似性的分析2022/8/816Data Mining: Concepts and Techniques1.3 主要功能7 特异点分析(Outlier Analysis)与数据的一般行为或模式不一致。多数为噪声或异常数据,常被剔除。在某些应用中,孤立点数据更有趣,如:银行诈骗,洗黑钱、恐怖行为。有专门进行孤立点研究的方法与技术。统计方法是占主流,考察数据的分布,用距离来度量。2022/8/817Data Mining: Concepts and Techniques1.4数据挖掘模型 为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(Cr
13、oss Industry Standard Process for Data Mining)模型,目的是把数据挖掘的过程标准化, 使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。 CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。2022/8/818Data Mining: Concepts and TechniquesCRISP-DM(Cross Industry Standard Process for Data Mining)模型2022/8/819Data Mining: Concepts and Techniques1.4数据挖掘模型 CRISP-D
14、M模型中,数据挖掘包括六个步骤: 1.业务理解(Business Understanding)阶段 具体地,包括: 确定业务目标 项目可行性分析确定数据挖掘目标 提出初步的项目计划2022/8/820Data Mining: Concepts and Techniques1.4数据挖掘模型确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;提出项目计划:对整个项目做一
15、个计划,初步估计用到的工具和技术。 2022/8/821Data Mining: Concepts and Techniques1.4数据挖掘模型 2数据理解(Data Understanding)阶段 具体地,包括:收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;探索数据:对数据做简单的统计分析,例如关键属性的分布等;检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。 2022/8/822Data Mining: Concepts and
16、 Techniques1.4数据挖掘模型3数据准备(Data Preparation)阶段 具体地,包括:数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等;数据创建:在原有数据的基础上是生成新的属性或记录;2022/8/823Data Mining: Concepts and Techniques1.4数据挖掘模型数据合并:利用表连接等方式将几个数据集合并在一起;数据格式化:把数据转换成适合数据挖掘处理的格式。2022/8/824Data Mining: Concepts and Techniqu
17、es1.4数据挖掘模型4建立模型(Modeling)阶段 具体地,包括:选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;测试方案设计:设计某种测试模型的质量和有效性的机制;模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。 2022/8/825Data Mining: Concepts and Techniques1.4数据挖掘模型5模型评估(Evaluation)阶段 具体地,包括:结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;过程回顾:回顾项目的所有流程,确定每
18、一个阶段都没有失误;确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。 2022/8/826Data Mining: Concepts and Techniques1.4数据挖掘模型6部署(Deployment)阶段 具体地,包括:部署计划:对在业务运作中部署模型作出计划;监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;作出最终报告:项目总结,项目经验和项目结果;项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。 2022/8/827Data Mining: Concepts and Techniqu
19、es1.4数据挖掘模型 为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告: 业务理解报告 原始数据收集报告 数据描述报告 数据探索报告 数据质量报告 数据集描述报告 模型训练报告 模型评估报告 部署计划 监控和维护计划 总结报告 通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。 2022/8/828Data Mining: Concepts and Techniques1.5 实现流程 各步骤之间互相影响、反复调整,形成一种螺旋式上升过程。2022/8/829Data Mining: Concepts and Techniques1.5 实现流程
20、数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘,需要做一些准备工作,也就数据的预处理。数据预处理包括数据的选择(选择相关数据)、净化(消除噪音、冗余数据)、推测(推算缺值数据)、转换(离散型数据与连续型数据之间的转换)、数据缩减(减少数据量)等。 数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度以及最终模式的有效性。 2022/8/830Data Mining: Concepts and Techniques1.5 实现流程数据挖掘 数据挖掘是最为关键的步骤,
21、它根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。 2022/8/831Data Mining: Concepts and Techniques1.5 实现流程模式的评估、解释 通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。 2022/8/832Data Mining: Concepts and Techniques1.5 实现流程知
22、识运用 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。 KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。2022/8/833Data Mining: Concepts and Techniques1.5 实现流程 数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类:1)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于
23、数据定义和挖掘算法的业务需求。2)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。3)数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。2022/8/834Data Mining: Concepts and Techniques1.5 实现流程Increasing potentialto supportbusiness decisionsEnd UserBusiness Analyst DataAnalystDBADecision MakingData PresentationVisualizatio
24、n TechniquesData MiningInformation DiscoveryData ExplorationStatistical Summary, Querying, and ReportingData Preprocessing/Integration, Data WarehousesData SourcesPaper, Files, Web documents, Scientific experiments, Database Systems2022/8/835Data Mining: Concepts and Techniques1.5 实现流程 从上可见,数据挖掘是一个多
25、领域技术人员合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。 2022/8/836Data Mining: Concepts and Techniques1.6 数据挖掘的应用金融领域营销领域电子政务电信领域工业生产生物和医学2022/8/837Data Mining: Concepts and Techniques1.6 数据挖掘的应用Debt$40KQQQQII123456factor 1factor 2factor n神经网络 Neural Networks聚类分析 ClusteringOpenAccnt
26、Add NewProductDecreaseUsage?Time序列分析 Sequence Analysis决策树 Decision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析 Association 市场组合分析 套装产品分析 目录设计 交叉销售2022/8/838Data Mining: Concepts and Techniques1.6 数据挖掘的应用-金融信用卡分析业务模型客户信用等级评估客户透支分析客户利润分析客户消费行为分析 客户消费异常行为分析2022/8/839Data Mi
27、ning: Concepts and Techniques1.6 数据挖掘的应用-金融数据挖掘在反洗钱系统中的应用2022/8/840Data Mining: Concepts and Techniques1.6 数据挖掘的应用-营销关联分析-市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应
28、,还可用于顾客定级、破产预测等。 2022/8/841Data Mining: Concepts and Techniques1.6 数据挖掘的应用-营销数据挖掘在营销中的应用流程2022/8/842Data Mining: Concepts and Techniques1.6 数据挖掘的应用-营销应用实例1:美国运通公司(American Express)有一个用于记录信用卡业务的数据库,通过对这些数据进行挖掘,制定了“关联结算(Relationship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,既增加了商店的销售量,也可以增加运通卡在该商店的使用率。2022/8/843Data Mining: Concepts and Techniques1.6 数据挖掘的应用-营销应用实例2:美国的读者文摘(Reader s Digest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,并保证数据不断得到实时的更新,基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB/T 106-2025地震台网运行规范地电观测
- 护理多媒体课件制作的交互设计
- 汞中毒患者的眼部并发症护理
- 环境职业健康与安全管理方案1
- 2026年保险公司运营成本优化与合理利润水平控制规范
- 2025年前台服务规范模拟试卷
- 2026年流域上下游横向生态补偿机制建立方案
- 2026年公共数据授权运营三种模式:整体授权 分领域授权 依场景授权适用指南
- 老年病人皮肤黏膜护理常规
- 2026年腾讯WorkBuddy打通企业微信QQ飞书钉钉自动化办公
- 密码学课件 分组密码的使用
- 统编版语文三年级上册第三单元快乐读书吧:伊索寓言 导读课 课件
- 美丽的夏牧场同声合唱谱
- 山西职业技术学院单招《语文》考试复习题库(含答案)
- 特种水处理工艺运行与管理-含铁含锰水给水处理
- 四年级数学智算365(课后拓展题)
- 广西平果县太平矿区那烈矿段铝土矿矿山地质环境保护与土地复垦方案
- 步进电机及其工作原理
- 护理查房慢性肾脏病5期护理查房
- 公差分析高级
- 热风循环烘箱验证方案及报告
评论
0/150
提交评论