数据挖掘概述PPT课件_第1页
数据挖掘概述PPT课件_第2页
数据挖掘概述PPT课件_第3页
数据挖掘概述PPT课件_第4页
数据挖掘概述PPT课件_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,数据挖掘概述,李荣Rongli2009.9,.,2,成绩,考勤作业期末考试,.,3,第一章引言,什么是数据挖掘?什么激发了数据挖掘在何种数据上进行数据挖掘数据挖掘系统的分类主要挖掘功能数据挖掘应用,.,4,数据挖掘,datamining,DM,即数据库中知识发现,就是从大量历史数据中发现潜在的、有价值的知识,为商业决策提供重要的信息以数据挖掘算法为核心技术,与商业应用模式紧密结合,可形成针对各行业具体实施的数据挖掘模型广泛应用于金融、保险、电信、证券、零售、生物、商业规划、矿业等大型数据处理行业,数据挖掘概念-原由,有价值的知识,可怕的数据,.,6,数据爆炸,知识贫乏,苦恼:淹没在数据中;不能制定合适的决策!,数据,知识,决策,.,7,.,8,.,9,在何种数据上进行数据挖掘,.,10,数据挖掘分类,技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异常检测,.,11,主要挖掘功能,概念、类描述:特征化和区分关联分析:寻找数据库中值的相关性关联规则:大量项目集中有趣的关联或相关关系序列模式:数据之间在时间序列上的相关性分类和预测:为一个事件或对象归类聚类:按相似性将对象分割成几个类异常检测:发现其他的记录不相符合的记录可视化:直观显示结果,.,12,关联规则:AB,A称为前提和左部,B称为后续或右部购物篮分析:买牛奶的顾客大多会同时买面包置信度:某一特定关联(“锤子和钉子”)在数据库中出现的频率=包含A和B的元组数/包含A的元组数买牛奶的顾客中有多少买了面包支持度=包含A和B的元组数/元组总数规则中项及其组合出现的相对频率如同时买了牛奶面包的顾客数/顾客总数,.,13,序列模式:,事件之间时间上的相关性,如对股票涨跌的分析,即路径分析A-B-C-D可用变量过去的值来预测未来的值,.,14,分类,为一个事件或对象归类。在使用上,既可以用此模型分析已有的数据,也可以用它来预测未来的数据。如用分类来预测哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,哪些客户的利润比较高最常用的是决策树算法,决策树DecisionTrees,倾向性分析,.,16,聚集(聚类),把整个数据库分成不同的群组(cluster,簇)群与群之间差别很明显同一个群之间的数据尽量相似聚集之后要有一个对业务很熟悉的人来解释分群的意义常用技术神经元网络K均值最近邻,.,17,异常检测,发现其他的记录不相符合的记录及时发现有欺诈嫌疑的异常行为,正确进行欺诈问题的评估,对欺诈者实施控制和强制措施。技术:决策树,神经元网络,异常因子LOF检测基于统计的方法设定一些参数假定的分布模式,分布的参数,期望得到的outlier的的个数基于距离的方法一个记录的距离大于d的邻居的个数大于一个设定值p基于背离度的方法与主要特征背离很大的记录,.,18,数据挖掘结果特点,将定性的特征定量化可与各种大型数据库系统传递数据可产生各种报表独特的可视化技术使结果清晰、直观,.,19,.,20,应用比例,Clustering22%DirectMarketing14%Cross-SellModels12%2001/6/11News,.,21,银行/信用评分:金融服务产品的交叉销售;个人或企业的信用评级;.电子商务:web行为模式分析;个性化设计;.客户关系管理(CRM):客户利润率分析;客户细分;客户流失分析;客户响应率分析;.生物/制药:基因序列分析;药理分析;.,.,22,电信:客户流失;欺诈甄别;.证券:分析并预测股票价格的走势及相关性;.保险:用索赔数据来分离可能的舞弊指示项;.零售:识别最有可能对新产品或服务作出反映的一组客户;识别交叉销售的新机会;.矿业:可能矿区发现;探测点位置设置;矿物成分分析;.,.,23,层次结构:数据挖掘+商业逻辑+行业应用,关联规则、序列模式、分类、聚集、神经元网络、偏差分析,数据挖掘算法层,产品推荐、客户细分、客户流失、欺诈甄别、特征分析,商业逻辑层,基因(DNA)分析、银行、保险、电信、证券、零售业,行业应用层,数据挖掘应用平台,.,24,主要商业模型,交叉销售分析(Cross-Selling)客户响应率分析(Responsing)客户细分(CustomerSegmentation)客户流失分析(CustomerChurn)客户利润率分析(CustomerProfitability),.,25,交叉销售分析(Cross-Selling):利用产品的历史销售记录,发现产品之间在销售上的相关性,以此得出用户可能感兴趣的其他产品,推荐给客户。可解决问题:对某种特定的产品哪些客户可能会感兴趣?各种产品销售的相关性分析,.,26,客户响应率分析(Responsing):根据企业前期市场活动情况,得到“响应客户”的特征,预测其他客户的响应率。可解决问题:哪些客户最有可能购买我们的产品,有什么特征?哪些客户几乎不会买我们的产品,有什么特征?,.,27,客户细分(CustomerSegmentation)客户细分是根据客户不同的行为特征,将客户分成不同的群体,供决策者区别对待,采取不同的市场营销手段。可解决问题:所有客户根据不同的行为特征(比如:年龄,地区,工资等)分为哪几个群体?各群体的特征是什么?,.,28,客户流失分析(CustomerChurn):抽取流失客户的行为特征,得到流失预言模型,对新的客户流失现象进行预警,提示企业采取响应的行动尽力留住即将流失的客户。可解决问题:流失客户的特征是什么?目前哪些客户有可能流失?流失的可能性有多大?,.,29,客户利润率分析(Customerprofitability):预测客户在整个生命周期内的利润,判断客户对企业的价值。可解决问题:在生命周期内,每个客户的利润是多少?根据客户的可获利润率将客户分割成不同的群体。,.,30,数据挖掘技术简介数据挖掘行业应用数据挖掘在企业建设的应用,.,31,数据挖掘在企业建设的应用企业信息化建设,信息化基础建设MIS和OA建设ERP与CIMS电子商务E_Business企业智能化,.,32,信息化基础建设:主要是企业内部的网络建设,MIS和OA建设:以大型数据库开发为基础,以企业业务需求为出发点,构建企业的信息化平台;提高企业管理的现代化水平,管理素质和工作效率。ERP与CIMS:以业务需求、生产系统为基础,以财务管理为中心,集成企业的生产、物料、销售、财务及技术信息为一整体,任何企业活动即刻反映出资金的流动,以利于信息的有效利用和决策的科学化,提高企业的竞争力。E_Business:面对进入WTO的形势,利用Internet重新构架自己,通过电子商务带动企业信息化。企业智能化:以定量的分析提供决策支持,.,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论