版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章数据挖掘、数据仓库与CRM数据挖掘与数据仓库CRM中的数据挖掘与数据仓库数据挖掘、数据仓库的行业应用实例演示1.4.1数据挖掘与数据仓库2.数据挖掘、数据仓库的产生背景数据爆炸但知识匮乏3.数据:一般的业务操作,通常都会产生大量的数据,如订单、库存、交易帐目、通话记录、及客户资料等。信息:如何利用企业的历史数据增进对业务情况的了解,帮助我们在业务管理及发展上作出及时、正确的判断,需要从数据成为信息4.数据库技术应用发展迅速积累了大量的数据提高效率的同时,也带来了一些问题:数据过量、难以消化;真假难辨;数据形式不一、难以统一处理;……5.如何抛弃不必要的数据,从大量数据中及时提取有用的知识?数据挖掘从大量的数据中挖掘出有用的知识6.1.Walmartand2.NASDAQ3.NBAAdvancedScout7.数据仓库的定义数据仓库-DataWarehouse数据仓库是支持管理决策过程的,面向主题的,集成的,随时间而变的,持久的数据集合。(W.H.Inmon)数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称8.传统数据库分析方法数据库系统:由数据库、数据库管理系统、应用开发工具、应用系统、数据库用户组成OLTP(On-LineTransactionProcessing)联机事务处理系统基本任务-及时、安全的将当前事务所产生的记录保存下来。外部接口:实现标准的SQL语言内部:实现事务管理,支持事务的并发和恢复9.数据仓库的基本特征数据仓库的数据是面向主题的;数据仓库的数据是集成的;数据仓库的数据是不可更新(稳定)的;数据仓库的数据是随时间不断变化的。10.数据仓库的体系结构DatabaseDatabaseDatabase外部数据数据仓库服务器抽取,清洗转换,载入服务查询,报表管理数据挖掘数据源数据仓库数据集市元数据OLAP服务前端工具数据集市数据准备OLAP服务器11.数据仓库体系结构数据抽取工具:把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。数据仓库数据库:是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。12.元数据(Metadata
):描述了数据的结构、内容、编码、索引等。传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更加丰富和复杂。可将其按用途的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据粒度;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;13.数据集市(DataMarts):为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。数据仓库服务器:相当于数据库系统中的DBMS,负责管理数据仓库中数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口(如SQL查询接口)OLAP服务器:透明地为前台工具和用户提供多维数据视图。OLAP服务器则必须考虑物理上这些分析数据的存储问题14.OLAP(联机分析处理技术)OLAP(On-LineAnalyticalProcessing)即联机分析处理,是以海量数据为基础的复杂分析技术一、多维数据模型数据分析时用户的数据视图,是面向分析的数据模型,用于给分析人员提供多种观察的视角和面向分析的操作可用这样来一个多维数组来表示:(维1,维2,…,维n,度量值)15.联机分析处理技术(续)一、多维数据模型(续)
例如:(地区,时间,电器商品种类,销售额)
三维数组可以用一个立方体来直观地表示一般地多维数组用多维立方体CUBE(超立方体)来表示16.联机分析处理技术(续)二、多维分析操作
常用的OLAP多维分析操作切片(slice):在两维空间上的分布切块(dice):在多维空间上的分布旋转(pivot):变换维的方向,即在表格中重新安排维的放置(例如行列互换)钻取:钻取是改变维的层次,变换分析的粒度。向上钻取(roll-up):在某一维上将低层次的细节数据概括到高层次的汇总数据向下钻取(drill-down):从汇总数据深入到细节数据进行观察17.联机分析处理技术(续)三、OLAP的实现方式按照多维数据模型的不同实现方式MOLAP(MultidimensionalOLAP)-多维ROLAP(RelationalOLAP)-关系HOLAP(HybridOLAP)-混合18.MOLAPMOLAP结构以多维立方体CUBE来组织数据,以多维数组来存储数据,支持直接对多维数据的各种操作。多维数据库(Multi-DimensionDataBase,简记为MDDB)。19.ROLAPROLAP结构用RDBMS或扩展的RDBMS来管理多维数据,用关系的表来组织和存储多维数据两类表:一类是事实(fact)表,另一类是维表事实表用来描述和存储多维立方体的度量值及各个维的码值;维表用来描述维信息。ROLAP用“星形模式”和“雪片模式”来表示多维数据模型20.ROLAP(续)星形模式(StarSchema)通常由一个中心表(事实表)和一组维表组成
星形模式的中心是销售事实表维表有时间维表、顾客维表、销售员维表、制造商维表和产品维表
21.ROLAP(续)雪片模式就是对维表按层次进一步细化后形成的22.HOLAP(续)HOLAP基于混合数据组织的OLAP实现(HybridOLAP),具有更好的灵活性。低层是关系型的高层是多维矩阵型的23.前台工具:包括查询报表工具、多维分析工具、数据挖掘工具和分析结果可视化工具等
数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。24.数据仓库的实施步骤DW项目计划业务需求分析数据线实施数据仓库设计数据预处理:ETL数据维护技术线技术选择产品选择应用线系统运行维护25.演示:AnalysisManagerMicrosoftSQLServer的多维数据模型:以FoodMartCorporation为例,建立三个多维数据集,即Marketing(市场营销)、HR(人力资源)和ExpenseBudget(开支预算)设置系统数据源名称(DSN)建立数据库和数据源建立事实数据表和维度表设计多维数据的存储模式:多维OLAP(MOLAP)、关系OLAP(ROLAP)或混合OLAP(HOLAP)26.数据挖掘的定义数据挖掘-DataMining技术角度的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的海量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。27.为什么要数据挖掘?—潜在的应用数据分析和决策支持市场分析和管理目标市场定位,客户关系管理(CRM),购物篮分析,交叉销售风险分析和管理预测,客户保持,质量控制,竞争分析欺诈检测和不寻常模式的检测(离群点)其他的应用文本挖掘(新闻组,email,文档)和Web挖掘流数据挖掘生物信息学和生物数据分析28.Ex.1:市场分析和管理数据从哪来?—信用卡交易事务,会员卡,优惠券,客户投诉电话,公众生活方式研究目标市场寻找“榜样”客户的聚类,他们共享相同的特征:兴趣,收入水平,消费习惯等确定客户在一段时间的购买模式交叉市场分析—寻找产品销售之间的关联/相关性,以及基于这些关联进行预测客户轮廓(profile)—什么类型的客户买什么产品(聚类或分类)客户需求分析为不同的用户识别最好的产品预测什么因素将吸引新的客户摘要信息提供多维摘要信息报告统计学总结信息(数据中心的趋势和变化)29.Ex.2:公司分析和风险管理财经计划和资产评估现金流分析和预测资源计划总结比较资源和开销竞争监控竞争对手和市场方向细分客户类别,制定基于类别的定价过程在激烈竞争市场中建立价格策略30.Ex.3:欺诈检测和挖掘异常模式方法:为欺诈和离群点分析进行聚类和模型构建应用:医疗保健,零售业,信用卡服务,电信业.汽车保险:检测出那些故意制造车祸而索取保险的人洗钱:可疑的资金流向医疗保险检测出职业病人不必要、不相关的医学检验电信业:电话欺诈电话模式:呼叫目的地,持续时间,每天或每周的次数。分析与预期标准相背离的模式零售业分析师评估认为38%的零售业萎缩是因为不诚实的雇员反恐怖主义31.知识发现(KDD)过程数据挖掘—知识发现过程的核心数据清理数据集成数据库数据仓库知识任务相关的数据选择数据挖掘模式评估32.数据挖掘:多种技术的融合
数据挖掘数据库技术统计学机器学习模式识别算法其他技术可视化33.为什么不是传统的数据分析?庞大的数据算法必须能够高度可伸缩以便处理TB数量级的数据高维度的数据如Microarray(微阵列)可能有成千上万个维度数据的高复杂性数据流和传感器数据时间序列数据,时间数据,序列数据结构数据,图,社会网络和多链接数据异构数据库和遗产数据库空间,时空,多媒体,文本和Web数据软件程序,科学仿真新的和复杂的应用34.数据挖掘VS传统分析方法有何区别?数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。35.数据挖掘系统结构数据仓库数据清理数据集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库36.数据挖掘过程数据挖掘过程包括:数据准备(选择、预处理、转换)确定主题读入数据、建立模型、理解模型解释与评价知识应用分析问题整合数据建立模型理解规则预测未来37.数据挖掘技术分类数据挖掘描述预测可视化聚类关联规则汇总描述分类统计回归时间序列决策树神经网络38.数据挖掘的模型(1)分类(Classification)与决策树(Decisiontrees)分类分析是为了找出描述和区分数据类或概念的模型,常常通过决策树、神经网络等模型进行表示。决策树:根节点、节点、分支、叶子。39.在贷款申请中,要对申请人的风险大小做出判断40.数据挖掘的模型(2)聚类(Cluster)聚类是把一组个体按照相似性归成若干类别的过程。原则:最大化类内部的相似性、最小化类之间的相似性聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。41.42.关联(Association)关联规则是形式如下的一种规则,“在购买面包的顾客中,有90%的人同时也买了牛奶”:(面包)→(牛奶),计为X—>Y。评估关联规则的四个重要指标是:(1)支持度(support):交易集中包含X和Y的交易数与所有交易数之比,记为support(X→Y)(2)可信度(confidence):包含X和Y的交易数与包含X的交易数之比,记为confidence(X→Y)(3)期望可信度(expectedconfidence):描述了在没有物品集X的作用下,物品集Y本身的支持度,记为E-confidence(Y)(4)作用度(lift):作用度是可信度对期望可信度的比值。描述了物品集X对物品集Y的影响力的大小。记为Lift(X→Y)。一股情况,有用的关联规则的作用度都应该大于l,才说明X的出现对Y的出现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大干l,此关联规则也就没有意义了。数据挖掘的模型(3)43.设supmin=50%,confmin=50%关联规则:A
D(60%,100%)D
A(60%,75%)CustomerbuysdiaperCustomerbuysbothCustomerbuysbeerTransaction-idItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F44.数据挖掘的模型(4)序列模式(SequentialPattern)分析数据之间的前后(因果)关系,类似于关联分析用于发现客户潜在的购物模式先购买PC,再购买数码相机,接着还要买存储卡5天之内,X股票最多上涨10%,Y股票涨幅在10%-20%之间,Z股票在下星期上涨的概率为68%。指标最小支持度最小可信度45.4.2CRM中的数据挖掘与数据仓库46.CRM与数据挖掘、数据仓库的关系数据的整合、集中CRM的业务整合数据分析与知识发现47.在CRM中的应用范围客户盈利能力;客户保留;客户细分;客户倾向;渠道优化;风险管理;欺诈监测;购物倾向分析;需求预测;价格优化。48.案例:基于DW、DM的客户营销管理流失预警模型交叉销售模型客户行为细分模型更多模型营销信息预警营销方案策划绩效管理主动营销客户行为数据业务系统数据仓库数据挖掘模型行为数据行为数据客户挽留营销信息层分析企划层管理实施层49.客户行为细分0200500低端中端高端ARPU值相似的客户需求特点却差别很大客户细分之谜根据ARPU值进行客户细分的方法基于数据挖掘技术的以需求为基准的细分客户行为-价值细分模型海量客户行为数据/特征数据组内行为特点相似组间行为差异较大的客户分组50.客户行为细分(续)客户行为细分模型客户流失倾向预警模型价格敏感度模型客户信用评分模型交叉销售模型营销效果预测模型客户价值评估模型51.客户行为细分模型通过上百个变量描述客户性别年龄建档时间证件号码缴款方式信息费应收金额优惠金额滞纳金应收SMS次数国际呼叫呼入/呼出比例短消息话单类型信息长度赠送费用呼转类型漫游话费通话时长赠送分钟数费用类型动态漫游号IMSI号码月均基本通话月均国内长途工作日呼叫次数工作日呼叫时间WAP呼叫时间繁忙时段呼叫次数非繁忙时段呼叫次数SMS次数WAP次数IP呼叫次数语音呼叫次数非语音呼叫次数月均国际长途非IP呼叫时间52.数据挖掘自动生成影响客户分组的主要因子性别年龄缴款方式SMS次数国际呼叫其它…优惠金额短消息话单类型赠送费用费用类型漫游次数应收金额IDD次数月均国内长途月均基本通话非语音呼叫次数SMS次数WAP次数月均国际长途语音呼叫次数费用类型因子分析53.聚类分析-根据自身所具有的特征自动聚为一些行为特点相似的群体低高高高12845376因素二(国内呼叫次数)因素三(IP呼叫次数)因素一(繁忙时段呼叫次数)示例54.16个组中呈现出差别明显的优势、弱势特征组号优势特征弱势特征描述性名称#1语音每次呼叫时间、香港(澳门)呼叫、非繁忙时段呼叫繁忙时呼叫、IP呼叫、短信、转移业余活跃组#2繁忙时段月均呼叫次数、漫游地区呼叫、香港呼叫次数转移呼叫、短信、转移业务繁忙组#4IP呼叫、转移呼叫贵中求惠组#6IP呼叫短信、转移IP手机组#9IP呼叫、短信非繁忙时段呼叫新生潜力组#12非繁忙时段呼叫漫游地区呼叫、转移、短信夜间积极组#14繁忙时段月均呼叫次数漫游呼叫、非繁忙呼叫、转移本地繁忙组#16繁忙时段月均呼叫次数、转移呼叫、香港(澳门)呼叫IP呼叫繁忙大客户组#8短信转移呼叫、IP短信专家组#11转移呼叫繁忙时段月均呼叫次数、短信热衷转移组#15漫游地区呼叫短信、繁忙呼叫次数频繁出差组#3语音每次呼叫时间繁忙时段次数、短信情深语长组#5繁忙时段次数、每次呼叫时间、短信消极等待组#7呼入/呼出比短信等待接听组#10繁忙时段次数、呼入/呼出比、每次呼叫时间休眠组#13繁忙时段月均呼叫次数寂寞无声组55.各类客户人数及收入贡献一览人数百分比收入贡献百分比59.61%56.41%15.08%28.51%14.89%25.91%客户群优质普通弱势组别#1、#2、#4、#6、#9、#12、#14、#16#8、#11、#15#3、#5、#7、#10、#13人数103,66454,816205,071收入贡献RMB29,659,162.05RMB7,204,282.92RMB12,897,830.1优质普通弱势56.示例:全球通(后付费)客户的17个客户分组客户群组号人数(万人)人数百分比组内月人均话费组名优质组#91.51.5%970国际呼叫组#41.71.8%865业务繁忙组#21.51.6%758呼叫香港组#141.01.0%729国内长途组#151.41.4%640呼叫台湾组#1611.611.8%420本地繁忙组#111.21.2%407转移移动组普通组#102.82.9%351热衷IP组#124.64.7%347商务潜力组#132.12.1%331全面发展组#51.91.9%321呼转电信组#72.02.0%286短信热衷组#171.61.6%241转移联通组弱势组#86.76.9%221IP长聊组#64.34.3%205短信潜力组#114.114.4%171情深语长组#338.439%100节约通话组57.对细分客户组进行特征描述本组特征描述本组客户共15441人,占客户总数的1.6%,组内每月人均话费759元。与其他客户相比,本组客户的显著特征体现在呼叫香港的通话行为较多(因素7)。香港月均每次呼叫时间达1.8分钟,月均呼叫次数8.7次,而全体客户平均香港月均每次呼叫时间1.6分钟,月均呼叫次数只有0.2次。由此,本组客户的香港月均呼叫费用(53.7元)比全体客户平均呼叫费用(1.3元)高出40多倍,香港呼叫需求相当大。第二组:呼叫香港组优质组人数:15,441月人均话费:759元与全体客户话费均值之比:3.0人数百分比:1.6%女性比例:38.2%平均在网时间:43.258.业务推广与客户服务建议本组市场建议业务推广建议彩信业务——统计分析发现本组客户彩信使用人数比例明显大于其他16个客户分组GPRS业务——估计本组客户中有相当部分人群是商务人士客户服务建议免费赠送香港天气预报与航空公司里程积点互换空港VIP休息室59.2、产品交叉销售交叉销售升级销售市场拓展市场渗透新产品老产品老客户新客户向老客户销售其尚未使用的产品向老客户促销其正在使用的产品以促使更多消费将老产品销售给新的客户将新产品销售给新客户交叉销售研究要点交叉销售通过研究客户的产品使用情况、消费行为特点,发现老客户的潜在需求交叉销售通过产品之间的关联,寻找实现产品捆绑销售的机会交叉销售为新产品寻找已有用户中的目标群体60.相关性弱根据产品业务关联性评分表,形成某一产品与其他产品关联关系图,以形象说明本产品与其他产品之间的关联关系(正相关或是负相关)及其关联性强弱。正向关联负向关联客户取消产品时作为替补品考虑产
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙江金华市第五医院(浙江医院金华分院)编外人员招聘4人备考题库(第二批)及答案详解(网校专用)
- 2026陕西汉中市精神病医院招聘5人备考题库及答案详解一套
- 2026四川省国有资产投资管理有限责任公司春季招聘4人备考题库附答案详解ab卷
- 2026福建省晋江市工业园区开发建设有限公司常态化招聘项目制人员2人备考题库带答案详解(黄金题型)
- 2026山东枣庄市滕州市招聘教师87人备考题库带答案详解(完整版)
- 2026湖南益阳市市直医疗卫生单位招聘及引进紧缺(急需)专业人才39人备考题库带答案详解(培优a卷)
- 2026海南海口市秀英区疾病预防控制中心招聘事业编制人员9人备考题库及参考答案详解1套
- 2026湖北恩施州宣恩县园投人力资源服务有限公司招聘外包服务人员10人备考题库及答案详解(夺冠系列)
- 2025吉林省吉林大学材料科学与工程学院郎兴友教授团队博士后招聘1人备考题库及答案详解【考点梳理】
- 2026黑龙江哈尔滨工业大学机电工程学院机械设计系招聘备考题库及参考答案详解(巩固)
- 关于高考评价体系
- 建筑地基处理技术规范DBJ-T 15-38-2019
- 《燃煤火力发电企业设备检修导则》
- 油田地面工程简介
- 驾照体检表完整版本
- 商铺出租可行性方案
- 2023年非车险核保考试真题模拟汇编(共396题)
- 中国主要地质灾害
- 2022-2023年明纬开关电源手册
- 数据密集型科学研究范式课件
- JJF 2020-2022 加油站油气回收系统检测技术规范
评论
0/150
提交评论