客户关系管理4[002]_第1页
客户关系管理4[002]_第2页
客户关系管理4[002]_第3页
客户关系管理4[002]_第4页
客户关系管理4[002]_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.第1、4章数据挖掘、数据仓库和CRM、数据挖掘和数据仓库CRM的数据挖掘和数据仓库数据挖掘,以及数据仓库的行业应用程序实例演示。2,4.1数据挖掘和数据仓库,3,数据挖掘,数据仓库背景,数据暴增,但缺乏知识。4,数据:通常生成大量数据(如订单、库存、交易帐户、呼叫记录和客户数据)的典型业务任务。信息:如何利用企业的历史数据增进对业务情况的了解,如何帮助对业务管理和发展做出及时的正确判断,以及如何从数据中获取信息。5,数据库技术应用程序的开发,迅速积累了大量数据,提高了效率,同时也带来了一些问题:数据过多,难以消化;真假难辨。数据格式不同,难以均匀处理。6,如何丢弃不必要的数据,从大量数据中及

2、时提取有用的知识?数据挖掘,7,1.walmart、and、2.nasdaq、3.nba、advanced scout、8,定义数据仓库,数据仓库数据仓库是主题导向、整合、随时间变化的连续数据集合,支持管理决策过程。(W.H.Inmon)数据仓库是一个非产品环境,提供用户用于在现有生产数据库中进行困难或无法获得的决策支持的当前和历史数据。数据仓库技术是各种技术和模块的总称,这些技术和模块将生产数据有效地集成到集成环境中,以提供基于决策的数据访问。9,传统数据库分析方法,数据库系统:由数据库、数据库管理系统、应用程序开发工具、应用程序系统和数据库用户组成的在线事务处理系统基本作业,可以在适当的时

3、间安全地保留当前公司生成的记录。外部接口:标准SQL语言内部:实施事务管理,支持并发事务和恢复,10,数据仓库的基本功能,数据仓库中的数据是面向主题的。数据仓库中的数据已合并。无法更新数据仓库中的数据。数据仓库中的数据随着时间的推移而变化。11,数据仓库体系结构,外部数据,数据仓库服务器,提取,清洗转换,加载,服务,查询,报告,管理,数据挖掘,数据源,数据仓库数据集市,元数据,OLAP服务,前端工具,数据集市,12,数据仓库体系结构,数据提取工具:从各种存储方法中提取数据,进行必要的转换、清理,然后将其存储在数据仓库中。数据仓库数据库:它是整个数据仓库环境的核心,是数据的存档位置,并提供数据检

4、索支持。与基于操作的数据库相比,其突出特点是对大量数据的支持和快速检索技术。13、元数据:描述数据的结构、内容、编码、索引等。传统数据库的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库的数据字典更丰富、更复杂。可以按用途分为两类:技术和业务元数据。技术元数据是数据仓库的设计和管理人员用来开发数据仓库中使用的数据并每天管理这些数据。包含:数据源信息;数据转换的说明定义数据仓库中的对象和数据结构用于整理数据粒度数据和更新数据的规则源数据和目标数据映射;用户访问权限、数据备份历史记录、数据导入历史记录、信息发布历史记录等。业务元数据从业务角度描述数据仓库中的数据。包含:业务主题的说明、包

5、含的数据、查询、报表;14,Data Marts:数据仓库中独立出来的部分数据,用于特定应用程序目的或复盖范围。也称为部门数据或主题数据。在构建数据仓库的过程中,通常从一个部门的数据集市开始,稍后用几个数据集市构建整个数据仓库。数据仓库服务器:类似于数据库系统中的DBMS,它管理对数据仓库中数据的存储管理和数据访问,并为OLAP服务器和前台工具提供访问界面(如SQL查询界面)。OLAP服务器:透明地为前台工具和用户提供多维数据视图。OLAP服务器必须考虑这些分析数据的物理存储问题。也就是说。15,OLAP(联机分析处理技术),OLAP(联机分析处理)是基于批量数据的复杂分析技术1,是分析多维数

6、据模型数据时用户的数据视图,是面向分析的数据模型。多维数组用于向分析员提供各种观察和面向分析的任务,其中(维1、维2、维n、度量值)、16,联机分析处理技术(续),多维数据模型(续): (地区、时间、电气产品类型、销售),三维数组可以用单个立方体直观地表示。17、联机分析处理技术(续)、2、常用于多维分析操作的OLAP多维分析操作切片(切片):二维空间的分布切片(CUBE):多维空间的分布旋转(pivot):重新排列表中的维放置(例如,行交换)钻取细化:在一个维中细化到更高级别的概要数据。从概要数据细化到详细数据。18、联机分析处理技术(续)、第三、OLAP根据多维数据模型以多种方式实施。多维

7、OLAP(MOLAP)多维ROLAP(Relational OLAP)关系HOLAP(Hybrid OLAP)混合,19、MOLAP和MOLAP结构将数据组织为多维多维多维多维数据集,将数据存储为多维数组,并支持多维数据的直接操作。多维数据库(简要显示为MDDB)。20、ROLAP和ROLAP结构是两种类型的表,使用RDBMS或扩展的RDBMS管理多维数据,使用关系表组织和存储多维数据。一个是数值表,另一个是维表数值表,用于说明和存储多维多维数据集的度量值和每个维的代码值。维表用于说明维信息。ROLAP包含“星形”模式和“雪花”模式,用于表示多维数据模型。21、rollap(续)、star方案

8、(星形方案)通常是时间维表、客户维表、销售代表维表、制造商维表、产品维表、22,ROLAP(继续),Snow mode是由维表的层次细化组成的。23,HOLAP(续),HOLAP基于混合数据组织的OLAP实施(Hybrid OLAP),具有更大的灵活性。低层是数据仓库管理:安全性和权限管理等关系型高层是多维矩阵、24、前台工具,如查询报告工具、多维分析工具、数据挖掘工具和分析结果可视化工具。数据更新跟踪数据质量检查元数据管理和更新数据仓库的使用和状态审核和报告数据清除数据复制、分区和分发备份和恢复存储管理。,25,数据仓库实施阶段,DW项目计划业务需求分析数据电缆实施数据仓库设计数据预处理:E

9、TL数据裴珉姬管理技术线路技术选择产品运行应用系统管理裴珉姬。26,演示:Analysis Manager,Microsoft SQL Server的多维数据模型:以FoodMart Corporation为例构建三个多维数据集。市场营销、HR和成本预算系统数据源名称(DSN)设置数据库和数据源创建数值数据表和维表创建多维数据的存储模式-多维OLAP (MOLAP)、关系OLAP (ROLAP)或混合OLAP (HOLAP),27、数据挖掘的定义、数据挖掘数据挖掘技术角度的定义数据挖掘是从大量不完整、噪声大、模糊、随机的实际应用数据中提取暗示说、人们事先不知道但又可能有用的信息和知识的过程。业

10、务视角的定义数据挖掘是一种新的业务信息处理技术,它通过提取、转换、分析和其他建模处理业务数据库中的大量业务数据来提取支持业务决策的重要数据。28,为什么要进行数据挖掘?潜在应用程序、数据分析和决策支持市场分析和受控市场定位、客户关系管理(CRM)、购物车分析、交叉销售风险分析和管理预测、客户裴珉姬、质量管理、竞争分析欺诈检测和异常模式检测(异常)其他应用程序文本挖掘(新闻集团、电子邮件、文档)、29、Ex。1:市场分析和管理,数据来自哪里?信用卡交易、会员卡、优惠券、客户投诉电话、公共生活方式研究对象市场查找“模式”客户集群,他们在一段时间内对客户的购买模式交叉市场进行分析,寻找共享相同特征:

11、兴趣、收入水平、消费习惯等的产品销售之间的关联/关联。 根据客户概要文件预测哪些类型的客户购买哪些产品(群集或分类)分析客户需求为不同用户确定最佳产品预测哪些因素吸引新的客户摘要信息提供多维摘要信息报告统计摘要信息(数据中心的趋势和变化),30,ex.23360企业分析和风险管理,财务和资产评估现金流分析和预测资源计划摘要资源和成本,31,Ex。3:应用欺诈检测和挖掘异常模式、方法:欺诈和异常分析的群集和模型构建:医疗、零售、信用卡服务、通信。汽车保险:在探测故意制造交通事故要求保险的人。洗钱:可疑资金将转移到医疗保险。职业患者不需要且不相关的医疗检查通信通信:电话诈骗电话模型:呼叫对象,期间

12、,每天或每周。与预期标准相反的模式零售分析师评估表明,38%的零售业是不诚实的员工反恐、32、知识发现(KDD)流程、数据挖掘知识发现流程的核心、数据整理、数据集成、数据库、数据仓库、33,数据挖掘:多种技术的集成,34,为什么不是传统数据,庞大的数据算法需要可扩展性来处理微阵列等TB级的数据。可能有数千个维数据(例如微阵列)的复杂数据流和传感器数据时间系列数据、时间数据、序列数据结构数据、图表、社会网络和多链路数据异构数据库和遗产数据库空间、时空、多媒体、文本和web数据软件程序;新的和复杂的应用程序的科学模拟。35,数据挖掘与传统分析方法有何区别?数据挖掘是在没有明确假设的情况下挖掘信息和

13、发现知识。36,数据挖掘系统结构,数据仓库,数据清理数据集成,筛选,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,37,数据挖掘流程,数据挖掘流程包含数据准备(选择、预处理、转换)决策主题读取数据,模型建立,模型解释和评估知识应用程序,问题分析,数据集成,模型建立,了解规则,预测未来,38,数据挖掘技术分类,数据挖掘,说明,预测,可视化,群集,关联规则,摘要说明,分类,统计回归,时间系列,决策树,神经网络,39、数据挖掘模型(1)、分类和决策层树分类分析经常通过决策树、神经网络等模型表示,以找到描述和区分数据类或概念的模型。决策树:根节点、节点、分支、树叶。40,在贷款

14、申请中,要判断申请人的风险大小。41、数据挖掘模型(2)和群集(Cluster)群集是根据相似性将对象组分类为多个类别的过程。原则:最大化类中的相似性,最小化类之间的相似性聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。42,43、关联规则是以下形式的规则:“购买面包的顾客中,90%同时购买牛奶”:(面包) (吴优)计算为XY。评估关联规则的四个主要指标是:(1)支持(support):包含x和y的事务处理数与所有事务处理数之比;支持(XY) (2)信任度(confidence):包含x和y的事务处理数与包含x的事务处理数之比;预计信任度(XY说明要素集x对要素集y的影响大小。以Lift(XY)格式写入。如果有用的关联规则必须起到大于l的作用,以促进y的出现并说明两者之间的相关性,那么,如果此关联规则不再重要,那么它就没有意义了。数据挖掘的模型(3),supmin=50%,confmin=50%关联规则3360 a d (60%,100%) d a (60%,75%),以及为了发现客户的潜在购物模式,首先购买PC,购买数码相机,然后在5天内将存储卡与x股票的涨幅最大1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论