第一讲 数据分析与挖掘入门(2015)_第1页
第一讲 数据分析与挖掘入门(2015)_第2页
第一讲 数据分析与挖掘入门(2015)_第3页
第一讲 数据分析与挖掘入门(2015)_第4页
第一讲 数据分析与挖掘入门(2015)_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/7/4,1,数据分析与挖掘,张冬fishing,DataMining,dredging,课程目标,基本目标(鱼)学习各种数据分析与挖掘的原理的基本方法掌握SqlServer数据分析与挖掘工具的使用实现挖掘模型案例高级目标(渔)数据分析与挖掘的思维方式具备数据挖掘方面自学的能力,教材,商务智能与数据挖掘MicrosoftSQLServer应用,谢邦昌主编,机械工业出版社,2008SQLSERVER2005数据挖掘与商业智能,朱德利主编,电子工业出版社数据挖掘原理与SPSSClementine应用宝典,元昌安主编,电子工业出版社,2009数据挖掘,JiaweiH

2、an,MichelineKamber,高等教育出版社,2001,课程特点,从最基本概念出发从最基本的SQLServer操作开始学起在线数据分析(olap)和挖掘方法作为课程的主体,课程要求,平时成绩30%(上机实验+考勤)期末考试70%(课程报告+考察),本领域常用词汇:数据挖掘DataMining,DM数据仓库DataWarehouse,DataWarehousing,DW联机事务处理OLTPOnlinetransactionprocessing联机分析处理OLAPOnlineanalyticalprocessing知识发现KDDKnowledgeDiscoveryinDatabases决策

3、支持Decisionsupportsystems,DSS商务智能BusinessIntelligence,BI,什么是商务智能,BusinessIntelligence(BI)企业利用信息科技以企业内部及外部既有的数据库数据为基础,根据所需解决的问题进行数据汇总,整合成数据仓库后,利用适当的工具进行数据处理,利用联机分析及数据挖掘等技术分析数据,将所发现的潜在特性或是建立的预测模型传递给决策者,以提供协助其进行决策,并达到企业目标。,商务智能,数据仓库用于数据的存储和组织OLAP集中于数据的分析数据挖掘则致力于知识的自动发现将它们结合起来就成为一种新的DSS构架,成为商务智能(Business

4、Intelligence,BI)的3个支柱即:DWOLAPDM支持BI的可行方案,了解示例数据库,1、adventureworks,2020/7/4,10,一、关于数据挖掘的经典故事和案例,1、正在影响中国管理的10大技术2、从数字中能够得到什么?3、一个网络流传的笑话4、啤酒与尿布5、网上书店关联销售的案例6、数据挖掘在企业中的应用,2020/7/4,11,1、正在影响中国管理的10大技术,No.1RFIDNO.23GNO.3IPTV(交互式网络电视)NO.4VOIP(基于互联网的语音传输技术)No.5数据挖掘,2020/7/4,12,3、一个网络流传的笑话(转述),客服:“东东披萨店您好!

5、请问有什么需要我为您服务?”顾客:“你好,我想要”客服:“先生,请把您的AIC会员卡号码告我。”顾客:“喔!请等等,12345678。”,2020/7/4,13,(1.客户数据库)顾客:“我家,为什么你知道我所有的电话号码?”客服:“陈先生,因为我们有连线“AICCRM系统”。”,客服:“陈先生您好,您是住在泉州街一号二楼,您家的电话是23939889,您的公司电话是23113731,您的移动电话是939956956。请问您现在是用哪一个电话呢?”,Add-in-Cards亲密合作伙伴,CustomerRelationshipManagement客户关系管理,2020/7/4,14,顾客:“我

6、想要一个海鲜披萨”客服:“陈先生,海鲜披萨不适合您。”顾客:“为什么?”客服:“根据您的医疗纪录,您有高血压和胆固醇偏高。”(2.医疗数据库),Why?,2020/7/4,15,顾客:“那你们有什么可以推荐的?”客服:“您可以试试我们的低脂健康披萨。”顾客:“你怎么知道我会喜欢吃这种的?”客服:“喔!您上星期一在中央图书馆借了一本低脂健康食谱。”(3.图书借阅数据库),2020/7/4,16,顾客:“哎呀!好,我要一个家庭号特大披萨,要多少钱?”客服:“嗯,这个足够您一家十口吃,六百九十九元。”顾客:“可以刷卡吗?”客服:“陈先生,对不起,请您付现,因为您的信用卡已经刷爆了,您现在还欠银行十万

7、四千八百零七元,而且还不包括房贷利息。”(4.金融数据库-信用卡),2020/7/4,17,顾客:“喔!那我先去附近的提款机领钱。”客服:“陈先生,根据您的记录,您已经超过今日提款机提款限额。”(5.金融数据库-现金卡),2020/7/4,18,顾客:“算了!你们直接把披萨送来吧,我这里有现金。你们多久会送到?”客服:“大约三十分钟,如果您不想等,可以自己骑车来。”顾客:“什么?!”客服:“根据“AICCRM系统”记录,您有一辆摩托车,车号是GY-7878。”(1.客户数据库),!,!,!,2020/7/4,19,顾客:客服:“陈先生,请您说话小心一点。您在2000年四月一日用脏话侮辱警察,被

8、判了十日拘役。”顾客:“”(6.刑事刑案数据库),“,$%如果队列较短,则显示那些利润较高但准备时间相对长的食品。5.Morton牛排店的品牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。,6.PredPolInc.。PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以

9、精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。7.TescoPLC(特易购)和运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。8.AmericanExpress(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%,2020/7/4,29,

10、数据挖掘所能解决的典型商业问题包括:银行:反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测等。电信:流失预警、客户分群、关联销售。网上销售点:购物车交叉销售、网上商品布局。,6、数据挖掘在企业中的应用,2020/7/4,30,DM在信用卡欺诈交易中的应用,应用之一是通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合来实现。这些因素结合起来,描述出持卡人最近交易的大概轮廓,从而评估出是否与持卡人的交易习惯相符。一旦发现交易异常的明显痕迹,发卡行需要联系持卡人,以确定其信用卡账户最近是否正常,是否被以任何方式

11、遭受损害。,例如,如果一个持卡人日常生活里,每月交易笔数在36笔,这就是其交易模式之一。如果有一天发现当日其信用卡账户有15笔交易,例外报告将要求发卡行联系持卡人进行确认。,2020/7/4,31,DM在大型零售企业中的应用,1、优化商品组合布局,正确安排商品进货与库存从众多的商品中发现创造价值最大的商品。然后,据此调整商品的结构,安排商品的库存和定货。商品布局管理即商品摆放位置对销售起着至关重要的作用。,考虑购买者在商店里所穿行的路线、购买时间和地点、货架的使用效率、畅销商品的类别、不同商品一起购买的概率,进行挖掘。,英国safeway(北美最大的食品和药品零售商之一)公司,研究发现某一种乳

12、酪产品虽然销售额排名第209,可是消费额最高的客户中有25都常常买这种乳酪,这些客户可是Safeway最不想得罪的客户。如果使用传统的分析方法的话,这种产品很快就会不卖了,可是事实上这种产品是相当重要的。,Safeway也发现在28种品牌的橘子汁中,有8中特别受到欢迎。因此,该公司重新安排货架的摆设,使橘子汁的销量能够增加到最大,2020/7/4,32,例如,一个超市营销的例子,经由记录客户的消费记录与采购路线,超级市场的厨房用品是按照女性的视线高度来摆放的。根据研究得出:美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位

13、置是在130-135公分之间。在商业上,有很多特征是很难理解的,但若了解到这些信息就会增加企业的竞争能力。,2020/7/4,33,2、利用数据挖掘技术帮助企业准确制定营销策略,主要表现在:(1)通过对市场同类产品和销售情况、顾客情况的资料收集和分类分析,明确细分市场,确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。(业绩分析)(2)正确安排商品进货与库存,降低库存成本。即对各个商品、各色货物进行增减,确保正确的库存;协助企业确定最佳经济批量、最佳定货时机,从而节约进货和库存管理费用;,2020/7/4,34,(3)将顾客按照一定的标准进行分类,通过对企业销售数据的序列分析发现顾客基

14、于时间的购买模式,预测顾客需求,及时调整产品的结构和内容,提高不同顾客群的满意度,最大限度的留住顾客。(4)通过建立顾客会员制度,记录同一顾客在不同时期购买的商品序列,通过统计分析和序列模式挖掘顾客购买趋势或忠诚度的变化。,以顾客为导向,2020/7/4,35,例如,Safeway在了解客户每次采购时会购买哪些产品以后,就可以利用数据挖掘中的监测功能,监测出长期的经常购买行为。再将这些资料与主数据库的人口统计资料结合在一起,Safeway的营销部门就可以根据每个家庭的特性,也就是哪些季节会购买哪些产品的趋势,发出邮件。,2020/7/4,36,例如,拥有汽车的新婚夫妻很可能购买儿童专用汽车椅,

15、这个现象很容易被理解,并不需要应用到数据挖掘中。但如考虑到另一个问题,这些夫妻会购买何种颜色的儿童专用汽车椅?这时可以运用数据挖掘技术以便在新婚夫妻购买汽车的时候销售给他们合适的儿童专用汽车椅。,(7)交叉销售,商业智能的结构描述,商业智能的实现包含了“数据信息知识行动智慧”这一过程所运用的技术和方法。在国外,有人曾经把BI作为一种数据的提纯工厂。,BI过程以来自业务系统的数据为基础,经过数据仓库技术的处理,整合数据并将其转化为有序的信息;这些信息经过联机分析处理(OLAP)技术的分析后,可以表达出数据内部的各种关联,这是对商业管理活动有很大帮助的知识;经营活动中很多时候还要进一步明确数据中隐

16、藏的规则,这要靠数据挖掘技术的帮助,最后要采取行动时,可以用模型库和方法库等决策支持的相关技术来辅助决策;,把商业智能系统工作的这一过程进行技术上的抽象,可以把商业智能的体系结构分为源数据层、数据转换层、数据仓库(数据集市)层、OLAP及数据挖掘层和用户展现层。这几层通过密切的协作完成商业智能的功能,它们的相互依赖关系如图1-8所示实现商业智能应用有4个十分关键的环节,包括数据源、ETL过程、数据仓库及其应用和BI前端展现,ETL过程即抽取(Extraction)、转换(Transformation)和装载(Load)。ETL过程负责将业务系统中各种关系型数据、外部数据、遗留数据和其他相关数据

17、经过清洗、转化和整理后放进中心数据仓库,数据仓库是商业智能系统的基础,是面向主题的、集成的、稳定的和随时间不断变化的数据集合。数据仓库的应用包括联机在线分析处理(OLAP)和数据挖掘(DM)。通过对数据仓库中多维数据的钻取、切片及旋转等分析动作,可以完成决策支持需要的查询及报表。通过数据挖掘,可以发现隐藏在数据中的潜在规则。,前端展现可以提供各种能帮助人们快速理解数据内涵的可视化手段。它是数据仓库的门面,包括各种报表工具、查询工具和数据分析工具以表格或图形化的手段对数据的展现,数据挖掘和商业智能工具,三大服务一个工具实现BI的体系图(SQLSERVER2005BI),第1部分数据仓库、OLAP

18、与数据挖掘,1.1从数据库到数据仓库1.2从OLTP到OLAP1.3数据仓库1.4数据集市1.5数据挖掘,1.1从数据库到数据仓库,(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策,1.数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时再更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,2.数据仓库用于决策分析,数据库用于事务处理,数据仓库用于决策分析

19、。数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据。数据仓库的数据是大量数据库的集成。对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大。,3.数据库与数据仓库对比,1.2从OLTP到OLAP,1.联机事务处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比,1.联机事务处理(OLTP),联机事务处理(OnLineTransactionProcessing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行,以便将每个查询分布到一个处理

20、器上。,OLTP的特点在于事务处理量大,但事务处理内容比较简单且重复率高。OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。OLTP面对的是事务处理操作人员和低层管理人员。,2.联机分析处理(OLAP),决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。E.F.Codd在1993年提出了多维数据库和多维分析的概念,即联机分析处理(OnLineAnalyticalProcessing,OLAP)概念。关系数据库是二维数据(平面),多维数据库是空间立体数据。OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。

21、,3.OLTP与OLAP的对比,1.3.1数据仓库的定义与特点,1.数据仓库定义(1)W.H.Inmon在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1.3数据仓库,(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2.数据仓库特点,(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在D

22、W中分析客户数据,可决定是否继续给予贷款。,(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(5)数据仓库的数据量

23、很大大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高需要一个巨大的硬件平台需要一个并行的数据库系统,1.3.2数据仓库结构,数据仓库存储采用多维数据模型。,1.3.3数据仓库的数据模型,果汁,可乐,牛奶,商品维,奶油,浴巾,香皂,北京,上海,长沙,1234567,城市维,日期维,维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。企业常常关心产品销售数据随时间的变化情况,这是从时间的角度来观察产品的销售

24、,因此时间就是一个维(时间维)。例如,银行会给不同经济性质的企业贷款,比如国有、集体等,若通过企业性质的角度来分析贷款数据,那么经济性质也就成为了一个维度。每一个销售事实由一个特定的商店、一个特定的时间、一个特定的商品,销售价格,数量,成本等组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。关系数据库在字段上做文章,数据仓库在维上做文章,在商品销售分析DW模型中,商品的销售数量、金额、企业利润等是分析数据(度量);销售的时间、地点等使用户感兴趣的描述数据(维);销售产品的详细情况、购买商品的客户详细情况等是细节数据。,大多数的数据仓库都采用“

25、星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。星型模型数据如下图:,1.星型模型,事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中,维度表主要包含了存储在事实表中数据的特征数据。每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空,这与一般数据库中外键允

26、许为空是不同的。这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中心的事实表,进行查询。,星形模型虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中关系模式的基本区别。使用星形模式主要有两方面的原因:一是可以提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高,同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表进行连接时其速度较快,便于用户理解;二是对于非计算机

27、专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。,一个时间维表,星型模型数据存储情况示意图,AdventureWorksDW数据仓库中部分表构成的星形架构,2.雪花模型某个维度表不与事实表直接关联,而是与另一个维表关联。可以进一步细化查看数据的粒度。维度表和与其相关联的其他维度表也是靠外码关联的。也以事实数据表为核心。,foodmart销售数据仓库雪花形结构设计图,AdventureWorksDW数据仓库中部分表构成的雪花形架构,3.星网模型(星座模式),星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。在Adventu

28、reWorksDW数据仓库中有多个事实,为了便于显示,取最重要的2个事实表“FactInternetSales”和“FactResellerSales”作为星座模式的例子。由于对网络销售和批发商销售的分析有很多观察视角都是相同的,因而这2个事实表共享的维度表较多,比如促销手段、时间和产品等。在数据库关系图中把它们的关系表现出来后,,数据仓库的事实星座模式示例,地区键,事务键,用户键,时间键,状态键,时间键用户键事务键地区键电话费用,时间键用户键状态键电话余额,电话公司星网模型实例,数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。,1.3.4数据仓库系统结构,1、仓库管理,(1)数据建模数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据模型。,(2)数据抽取、转换、装载,数据仓库中的数据,是通过在源数据中抽取数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论