




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四节商务智能与数据发掘商务智能的来源数据仓库技术数据发掘数据发掘在商业中的运用第三章信息处置技术与方法市场的竞争开展趋势从“群众化营销〞到“差别化营销〞的竞争;从“规模效益〞到“深度效益〞的竞争;从“单一销售〞到“产业价值链营销〞的竞争;企业指点人如何面对猛烈市场竞争带来的挑战?完善组织构造培育客户忠实度拓大客户群添加产品、渠道种类加强本钱控制提高营运效率防备风险………提高笼统添加利润添加/保管客户添加市场占有率减低风险添加效力/提高质素减低运营本钱其他管理运营数据竞争优势?数据能直接带来竞争优势吗?如今企业的问题不是数据太少,而是数据太多了现有的数据情况传统的信息系统中数据受限于其运用面,最终出来的效果所表达的信息是割裂的,零碎的,假设不加处置与整合,甚至是自相矛盾的,因此这种数据积累的作用现实上只是一种备份。备份数据变成了“数据监狱〞,数据一进去就十有八九成了“囚犯〞,而数据一旦过时,要么就被束之高阁,无情地被判了无期徒刑,要么就象碎成纸片的机要文件一样被销毁了。企业是个严密运作的复杂系统,每个细小环节的活动是彼此相互关联的;从零碎的、片段的企业部分化信息难以看清企业整体的变化;同时企业需求一种协同思索的才干;在这种背景下,商务智能应运而生!什么是商业智能商业智能是用来实现数据向信息转变,信息向知识转变,知识向价值转变的这么一个过程,以及这个过程中所运用到的种种技术和工具。数据信息知识价值个性化的界面商业智能工具的分析和提炼搜集整理其他管理运营数据信息和知识分析数据采集数据使业务更加高效更大的效益企业信息门户正确的决策和行动分析人员银行指点员工IBM以为商务智能是指一种才干:经过智能的运用他的数据财富来制定更好的商务决策。它的意思是说各种企业的决策人员以企业中的数据仓库(DataWarehouse)为本,经由各式各样的查询分析工具(Query/ReportTools)、联机分析处置(OnlineAnalyticalProcessing简称OLAP)工具、或是数据发掘(DataMining)工具加上决策规划人员的行业知识(IndustryKnowledge),从数据仓储中获得有利的信息,进而协助企业提高获利,添加消费力与竞争力。学术界的观念是:BI实践上是协助企业提高决策才干和运营才干的概念、方法、过程以及软件的集合,其主要目的是将企业所掌握的信息转换成竞争优势,提高企业决策才干、决策效率、决策准确性。根据国际数据公司〔IDC〕的一个关于65个公司的案例研讨显示,在过去2、3年里,商务智能投资的平均报答超越了400%。根据商务智能的当前运用情况,发现商务智能广泛运用在零售、电信和保险、银行等行业。这些行业普通具有以下特征:〔1〕大量的顾客;这样才干产生足够多的可供分析的数据。〔2〕非常猛烈的竞争并有差别化的需求;这些行业普通提供的都是差别化很小的产品,同时行业内的竞争又非常猛烈,从而使差别化的效力成为企业必然选择。〔3〕能容易地搜集到大量的电子数据。这些行业普通都有较完善的电子买卖记录系统,可以很方便的搜集到大量的电子买卖数据。数据仓库1.数据仓库的概念数据仓库是一种为信息分析提供了良好的根底并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、随时间变化的、分层次的多维的集成数据集合。它为不同层次的管理者提供矫捷性和适用性的决策支持。数据仓库具有两个主要作用:一是从各信息源提取决策需求的数据,加工处置后,存储到数据仓库中;二是用户的查询和决策分析的根底。2.数据仓库特征1〕面向主题(subjectoriented)
在传统的信息系统中,对数据的处置是面向过程的或者是面向功能的。而面向过程的数据包括满足某种功能需求的数据,它们能够与决策问题有关也能够无关。
采购子系统:订单〔订单号,供应商号,商品号,类别,单价。数量,总金额,日期,…〕供应商〔供应商号,供应商名,地址,,…〕销售子系统:客户〔客户号,姓名,地址,,…〕销售〔客户号,商品号,数量,单价,日期,…〕库存子系统:进库单〔编号,商品号,数量,单价,日期,…〕出库单〔编号,商品号,数量,单价,日期,…〕库存〔商品号,库房号,类别,单价,库存数量,总金额,日期,…〕商品固有信息:商品号,类别,单价,颜色,…商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,…商品销售信息:商品号,客户号,数量,单价,销售日期,…商品库存信息:商品号,库房号,库存数量,日期,…〕商品主题域:采购子系统销售子系统库存子系统从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一详细的管理对象进展综合、归类所构成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完好的、一致的描画,这种描画不仅涉及到数据本身,而且涉及到数据之间的关系。2〕集成化(integrated)数据仓库在从业务处置系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需求进展一系列的数据预处置,即数据的抽取、挑选、清理、综合等集成任务。也就是说,首先要从源数据库中挑选出数据仓库所需求的数据,然后将这些来自不同数据库中的数据按照某一规范进展一致,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求一致同来,消除源数据中字段的同名异义、异名同义景象,这些任务称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致一致的视图。数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。1985~1998年销售明细表1998~2003年销售明细表1998~2003年每月销售表1998~2003年每季度销售表3〕相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,普通情况下将被长期保管,也就是数据仓库中普通有大量的查询操作,但修正和删除操作很少,通常只需求定期的加载、刷新。
4〕反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开场运用数据仓库的时点)到目前的各个阶段的信息,经过这些信息,可以对企业的开展历程和未来趋势做出定量分析和预测。
DW中数据量很大:通常的DW的数据量为10GB级,大型DW是一个TB〔1000GB〕级数据量。DB普通为几兆至100兆B。DW软硬件要求较高:需求一个宏大的硬件平台与一个并行的数据库系统〔PDBS〕。整个数据仓库系统是一个包含四个层次的体系构造,详细由以下图表示。3.OLAPOLAP的根本术语
E.F.Codd的定义为:OLAP是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术,OLAP具有灵敏的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而运用户对基于大量复杂数据的分析变得轻松而高效,以利迅速做出正确判别。
OLAP的根本分析方法
1)维
维是人们察看数据的特定角度。
2)维的层次
一个维往往具有多个层次,如描画时间维,可以从日期、月份、季度、年等不同层次来捕述,那么日期、月份、季度、年等就是时间维的层次;同样,城市、地域、国家等构成了一个地理维的多个层次。
(1)维成员。维的一个取值称为该维的一个维成员。假设一个维是多层次的,那么,该维的维成员是在不同维层次的取值的组合。
(2)多维数组。一个多维数组可以表示为:(维1,维2,…,维n,变量)。例如,日用品销售数据是按时间、地域和销售渠道组织起来的三维立方体,加上变量"销售额〞,就组成了一个多维数组(地域,时间,销售渠道,销售额)。
(3)数据单元。多维数组的取值称为数据单元。OLAP的根本分析方法多维分析是指对以多维方式组织起来的数据采取切片、切块、旋转等各种分析方法,以求分析数据,使最终用户能从多个角度、多侧面地察看数据库中的数据,从而深化地了解包含在数据中的信息、内涵。切片选定多维数组的一个二维子集的方法叫做切片,即选定多维数组〔维1,维2,……,维n,变量〕中的两个维:维I和维J,在这两个维上取某一区间或恣意维成员,而将其他的维都取定一个维成员,那么得到的就是多维数组在维I和j上一个二维子集,称这个二维子集为多维数在维I和维J上的一个切片,表示为;〔维I,维j,变量〕。例如,选定多维数组(地域,时间,产品,销售额)中的地域维与产品维,在另外一维:时间维,选取一个维成员(如“2006年1月〞),就得到了多维数组(地域,时间,产品,销售额)在产品和地域两维上的一个切片(客户,地域,销售额)。这个切片表示2006年1月各地域、各产品的销售情况。产品销售情况2006.1产品销售情况选定两个维:产品维和地域维时间维数据切片产品维地域维产品维地域维切块选定多维数的一个三维子集的方法称切块。即选定多维数组〔维1,维2,……,维n,变量〕中的三个维:维I、维j和维r,在这三个维上取某一区间或恣意的维成员,而将其他的维都取定一个维成员,那么得到的就是多维数组在维I、维j和维r上一个三维子集,我们称这个三维子集为多维数组在维I、维j和r上的一个切块,表示为:〔维I,维j,维r,变量〕。切块与切片的作用与目的是类似的。美国中国手机电脑图8-3三维立方体切块〔Slice〕旋转旋转即是改动一个报告或面显示的维方向。例如,旋转能够包含了交换行和列;或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面的维进展交换〔令其成为新一行或列中的一个〕把一个横向为时间、纵向为产品的报表旋转成为横向为产品、维向为时间的报表。2005年2006年部门1季度2季度3季度4季度1季度2季度3季度4季度部门一2012182722161929部门二2311241722311234部门三26213433212326321季度2季度3季度4季度部门2005年2006年2005年2006年2005年2006年2005年2006年部门一2022121618192729部门二2322113124121734部门三2621212334263332旋转前的有关数据描画旋转后的有关数据描画钻取按时间维向下钻取按时间维向上钻取604.数据发掘数据的爆炸性增长:从TB到PB数据搜集和数据可用性自动的数据搜集工具,数据库系统,Web,计算化的社会2003年,法国电信的呼叫数据为30TB,AT&T以26TB的数据量位居第二,如此多的呼叫数据以致于AT&T无法全部保管,对数据的分析也只能是“粗略〞的Google,40亿以上的页面〔2004年4月统计〕,数据量为nTB据加州大学伯克利分校的研讨人员统计,2002年新产生数据为1999年的2倍,而且数据的膨胀在不断加速我们正淹没在数据洪水中,但却盼望知识!数据发掘(从数据中发现知识)从海量数据中提取感兴趣(重要的,隐含的,以前未知的和潜在有用的)方式或知识数据发掘:用词不当?其他的称号数据库中的知识发现(发掘)(KDD),知识提取,数据/方式分析,数据考古学,数据捕捞,信息收获,商业智能等.留意:一切的都是“数据发掘〞么?简单的搜索和查询处置(演绎的)专家系统4.数据发掘为什么要数据发掘?—潜在的运用数据分析和决策支持市场分析和管理目的市场定位,客户关系管理(CRM),购物篮分析,交叉销售风险分析和管理预测,客户坚持,质量控制,竞争分析欺诈检测和不寻常方式的检测(离群点)其他的运用文本发掘(新闻组,,文档)和Web发掘流数据发掘生物信息学和生物数据分析现实世界中的数据发掘可以用来干什么?
——搜索制造爆炸的恐惧分子美国联邦调查局〔FBI〕对地域调查员提交的大量报告进展审查,寻觅和爆炸事件的联络。.运用链路分析,聚类和规那么归纳等分析方法来识别能够的线索。数据发掘的其他运用知识发现(KDD)过程数据发掘—知识发现过程的中心数据清理数据集成数据库数据仓库知识义务相关的数据选择数据发掘方式评价5.DM与OLAP的区别用户能够会提出这样一个典型的OLAP问题:去年哪里的用户的购买了更多的轿车,是上海还是北京(请留意,在这个问题中曾经隐含了用户的一些前提条件)?面对这样的问题,OLAP能够会回答:在去年,上海地域的用户购买了12000辆轿车,而北京的用户购买了10000辆。相比之下,一个典型的DM问题能够会是:给出一个方式来预测人们购买轿车的情况。经过对数据库中数据的发掘,DM能够这样回答:在北京地域处于A年龄段、收入在X、y之间的用户比上海地域一样的用户会购买更多的轿车。6.数据发掘在商业中的运用关联分析关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有适用价值的关联发生的事件。其主要根据是事件发生的概率和条件概率应该符合一定的统计意义。动机:寻觅数据中固有的规律什么产品会经常在一同购买?—啤酒和尿布?!买了一台电脑之后接着会买什么?哪种DNA对新药是敏感的?我们可以自动分类Web文档吗?运用购物篮分析,交叉销售,分类设计,销售活动分析,Web日志(点击流)分析,以及DNA序列分析.购物篮分析商店的经理想了解顾客的购物习惯“什么商品组或集合顾客多半会在一次购物时同时购买〞
可以协助制定营销战略:有选择地安排货架按比例进货案例:金融交叉销售什么是交叉销售?简单说来,就是向拥有本公司A产品的客户推销本公司B产品。它有两大功能:其一,可以加强客户忠实度。假设客户购买本公司的产品和效力越多,客户流失的能够性就越小。来自银行的数据显示:购买两种产品的客户的流失率是55%,而拥有4个或更多产品或效力的流失率几乎是0。其二,交叉销售也可以添加利润。实际证明,将一种产品和效力推销给一个现有客户的本钱远低于吸收一个新客户的本钱。下表便是一个采用IBMIntelligentMiner进展数据发掘的案例:这个准那么阐明:有28.5%的VISA金卡用户购买了房屋贷款,它的购买率是平均的10.7倍。这个准那么的客户数目占总客户群的85%(关于准那么的详细定义请参考IBMIntelligentMiner的阐明书)。根据这个准那么我们可以知道,将房屋贷款交叉销售给VISA金卡用户是一个很好的选择。置信度支持度类型提升度规则0.85%28.5%+10.7VISA金卡=>房屋贷款序列分析序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其根据除了统计上的概率之外,还要加上时间的约束。分类分析分类分析经过分析具有类别的样本的特点,得到决议样本属于各种类别的规那么或方法。利用分类技术,可以根据顾客的消费程度和根本特征对顾客进展分类,找出对商家有较大利益奉献的重要客户的特征,经过对其进展个性化效力,提高他们的忠实度。案例:中挪动客户保管案例分析国内挪动通讯市场的价钱战是当前困扰运营商的主要问题,很多客户从一个挪动运营商转向另一个挪动运营商只是为了得到更低的费用及其他额外的优惠条件〔如赠机〕。因此需求经过对转网客户群的特征进展深化分析,然后根据分析结果到现有客户资料中找出能够转网的客户群,有针对性地设计一些客户坚持方案来预防现有客户的流失。聚类分析聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进展描画的过程。其主要根据是聚到同一个组中的样本应该彼此类似,而属于不同组的样本应该足够不类似。在客户关系管理中,利用聚类技术,根据客户的个人特征以及消费数据,可以将客户群体进展细分。例如,可以得到这样的一个消费群体:女性占91%,全部无子女、年龄在31到40岁占70%,高消费级别的占64%,买过针织品的占91%,买过厨房用品的占89%,买过园艺用品的占79%。针对不同的客户群,可以实施不同的营销和效力方式,从而提高客户的称心度。对于空间数据,根据地理位置以及妨碍物的存在情况可以自动进展区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进展区域划分,?????根据这一信息,可以有效地进展ATM机的设置规划,防止浪费,同时也防止失掉每一个商机。预测预测与分类类似,但预测是根据样本的知特征估算某个延续类型的变量的取值的过程,而分类那么只是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年音频切换台项目资金筹措计划书代可行性研究报告
- 革命文化资源融入初中历史教学探究-以百色市M中学为例
- 汽车传感器与检测技术电子教案:液位传感器
- Brand KPIs for neobanking Freetrade in the United Kingdom-英文培训课件2025.4
- 汽车传感器与检测技术电子教案:检测的作用与意义
- 几种类型小鼠缺氧实验报告范本
- 关+于儒学的现代转化问题-评现代新儒家的儒学转化观
- 介绍学院特色活动方案
- 物理中考一轮复习教案 十五讲 摩擦力 二力平衡
- 从江工会相亲活动方案
- 【语文】四川省成都市泡桐树小学二年级下册期末复习试卷(含答案)
- 配电网技术标准(施工验收分册)
- arm嵌入式系统试题及标准答案
- 麻醉科PDCA持续改进麻醉术后镇痛
- 火字旁教学讲解课件
- 租车公司疫情防控应急预案
- 2023-2025年初中学业水平考试体育与健康考试体育中考理论考试题库
- 补缴社保转移需法律文书(社保法律文书怎么写有效)-靓文网
- SMT失效模式分析PFMEA
- 融媒体中心安全播出管理相关各项制度
- JJF 1105-2018触针式表面粗糙度测量仪校准规范
评论
0/150
提交评论