第三章 信息处理技术与方法(下)_第1页
第三章 信息处理技术与方法(下)_第2页
第三章 信息处理技术与方法(下)_第3页
第三章 信息处理技术与方法(下)_第4页
第三章 信息处理技术与方法(下)_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广东工业大学商学院Management Information System 主讲:何瑞卿广东工业大学商学院第四节第四节 商务智能与数据挖掘商务智能与数据挖掘商务智能的起源数据仓库技术数据挖掘数据挖掘在商业中的应用第三章第三章 信息处理技术与方法信息处理技术与方法广东工业大学商学院市场的竞争发展趋势从“大众化营销”到“差异化营销”的竞争;从“规模效益”到“深度效益”的竞争;从“单一销售”到“产业价值链营销”的竞争;广东工业大学商学院企业领导人如何面对激烈市场竞争带来的挑战?完善组织结构培养客户忠诚度拓大客户群增加产品、渠道品种加强成本控制提高营运效率防范风险广东工业大学商学院其他管理运营数据能

2、直接带来竞争优势吗?数据能直接带来竞争优势吗?广东工业大学商学院现在企业的问题不是数据太少,而是数据太多了广东工业大学商学院现有的数据状况 传统的信息系统中数据受限于其应用面,最终出来的效果所表达的信息是割裂的,零碎的,如果不加处理与整合,甚至是自相矛盾的,因此这种数据积累的作用事实上只是一种备份。 备份数据变成了“数据监狱”,数据一进去就十有八九成了“囚犯”,而数据一旦过时,要么就被束之高阁,无情地被判了无期徒刑,要么就象碎成纸片的机要文件一样被销毁了。 广东工业大学商学院 企业是个严密运作的复杂系统,每个细小环节的活动是彼此互相关联的;从零碎的、片段的企业局部化信息难以看清企业整体的变化;

3、 同时企业需要一种协同思考的能力; 在这种背景下,商务智能应运而生!广东工业大学商学院什么是商业智能商业智能是用来实现商业智能是用来实现数据向信息转变,信数据向信息转变,信息向知识转变,知识息向知识转变,知识向价值转变的这么一向价值转变的这么一个过程,以及这个过个过程,以及这个过程中所使用到的种种程中所使用到的种种技术和工具。技术和工具。 数据信息知识价值广东工业大学商学院其他管理运营分析数据分析数据采集数据采集数据 使业务更使业务更加高效加高效 更大的效益更大的效益 分析人员广东工业大学商学院 IBM认为商务智能是指一种能力:通过智能的使用你的数据财产来制定更好的商务决策。它的意思是说各种企

4、业的决策人员以企业中的数据仓库(Data Warehouse) 为本,经由各式各样的查询分析工具(Query/Report Tools)、联机分析处理(Online Analytical Processing 简称 OLAP)工具、或是数据挖掘(Data Mining)工具加上决策规划人员的行业知识(Industry Knowledge),从数据仓储中获得有利的信息,进而帮助企业提高获利,增加生产力与竞争力。 广东工业大学商学院 学术界的观点是:BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、

5、决策准确性。广东工业大学商学院 根据国际数据公司(IDC)的一个关于65个公司的案例研究显示,在过去2、3年里,商务智能投资的平均回报超过了400%。根据商务智能的当前应用情况,发现商务智能广泛应用在零售、电信和保险、银行等行业。这些行业一般具有以下特征: (1)大量的顾客;这样才能产生足够多的可供分析的数据。 (2)非常激烈的竞争并有差异化的需要;这些行业一般提供的都是差异化很小的产品,同时行业内的竞争又非常激烈,从而使差异化的服务成为企业必然选择。 (3)能容易地收集到大量的电子数据。这些行业一般都有较完善的电子交易记录系统,可以很方便的收集到大量的电子交易数据。广东工业大学商学院广东工业

6、大学商学院数据仓库数据仓库 1.数据仓库的概念 数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、随时间变化的、分层次的多维的集成数据集合。它为不同层次的管理者提供敏捷性和实用性的决策支持。 数据仓库具有两个主要作用: 一是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中; 二是用户的查询和决策分析的基础。广东工业大学商学院2.数据仓库特征 1)面向主题(subject oriented) 在传统的信息系统中,对数据的处理是面向过程的或者是面向功能的。而面向过程的数据包括满足某种功能需求的数据,它们可能与决策问题有关也可能无关。 广东

7、工业大学商学院采购子系统采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期,总金额,日期, ) 供应商(供应商号,供应商名,地址,电话,供应商(供应商号,供应商名,地址,电话,)销售子系统:销售子系统: 客户(客户号,姓名,地址,电话,客户(客户号,姓名,地址,电话, ) 销售(客户号,商品号,数量,单价,日期,销售(客户号,商品号,数量,单价,日期, )库存子系统:库存子系统: 进库单(编号,商品号,数量,单价,日期,进库单(编号,商品号,数量,单价,日期, ) 出库单(编号,商品号,数量,单价,日期,出库单(编号,

8、商品号,数量,单价,日期, ) 库存(商品号,库存(商品号, 库房号,类别,单价,库存数量,库房号,类别,单价,库存数量,总金额,日期,总金额,日期, )广东工业大学商学院 商品固有信息:商品号,类别,单价,颜色,商品固有信息:商品号,类别,单价,颜色, 商品采购信息:商品号,类别,供应商号,供应日期,单商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,价,数量, 商品销售信息:商品号,客户号,数量,单价,销售日商品销售信息:商品号,客户号,数量,单价,销售日期,期, 商品库存信息:商品号,商品库存信息:商品号, 库房号,库存数量,日期,库房号,库存数量,日期, )商品主题域:商品主

9、题域:采购子系统采购子系统销售子系统销售子系统库存子系统库存子系统广东工业大学商学院从信息管理的角度看,主题就是在一个较高的管理层次上主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。仅涉及到数据自身,而且涉及到数据之间的关系。广东工业大学商学院2)集成化

10、(integrated) 数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。 也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清清理理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。广东工业大学商学院 数据仓库中的数据分为四个级别:早期细节级,当数据仓库中的数据分为四个级别:早期细节级

11、,当前细节级,轻度综合级,高度综合级。前细节级,轻度综合级,高度综合级。19851998年年销售明细表销售明细表19982003年年销售明细表销售明细表19982003年年每月销售表每月销售表19982003年年每季度销售表每季度销售表广东工业大学商学院3)相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4)反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各

12、个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。广东工业大学商学院DW中数据量很大:通常的DW的数据量为10GB级,大型DW是一个TB(1000GB)级数据量。DB一般为几兆至100兆B。DW软硬件要求较高:需要一个巨大的硬件平台与一个并行的数据库系统(PDBS)。广东工业大学商学院整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。 广东工业大学商学院3. OLAP3. OLAPOLAP的基本术语 E.F.Codd的定义为:OLAP是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术,OLAP具有灵活的分析功能、直观的数据操作和分析结果可视

13、化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利迅速做出正确判断。 广东工业大学商学院OLAPOLAP的基本分析方法的基本分析方法 1)维 维是人们观察数据的特定角度。 2)维的层次 一个维往往具有多个层次,如描述时间维,可以从日期、月份、季度、年等不同层次来捕述,那么日期、月份、季度、年等就是时间维的层次;同样,城市、地区、国家等构成了一个地理维的多个层次。 广东工业大学商学院 (1)维成员。维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么,该维的维成员是在不同维层次的取值的组合。 (2)多维数组。一个多维数组可以表示为:(维1,维2,维n,变量)。例如,

14、日用品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量销售额”,就组成了一个多维数组(地区,时间,销售渠道,销售额)。 (3)数据单元。多维数组的取值称为数据单元。 广东工业大学商学院OLAP的基本分析方法的基本分析方法 多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析方法,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。广东工业大学商学院切切 片片 选定多维数组的一个二维子集的方法叫做切片,即选定多维数组(维1,维2,维n,变量)中的两个维:维I 和维J,在这两个维上取某一区间或任意维成员,而将其余的

15、维都取定一个维成员,则得到的就是多维数组在维I和j上一个二维子集,称这个二维子集为多维数在维I和维J上的一个切片,表示为;(维I,维j,变量)。广东工业大学商学院 例如,选定多维数组(地区,时间,产品,销售额)中的地区维与产品维,在另外一维:时间维,选取一个维成员(如“2006年1月”),就得到了多维数组(地区,时间,产品,销售额)在产品和地区两维上的一个切片(客户,地区,销售额)。这个切片表示2006年1月各地区、各产品的销售情况。广东工业大学商学院 产品销售 情况2006.1产品销售情况选定两个维:产品维和地区维选定两个维:产品维和地区维时间维时间维数据切片数据切片产品维产品维地区维地区维

16、产品维产品维地区维地区维广东工业大学商学院切切 块块 选定多维数的一个三维子集的方法称切块。即选定多维数组(维1,维2,维n,变量)中的三个维:维I、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I、维j和维r上一个三维子集,我们称这个三维子集为多维数组在维I、维j和r上的一个切块,表示为:(维I,维j,维r,变量)。切块与切片的作用与目的是相似的。美国中国手机电脑图8-3 三维立方体切块(Slice)广东工业大学商学院旋旋 转转 旋转即是改变一个报告或面显示的维方向。例如,旋转可能包含了交换行和列;或是把某一个行维移到列维中去,或是把

17、页面显示中的一个维和页面的维进行交换(令其成为新一行或列中的一个)把一个横向为时间、纵向为产品的报表旋转成为横向为产品、维向为时间的报表。广东工业大学商学院2005年2006年部门1季度2季度3季度4季度1季度2季度3季度4季度部门一2012182722161929部门二2311241722311234部门三26213433212326321季度2季度3季度4季度部门2005年2006年2005年2006年2005年2006年2005年2006年部门一2022121618192729部门二2322113124121734部门三2621212334263332旋转前的有关数据描述旋转后的有关数据

18、描述广东工业大学商学院钻取钻取按时间维向下钻取按时间维向上钻取60广东工业大学商学院4. 数据挖掘数据挖掘 数据的爆炸性增长: 从TB到PB 数据收集和数据可用性 自动的数据收集工具, 数据库系统, Web, 计算化的社会 2003年,法国电信的呼叫数据为30TB,AT&T以26TB的数据量位居第二,如此多的呼叫数据以致于AT&T无法全部保存,对数据的分析也只能是“粗略”的 Google,40亿以上的页面(2004年4月统计),数据量为nTB 据加州大学伯克利分校的研究人员统计,2002年新产生数据为1999年的2倍,而且数据的膨胀在不断加速 我们正淹没在数据洪水中, 但却渴望

19、知识! 广东工业大学商学院 数据挖掘 (从数据中发现知识) 从海量数据中提取感兴趣(重要的, 隐含的, 以前未知的 和 潜在有用的)模式或知识 数据挖掘: 用词不当? 其他的名称 数据库中的知识发现 (挖掘) (KDD), 知识提取, 数据/模式分析, 数据考古学, 数据捕捞, 信息收获, 商业智能等. 当心: 所有的都是“数据挖掘”么? 简单的搜索和查询处理 (演绎的) 专家系统4. 数据挖掘数据挖掘广东工业大学商学院为什么要数据挖掘为什么要数据挖掘?潜在的应用潜在的应用 数据分析和决策支持 市场分析和管理 目标市场定位, 客户关系管理 (CRM), 购物篮分析, 交叉销售 风险分析和管理

20、预测, 客户保持, 质量控制, 竞争分析 欺诈检测和不寻常模式的检测 (离群点) 其他的应用 文本挖掘 (新闻组, email, 文档) 和Web挖掘 流数据挖掘 生物信息学和生物数据分析广东工业大学商学院现实世界中的数据挖掘可以用来干什么?现实世界中的数据挖掘可以用来干什么? 搜索制造爆炸的恐怖分子搜索制造爆炸的恐怖分子 美国联邦调查局美国联邦调查局(FBIFBI)对地区调)对地区调查员提交的大量报查员提交的大量报告进行审查,寻找告进行审查,寻找和爆炸事件的联和爆炸事件的联系。系。. . 使用链路分析,聚使用链路分析,聚类和规则归纳等分类和规则归纳等分析方法来识别可能析方法来识别可能的线索。

21、的线索。广东工业大学商学院知识发现知识发现 (KDD) 过程过程数据挖掘知识发现过程的核心数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关的数据任务相关的数据选择选择数据挖掘数据挖掘模式评估模式评估广东工业大学商学院5. DM5. DM与与OLAPOLAP的区别的区别 用户可能会提出这样一个典型的OLAP问题:去年哪里的用户的购买了更多的轿车,是上海还是北京(请注意,在这个问题中已经隐含了用户的一些前提条件)?面对这样的问题,OLAP可能会回答:在去年,上海地区的用户购买了12 000辆轿车,而北京的用户购买了10 000辆。相比之下,一个典型的DM问题可能会是:给出一个模

22、式来预测人们购买轿车的情况。通过对数据库中数据的挖掘,DM可能这样回答:在北京地区处于A年龄段、收入在X、y之间的用户比上海地区相同的用户会购买更多的轿车。广东工业大学商学院6. 数据挖掘在商业中的应用数据挖掘在商业中的应用 关联分析关联分析 关联分析主要用于发现不同事件之间的关联性,即关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件发生的事件。其主要依据是事件发生的概率和条件概率

23、应该符合一定的统计意义。概率应该符合一定的统计意义。 广东工业大学商学院动机: 寻找数据中固有的规律什么产品会经常在一起购买? 啤酒和尿布?!买了一台电脑之后接着会买什么?哪种 DNA对新药是敏感的?我们能够自动分类Web文档吗?应用购物篮分析, 交叉销售, 分类设计, 销售活动分析, Web 日志(点击流)分析, 以及DNA 序列分析.广东工业大学商学院购物篮分析购物篮分析商店的经理想了解顾客的购物习惯“什么商品组或集合顾客多半会在一次购物时同时购买”可以帮助制定营销策略:有选择地安排货架按比例进货广东工业大学商学院案例:金融交叉销售案例:金融交叉销售 什么是交叉销售?简单说来,就是向拥有本

24、公司A产品的客户推销本公司B产品。它有两大功能: 其一,可以增强客户忠诚度。如果客户购买本公司的产品和服务越多,客户流失的可能性就越小。来自银行的数据显示:购买两种产品的客户的流失率是55%,而拥有4个或更多产品或服务的流失率几乎是0。 其二,交叉销售也可以增加利润。实践证明,将一种产品和服务推销给一个现有客户的成本远低于吸收一个新客户的成本。广东工业大学商学院 下表便是一个采用IBM Intelligent Miner进行数据挖掘的案例: 这个准则说明:有28.5%的VISA金卡用户购买了房屋贷款,它的购买率是平均的10.7倍。这个准则的客户数目占总客户群的85%(关于准则的详细定义请参考I

25、BM Intelligent Miner的说明书)。根据这个准则我们可以知道,将房屋贷款交叉销售给VISA金卡用户是一个很好的选择。置信度支持度类型提升度规则0.8528.510.7VISA金卡房屋贷款广东工业大学商学院 序列分析序列分析 序列分析技术主要用于发现一定时间间隔内接连发序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。还要加上时间的约束。广东工业大学商学院 分类分析分类分析 分类分析通过分析具

26、有类别的样本的特点,得到决分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。定样本属于各种类别的规则或方法。 利用分类技术,可以根据顾客的消费水平和基本特利用分类技术,可以根据顾客的消费水平和基本特征对顾客进行分类,找出对商家有较大利益贡献的征对顾客进行分类,找出对商家有较大利益贡献的重要客户的特征,通过对其进行个性化服务,提高重要客户的特征,通过对其进行个性化服务,提高他们的忠诚度。他们的忠诚度。广东工业大学商学院案例:中移动客户保留案例分析案例:中移动客户保留案例分析 国内移动通信市场的价格战是当前困扰运营商的主国内移动通信市场的价格战是当前困扰运营商的主要问题,

27、很多客户从一个移动运营商转向另一个移动运要问题,很多客户从一个移动运营商转向另一个移动运营商只是为了得到更低的费用及其他额外的优惠条件营商只是为了得到更低的费用及其他额外的优惠条件(如赠机)。因此需要通过对转网客户群的特征进行深(如赠机)。因此需要通过对转网客户群的特征进行深入分析,然后根据分析结果到现有客户资料中找出可能入分析,然后根据分析结果到现有客户资料中找出可能转网的客户群,有针对性地设计一些客户保持计划来预转网的客户群,有针对性地设计一些客户保持计划来预防现有客户的流失。防现有客户的流失。广东工业大学商学院 聚类分析聚类分析 聚类分析是根据物以类聚的原理,将本身没有类别聚类分析是根据

28、物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不本应该彼此相似,而属于不同组的样本应该足够不相似。相似。广东工业大学商学院 在客户关系管理中,利用聚类技术,根据客户的个在客户关系管理中,利用聚类技术,根据客户的个人特征以及消费数据,可以将客户群体进行细分。人特征以及消费数据,可以将客户群体进行细分。 例如,可以得到这样的一个消费群体:女性占例如,可以得到这样的一个消费群体:女性占91%91%,全

29、部无子女、年龄在全部无子女、年龄在3131到到4040岁占岁占70%70%,高消费级别的占,高消费级别的占64%64%,买过针织品的占,买过针织品的占91%91%,买过厨房用品的占,买过厨房用品的占89%89%,买过,买过园艺用品的占园艺用品的占79%79%。针对不同的客户群,可以实施不同的。针对不同的客户群,可以实施不同的营销和服务方式,从而提高客户的满意度。营销和服务方式,从而提高客户的满意度。广东工业大学商学院 对于空间数据,根据地理位置以及障碍物的存在对于空间数据,根据地理位置以及障碍物的存在情况可以自动进行区域划分。例如,根据分布在不情况可以自动进行区域划分。例如,根据分布在不同地理

30、位置的同地理位置的ATMATM机的情况将居民进行区域划分,机的情况将居民进行区域划分,? 根据这一信息,可根据这一信息,可以有效地进行以有效地进行ATMATM机机的设置规划,避免浪的设置规划,避免浪费,同时也避免失掉费,同时也避免失掉每一个商机。每一个商机。广东工业大学商学院 预测预测 预测与分类类似,但预测是根据样本的已知特预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。分类则只是用于判别样本所属的离散类别而已。预测模型可以使用较为传统的统计回归技术,预测模型可以使用较为传统的统计回归技术,也可以使用新的分类技术,目前最通用的是决也可以使用新的分类技术,目前最通用的是决策树归纳技术。策树归纳技术。广东工业大学商学院 BB&CC公司每年开展公司每年开展25次直邮活动,每次大概次直邮活动,每次大概向向1,000,000用户提供信用卡使用机会。营销活动用户提供信用卡使用机会。营销活动响应率约为响应率约为6%,但其中只有约,但其中只有约16%能够通过公司能够通过公司的信用审查成为公司的正式客户(即在邮件列表的信用审查成为公司的正式客户(即在邮件列表中只有中只有1%的客户成为公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论