第三章信息处理技术与方法课件_第1页
第三章信息处理技术与方法课件_第2页
第三章信息处理技术与方法课件_第3页
第三章信息处理技术与方法课件_第4页
第三章信息处理技术与方法课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章信息处理技术与方法2024/4/17第三章信息处理技术与方法第四节商务智能与数据挖掘商务智能的起源数据仓库技术数据挖掘数据挖掘在商业中的应用第三章信息处理技术与方法第三章信息处理技术与方法市场的竞争发展趋势从“大众化营销”到“差异化营销”的竞争;从“规模效益”到“深度效益”的竞争;从“单一销售”到“产业价值链营销”的竞争;第三章信息处理技术与方法企业领导人如何面对激烈市场竞争带来的挑战?完善组织结构培养客户忠诚度拓大客户群增加产品、渠道品种加强成本控制提高营运效率防范风险………提高形象增加利润增加/保留客户增加市场占有率减低风险增加服务/提高质素减低经营成本第三章信息处理技术与方法其他管理运营数据竞争优势?数据能直接带来竞争优势吗?第三章信息处理技术与方法现在企业的问题不是数据太少,而是数据太多了第三章信息处理技术与方法现有的数据状况传统的信息系统中数据受限于其应用面,最终出来的效果所表达的信息是割裂的,零碎的,如果不加处理与整合,甚至是自相矛盾的,因此这种数据积累的作用事实上只是一种备份。备份数据变成了“数据监狱”,数据一进去就十有八九成了“囚犯”,而数据一旦过时,要么就被束之高阁,无情地被判了无期徒刑,要么就象碎成纸片的机要文件一样被销毁了。

第三章信息处理技术与方法企业是个严密运作的复杂系统,每个细小环节的活动是彼此互相关联的;从零碎的、片段的企业局部化信息难以看清企业整体的变化;同时企业需要一种协同思考的能力;在这种背景下,商务智能应运而生!第三章信息处理技术与方法什么是商业智能商业智能是用来实现数据向信息转变,信息向知识转变,知识向价值转变的这么一个过程,以及这个过程中所使用到的种种技术和工具。

数据信息知识价值第三章信息处理技术与方法个性化的界面商业智能工具的分析和提炼收集整理其他管理运营数据信息和知识分析数据采集数据

使业务更加高效

更大的效益企业信息门户正确的决策和行动分析人员银行领导员工第三章信息处理技术与方法IBM认为商务智能是指一种能力:通过智能的使用你的数据财产来制定更好的商务决策。它的意思是说各种企业的决策人员以企业中的数据仓库(DataWarehouse)为本,经由各式各样的查询分析工具(Query/ReportTools)、联机分析处理(OnlineAnalyticalProcessing简称OLAP)工具、或是数据挖掘(DataMining)工具加上决策规划人员的行业知识(IndustryKnowledge),从数据仓储中获得有利的信息,进而帮助企业提高获利,增加生产力与竞争力。第三章信息处理技术与方法学术界的观点是:BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。第三章信息处理技术与方法根据国际数据公司(IDC)的一个关于65个公司的案例研究显示,在过去2、3年里,商务智能投资的平均回报超过了400%。根据商务智能的当前应用情况,发现商务智能广泛应用在零售、电信和保险、银行等行业。这些行业一般具有以下特征:(1)大量的顾客;这样才能产生足够多的可供分析的数据。(2)非常激烈的竞争并有差异化的需要;这些行业一般提供的都是差异化很小的产品,同时行业内的竞争又非常激烈,从而使差异化的服务成为企业必然选择。(3)能容易地收集到大量的电子数据。这些行业一般都有较完善的电子交易记录系统,可以很方便的收集到大量的电子交易数据。第三章信息处理技术与方法第三章信息处理技术与方法数据仓库1.数据仓库的概念数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、随时间变化的、分层次的多维的集成数据集合。它为不同层次的管理者提供敏捷性和实用性的决策支持。数据仓库具有两个主要作用:一是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中;二是用户的查询和决策分析的基础。第三章信息处理技术与方法2.数据仓库特征1)面向主题(subjectoriented)

在传统的信息系统中,对数据的处理是面向过程的或者是面向功能的。而面向过程的数据包括满足某种功能需求的数据,它们可能与决策问题有关也可能无关。

第三章信息处理技术与方法采购子系统:订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期,…)供应商(供应商号,供应商名,地址,电话,…)销售子系统:客户(客户号,姓名,地址,电话,…)销售(客户号,商品号,数量,单价,日期,…)库存子系统:进库单(编号,商品号,数量,单价,日期,…)出库单(编号,商品号,数量,单价,日期,…)库存(商品号,库房号,类别,单价,库存数量,总金额,日期,…)第三章信息处理技术与方法

商品固有信息:商品号,类别,单价,颜色,…商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,…商品销售信息:商品号,客户号,数量,单价,销售日期,…商品库存信息:商品号,库房号,库存数量,日期,…)商品主题域:采购子系统销售子系统库存子系统第三章信息处理技术与方法从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。第三章信息处理技术与方法2)集成化(integrated)

数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。第三章信息处理技术与方法数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。1985~1998年销售明细表1998~2003年销售明细表1998~2003年每月销售表1998~2003年每季度销售表第三章信息处理技术与方法3)相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4)反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

第三章信息处理技术与方法DW中数据量很大:通常的DW的数据量为10GB级,大型DW是一个TB(1000GB)级数据量。DB一般为几兆至100兆B。DW软硬件要求较高:需要一个巨大的硬件平台与一个并行的数据库系统(PDBS)。第三章信息处理技术与方法整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。第三章信息处理技术与方法3.OLAPOLAP的基本术语

E.F.Codd的定义为:OLAP是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术,OLAP具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利迅速做出正确判断。

第三章信息处理技术与方法OLAP的基本分析方法

1)维

维是人们观察数据的特定角度。

2)维的层次

一个维往往具有多个层次,如描述时间维,可以从日期、月份、季度、年等不同层次来捕述,那么日期、月份、季度、年等就是时间维的层次;同样,城市、地区、国家等构成了一个地理维的多个层次。

第三章信息处理技术与方法

(1)维成员。维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么,该维的维成员是在不同维层次的取值的组合。

(2)多维数组。一个多维数组可以表示为:(维1,维2,…,维n,变量)。例如,日用品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量"销售额”,就组成了一个多维数组(地区,时间,销售渠道,销售额)。

(3)数据单元。多维数组的取值称为数据单元。第三章信息处理技术与方法OLAP的基本分析方法

多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析方法,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。第三章信息处理技术与方法切片

选定多维数组的一个二维子集的方法叫做切片,即选定多维数组(维1,维2,……,维n,变量)中的两个维:维I和维J,在这两个维上取某一区间或任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I和j上一个二维子集,称这个二维子集为多维数在维I和维J上的一个切片,表示为;(维I,维j,变量)。第三章信息处理技术与方法

例如,选定多维数组(地区,时间,产品,销售额)中的地区维与产品维,在另外一维:时间维,选取一个维成员(如“2006年1月”),就得到了多维数组(地区,时间,产品,销售额)在产品和地区两维上的一个切片(客户,地区,销售额)。这个切片表示2006年1月各地区、各产品的销售情况。第三章信息处理技术与方法

产品销售情况2006.1产品销售情况选定两个维:产品维和地区维时间维数据切片产品维地区维产品维地区维第三章信息处理技术与方法切块选定多维数的一个三维子集的方法称切块。即选定多维数组(维1,维2,……,维n,变量)中的三个维:维I、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I、维j和维r上一个三维子集,我们称这个三维子集为多维数组在维I、维j和r上的一个切块,表示为:(维I,维j,维r,变量)。切块与切片的作用与目的是相似的。美国中国手机电脑图8-3三维立方体切块(Slice)第三章信息处理技术与方法旋转

旋转即是改变一个报告或面显示的维方向。例如,旋转可能包含了交换行和列;或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面的维进行交换(令其成为新一行或列中的一个)把一个横向为时间、纵向为产品的报表旋转成为横向为产品、维向为时间的报表。第三章信息处理技术与方法2005年2006年部门1季度2季度3季度4季度1季度2季度3季度4季度部门一2012182722161929部门二2311241722311234部门三26213433212326321季度2季度3季度4季度部门2005年2006年2005年2006年2005年2006年2005年2006年部门一2022121618192729部门二2322113124121734部门三2621212334263332旋转前的有关数据描述旋转后的有关数据描述第三章信息处理技术与方法钻取按时间维向下钻取按时间维向上钻取60第三章信息处理技术与方法4.数据挖掘数据的爆炸性增长:从TB到PB数据收集和数据可用性自动的数据收集工具,数据库系统,Web,计算化的社会2003年,法国电信的呼叫数据为30TB,AT&T以26TB的数据量位居第二,如此多的呼叫数据以致于AT&T无法全部保存,对数据的分析也只能是“粗略”的Google,40亿以上的页面(2004年4月统计),数据量为nTB据加州大学伯克利分校的研究人员统计,2002年新产生数据为1999年的2倍,而且数据的膨胀在不断加速我们正淹没在数据洪水中,但却渴望知识!

第三章信息处理技术与方法数据挖掘(从数据中发现知识)从海量数据中提取感兴趣(重要的,

隐含的,以前未知的和潜在有用的)模式或知识数据挖掘:用词不当?其他的名称数据库中的知识发现(挖掘)(KDD),知识提取,数据/模式分析,数据考古学,数据捕捞,信息收获,商业智能等.当心:所有的都是“数据挖掘”么?简单的搜索和查询处理(演绎的)专家系统4.数据挖掘第三章信息处理技术与方法为什么要数据挖掘?—潜在的应用数据分析和决策支持市场分析和管理目标市场定位,客户关系管理(CRM),购物篮分析,交叉销售风险分析和管理预测,客户保持,质量控制,竞争分析欺诈检测和不寻常模式的检测(离群点)其他的应用文本挖掘(新闻组,email,文档)和Web挖掘流数据挖掘生物信息学和生物数据分析第三章信息处理技术与方法现实世界中的数据挖掘可以用来干什么?

——搜索制造爆炸的恐怖分子美国联邦调查局(FBI)对地区调查员提交的大量报告进行审查,寻找和爆炸事件的联系。.使用链路分析,聚类和规则归纳等分析方法来识别可能的线索。数据挖掘的其他应用第三章信息处理技术与方法知识发现(KDD)过程数据挖掘—知识发现过程的核心数据清理数据集成数据库数据仓库知识任务相关的数据选择数据挖掘模式评估第三章信息处理技术与方法5.DM与OLAP的区别用户可能会提出这样一个典型的OLAP问题:去年哪里的用户的购买了更多的轿车,是上海还是北京(请注意,在这个问题中已经隐含了用户的一些前提条件)?面对这样的问题,OLAP可能会回答:在去年,上海地区的用户购买了12000辆轿车,而北京的用户购买了10000辆。相比之下,一个典型的DM问题可能会是:给出一个模式来预测人们购买轿车的情况。通过对数据库中数据的挖掘,DM可能这样回答:在北京地区处于A年龄段、收入在X、y之间的用户比上海地区相同的用户会购买更多的轿车。第三章信息处理技术与方法6.数据挖掘在商业中的应用关联分析

关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。第三章信息处理技术与方法动机:寻找数据中固有的规律什么产品会经常在一起购买?—啤酒和尿布?!买了一台电脑之后接着会买什么?哪种DNA对新药是敏感的?我们能够自动分类Web文档吗?应用购物篮分析,交叉销售,分类设计,销售活动分析,Web日志(点击流)分析,以及DNA序列分析.第三章信息处理技术与方法购物篮分析商店的经理想了解顾客的购物习惯“什么商品组或集合顾客多半会在一次购物时同时购买”

可以帮助制定营销策略:有选择地安排货架按比例进货第三章信息处理技术与方法案例:金融交叉销售什么是交叉销售?简单说来,就是向拥有本公司A产品的客户推销本公司B产品。它有两大功能:其一,可以增强客户忠诚度。如果客户购买本公司的产品和服务越多,客户流失的可能性就越小。来自银行的数据显示:购买两种产品的客户的流失率是55%,而拥有4个或更多产品或服务的流失率几乎是0。其二,交叉销售也可以增加利润。实践证明,将一种产品和服务推销给一个现有客户的成本远低于吸收一个新客户的成本。第三章信息处理技术与方法下表便是一个采用IBMIntelligentMiner进行数据挖掘的案例:这个准则说明:有28.5%的VISA金卡用户购买了房屋贷款,它的购买率是平均的10.7倍。这个准则的客户数目占总客户群的85%(关于准则的详细定义请参考IBMIntelligentMiner的说明书)。根据这个准则我们可以知道,将房屋贷款交叉销售给VISA金卡用户是一个很好的选择。置信度支持度类型提升度规则0.85%28.5%+10.7VISA金卡=>房屋贷款第三章信息处理技术与方法序列分析

序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。第三章信息处理技术与方法分类分析分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用分类技术,可以根据顾客的消费水平和基本特征对顾客进行分类,找出对商家有较大利益贡献的重要客户的特征,通过对其进行个性化服务,提高他们的忠诚度。第三章信息处理技术与方法案例:中移动客户保留案例分析

国内移动通信市场的价格战是当前困扰运营商的主要问题,很多客户从一个移动运营商转向另一个移动运营商只是为了得到更低的费用及其他额外的优惠条件(如赠机)。因此需要通过对转网客户群的特征进行深入分析,然后根据分析结果到现有客户资料中找出可能转网的客户群,有针对性地设计一些客户保持计划来预防现有客户的流失。第三章信息处理技术与方法聚类分析聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。第三章信息处理技术与方法

在客户关系管理中,利用聚类技术,根据客户的个人特征以及消费数据,可以将客户群体进行细分。例如,可以得到这样的一个消费群体:女性占91%,全部无子女、年龄在31到40岁占70%,高消费级别的占64%,买过针织品的占91%,买过厨房用品的占89%,买过园艺用品的占79%。针对不同的客户群,可以实施不同的营销和服务方式,从而提高客户的满意度。第三章信息处理技术与方法对于空间数据,根据地理位置以及障碍物的存在情况可以自动进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,?????根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。第三章信息处理技术与方法预测预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论