数据仓库数据挖掘与商业智能BI_第1页
数据仓库数据挖掘与商业智能BI_第2页
数据仓库数据挖掘与商业智能BI_第3页
数据仓库数据挖掘与商业智能BI_第4页
数据仓库数据挖掘与商业智能BI_第5页
已阅读5页,还剩101页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库、数据挖掘与商业智能BI同济大学经济与管理学院黄立平教授数据仓库DW和数据挖掘DM讲座内容简介数据仓库和数据挖掘技术是近十年来,世界上广泛应用的信息技术之一。其主要作用是帮助企业有效地使用企业积累的大量数据;辅助管理层和决策层提高管理和决策的水平。讲座的主要内容如下:数据仓库概要;数据仓库的工作原理;联系分析处理OLAP;数据挖掘概念、原由、发展;数据挖掘的技术分类;数据挖掘在电信行业的应用;数据挖掘与知识管理;数据挖掘国内应用存在的问题;数据挖掘的未来发展。前言数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的信息系统,1990年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。与之相辅相成的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。数据库技术的发展收集和数据库创建(20世纪60年代以前)-原始文件处理数据库管理系统(20世纪70年代)

-层次、网状、关系数据库系统-数据建模工具:实体-联系(E-R)模型等-索引和数据组织技术-查询语言:SQL、用户界面:表单、报告等-查询处理和查询优化、事务并发控制等-联机事务处理(OLTP)高级数据库系统(1980年代中期—现在)-高级数据模型:扩充关系、面向对象、对象-关系-面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库数据仓库和数据挖掘

(1980年代后期—现在)-数据仓库和OLAP技术-数据挖掘和知识发现

基于Web的数据库系统(1990年代—现在)-基于XML的数据库系统-Web挖掘

数据库应用中存在的问题“数据丰富,信息贫乏”。存储了大量数据的数据库变成了“数据坟墓”——难以再访问的数据档案;在大型数据库中快速增长着海量数据,理解数据的含义已经远远超出了人的能力;领导者的重要决策往往无法、及时获得信息,因为缺乏从海量数据中提取有价值知识的工具;若在当前运行的操作数据库中获取信息,则影响数据库的使用和性能。海量数据要求强有力的数据分析工具以前的专家系统依赖用户或某领域的专家人工地将知识输入知识库;这一过程常常有偏差和错误,并且耗时、费用高;使用数据挖掘工具进行数据分析;可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献;数据和信息之间的差距,要求系统地开发数据挖掘工具,将沉寂的数据转换成宝贵的知识。案例“啤酒与尿布”是一个发生在Wal★Mart的关于数据挖掘的经典故事:它告诉人们:可以利用手中大量似乎没有规律的数据,找出未知的规律;沃尔玛有先进的卫星通讯网络—1983年开始,用巨资建立的卫星通讯网络系统使其供货系统更趋完美;

沃尔玛有完整的数据记录、存储和分析系统;如何获得客户的销售记录?数据挖掘由什么人来实现?是否每时每刻都可以进行数据挖掘?是否每次都能挖掘出理想的结果?我国在处理经济犯罪案件时,发现由于管理的落后以及数据分析应用技术的落后,不能及时发现问题……什么是数据仓库DW(datawarehouse)?数据仓库可以看作是一种特殊的关系数据库。DW是一个面向主题的、集成的、不更新的、随时间变化的数据集合,用于支持管理部门的决策过程”。DWS允许将各种应用系统集成在一起为统一的历史数据分析提供坚实的平台,对信息处理、决策提供支持。数据仓库的主要特征面向主题的(subject–oriented):(1)所谓主题(宏观领域),如顾客、供应商、产品和销售组织;是在高层次上将企业IS中的数据综合、归类并进行分析利用的抽象。面向主题,是指数据仓库内的信息是按主题进行组织的,为按决策的过程提供信息。

(2)DW关注决策者的数据建模与分析,而传统数据库是面向应用的,集中于组织机构的日常操作和事务处理。(3)DW排除对于决策无用的数据,提供特定主题的简明视图。(4)传传统统数数据据库库使使用用OLTP联联机机事事务务处处理理方方式式,进进行行数数据据组组织织时时考考虑虑记记录录每每一一笔笔业业务务的的情情况况;;数据据仓仓库库使使用用OLAP联联机机分分析析处处理理方方式式,进进行行数数据据分分析析处处理理,,以以主主题题为为单单位位组组织织数数据据,,例例如如::供供应应商商、、商商品品、、顾顾客客等等。。(5)面向向主主题题的数数据据组组织织方方式式要要求求将数数据据组组织织成成主主题题域域,各各主主题题域域之之间间有有明明确确的的界界限限((独独立立性性)),,在在某某一一主主题题内内的的数数据据应应该该包包括括分分析析处处理理所所要要求求的的一一切切数数据据((完完备备性性))。。集成成的的(integrated):(1)构造造数数据据仓仓库库是将将多个个不不同同的的数数据据源源,如如关关系系数数据据库库、、一一般般文文件件和和联联机机事事务务处处理理记记录录,,集成成在一一起起。。(2)将多个个系系统统的的数数据据进进行行计算算和和整整理理,,保保证证DW的数数据据是是关于于整整个个系系统统的的、一致致的、、全局局的。。使用用数据据清清理理和和数数据据集集成成技技术术,确确保保命命名名约约定定、、编编码码结结构构、、属属性性等等的的数数据据结结构构一致致性性。保证证各各数数据据源源中中数据据的一致致性性。不更更新新的的(nonvolatile):(1))访访问问数数据据仓仓库库主主要要是是两两种种方方式式::数据据的的插插入入和和查查询询。修改改和和删删除除操操作作很很少少。(2))DW的的数据据与操操作作环环境境下下的的应应用用数数据据分开开存存放放。因因此此,,数数据据仓仓库库不不需需要要在在操操作作环环境境下下事事务务处处理理、、恢恢复复和和并并发发控控制制等等机机制制。。随时间变变化的(time-variant):(1)数据仓库库记录了从从过去某一一时间到到目前的的各个阶阶段的信信息,通过这这些信息息,可以以表明发发展历程程并对未未来的趋趋势作出出定量分分析和预预测。(2)DW的的数据结结构,隐隐式或显显式地包包含时间间元素;;其包含含的大量量综合数数据也与与时间相相关,例例如:月月产量。。(3)DW随时间变变化不断断增加新新的数据据内容;去掉超过过时限(例如::5-10年))的数据。DW概念念总结::数据仓库库是一种种语义上上一致的的数据存存储体系系结构;;DW是决决策支持持数据模模型的物物理实现现,并存存放企业业战略决决策所需需信息;;DW通过过将异种种数据源源中的数数据集成成在一起起构造而而成;完成各种种数据查查询、信信息分析析报告和和决策支支持。操作型数数据库系系统与数数据仓库库的区别别操作型数数据库系系统的主要任任务是执行联机机事务和和查询处处理,称为联联机事务务处理(OLTP)系统统。它涵涵盖了一一个组织织的大部部分日常常操作,,如采购购、制造造、库存存、销售售、财务务、银行行等事务务。DW在数据分分析和决决策方面面为决策策者提供供服务。。可以用用不同的的格式去去组织和和提供数数据,以以便满足足不同用用户的形形形色色色需求。。这种系系统称为为联机分析析处理(OLAP)系统。数据仓库库的数据据模型数据仓库库和OLAP通常是基基于多维数据据模型。该模型将将数据看看作数据立方方体(datacube)形式。。数据立方方体由维维和事实实来定义义;以多维的的形式对对数据建建模和观观察。维是关于一一个组织织想要记记录的透透视或实实体。事实是面向某某一主题题的数据据度量,,它表示示了多个个分析维之之间的分分析结果果。多维数据据模型通常有星型和雪花型两种形式式。数据仓库库的体系系结构数据仓库库的概念念结构从数据仓仓库的概概念结构构看,应应该包含含:数据据源、数数据准备备区、数数据仓库库、数据据集市/知识挖挖掘库以以及各种种管理工工具和应应用工具具。

数据源业务系统外部数据源数据准备区数据仓库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库数据仓库的概念结构1.维维是人们们观察数数据的特特定角度度。例如如:时间间维是商商品销售售随时间间推移发发生的变变化;地地理维是是商品在在不同地地区的销销售分布布情况。。2.维的层次次某个维以以下存在在的对细细节的多多个描述述方面,,例如::时间维维有年、、季度、、月、日日等不同同层次。。3.维成员维的一个个取值是是该维的的一个成成员。4.多维数组组一个多维维数组可可以表示示为(维维1,维维2,维维3,……维n,变量量);例例如:((地区、、时间、、销售渠渠道、销销售额))5.数据单元元多维数组组的取值值是数据单元元。例如如:((上海,,2002年2月,批批发,2188)OLTP和OLAP的的主要区区别服务对象象:OLTP是是面向顾客的,用于办办事员、客客户和信息息技术专业业人员的事事务和查询询处理。OLAP是是面向市场的,用于经经理、主管管和信息分分析人员的的数据分析析。数据内容:OLTP系系统管理当前数据。这种数据据太琐碎,,难以用于于决策。OLAP系统管理理大量历史数据,提供汇总总和聚集机机制,并在在不同的粒粒度级别上上存储和管管理信息。。数据易于于用作中、、高层的决决策过程。。数据库设计计:OLTP系系统采用E-R模型型和面向应应用的数据据库设计OLAP系系统采用星星型或雪花花模型和面面向主题的的数据库设设计视图:OLTP系系统主要关关注一个企企业或部门门内部的当前数据,而不不涉及历史史数据或不不同组织的的数据。OLAP系系统由于组组织的变化化常常跨越越数据库模模式的多个个版本。OLAP系系统也处理理来自不同同组织的信信息,由多多个数据存存储集成的的信息。由由于数据量量巨大,OLAP数数据也存放放在多个存存储介质上上。访问模式:对OLTP系统的访访问主要由由短的原子子事务组成成。这种系系统需要并并行控制和和恢复机制制。对OLAP系统的访访问大部分分是只读操作(由于于大部分数数据仓库存存放历史数数据,而不不是当前数数据),尽尽管许多可可能是复杂杂的查询。。OLTP和和OLAP的其他区别:包括数据库库大小、操操作的频繁繁程度、性性能度量等等。OLTP系系统和OLAP系统统的比较表表特性性OLTPOLAP特征操作处理信信息息处理面向事务分分析用户办事员、客客户、数据据库专业人人员经经理理、主管、、分析员功能日常操作长长期期信息需求求,决策支支持DB设计基于E-R,面向应应用星星型/雪花花,面向主主题数据当前的,确确保最新历历史的,,跨时间维维护汇总原始的,高高度详细汇汇总的,,统一的视图详细,一般般关系汇汇总的,多多维的工作单位短的,简单单事务复复杂杂查询存取读/写大大多为读读关注数据输入、、存储信信息息输出操作主关键字上上索引/散散列大大量量扫描访问记录数数量数十个数数百百万用户数数千数数百DB规模100MB到GB100GB到TB优先高性能,高高可用性高高灵活性,,端点用户户自治度量事务吞吐量量查查询吞吐量量,响应时时间数据仓库为为什么是分分离的?操作型数据据库存放了了大量数据据,为什么么不直接在在这种数据据库上进行行联机分析析处理,而而是另外花花费时间和和资源去构构造一个与与之分离的的数据仓库库?主要原因是提高两个个系统的性性能。操作数据库库是为已知的的任务和负负载设计的的,如使用用主关键字字索引,检检索特定的的记录和优优化查询;;数据仓库的查询通常常是复杂的的,涉及大大量数据在在汇总级的的计算,可可能需要特特殊的数据据组织、存存取方法和和基于多维维视图的实实现方法。。操作型数据据库:支持多事务务的并行处处理,需要要加锁和日日志等并行行控制和恢恢复机制,,以确保数数据的一致致性和完整整性。数据仓库::对数据记录录进行只读读访问,以以进行汇总总和聚集。。如果OLTP和OLAP都在在操作型数据据库上运行,会大大大降低数数据库系统统的吞吐量量。总之,数据据仓库与操操作数据库库分离是由由于这两种种系统中数数据的结构构、内容和和用法都不不相同。两种系统的的数据结构构、内容和和用法都不不相同操作型数据据库一般不维护护历史数据据,其数据据很多,但但对于决策策是远远不不够的。数据仓库系系统用于决策支支持需要历历史数据,,将不同来来源的数据据统一(如如聚集和汇汇总),产产生高质量量、一致和和集成的数数据。操作型数据据库只维护详细细的原始数数据(如事事务),这这些数据在在进行分析析之前需要要统一。由于两个系系统提供很很不相同的的功能,需要不同同类型的数据,因此需要要维护分离的数据库。。多维数据模模型数据仓库和OLAP基基于多维数据模模型。该模型将将数据看作作数据立方体体(datacube)形式式。数据立方体允许以多维维对数据建建模和观察察。它由维维和事实定定义。维是关于一个个组织想要要记录的视视图或实体体。例例如,商商店可能创创建一个数数据仓库sales,记录商商店的销售售,涉及维维time,item(商商品类),,branch(分分店)和location(地点))。这些维维使得商店店能够记录录商品的月月销售,销销售商品的的分店和地地点。主题:多维数据模模型围绕中中心主题(例如sales)组织。主题用事实表表示。事实是用数值度度量的。根根据它们分分析维之间间的关系。。例如,sales销售数据据仓库的事事实包括dollars_sold(销售的款款项),units_sold(销售售量)和amount_budgeted(预预销量)。。事实表包括事实的的名称,以以及每个相相关维表的的关键字。例:某连锁锁商店的销销售数据按按照维time季季度,item商商品类的2-D视图(其其中销售数数据是取自自Location=“Vancouver””的所有分分店,销售售金额单位位是1000美元)。item(商品类)______________________________________季度家庭娱乐计计算机电电话话安安全设备备Q160582514400Q4927103838580以三维角度观察该连锁锁商店的销销售数据。。例如,根根据time,item和location城城市观察数据。。location是Chicago,,NewYork,Toronto和Vancouver。。location==“Chicago”;location==“NewYork”...(该市上述述二维表略略)((该市上述述二维表略略)…多维数据库库模型:星星型、雪雪花型关系数据库库设计广泛使用E—R数据据模型。数据库模模式由实体体的集合和和它们之间间的联系组组成。这种种数据模型型适用于联联机事务处处理。数据仓库需需要简明的的、面向主题的的模型,便于联机机数据分析析。数据仓库数数据模型是是多维数据据模型。这种模型型有星型模式、雪花模式等。星型模式(starschema):是数据仓库库最常见的的数据模型型,其中包包括:(1)事实表:包含大批数数据和不含含冗余的中中心表;(2)一组组小的附属属表(维维表),,每一维一一个。维表表围绕中心心表显示在在连线上。。例:某连锁锁商店的星星型模式如如下图所示示。sales有四四个维,分分别是time,item,,branch(分分店)和location。。该模式包包含一个中中心事实表表sales,它包包含四个维维的关键字字和两个度度量dollars_sold销售的的款项和units_sold销售量量。在星型模式式中,每一一维只用一一个表表示示,每个表表包含一组组属性。例例如,location维表表包含属性性集{location_key,street,city,province_or_state,,country}。sales数据据仓库的星星型模式timesalesitem维表事实表维表time_key-------------time_keyitem_namedayitem_key--------item_keyday_of_the_weekunits_soldbrandmonthdollars_soldtypequarterlocation_keysupplier_type★yearbranch_key|||branch维表location维维表branch_keylocation_keybranch_namestreetbranch_typecity★province_or_statecountry雪花模型(snowflakeschema)雪花模型是是星型模式式的变种,,其中某些些维表是规范化的,因而把数数据进一步步分解到附附加的表中中。结果,,模型图形形成类似于于雪花的形形状。雪花模型和和星型模型型的主要不同在于,雪花花模型的维维表可能是是规范化形式,以便便减少冗余。这种表易于维护,并节省存储空空间,因为当维维结构作为为列包含在在内时,大大维表可能能非常大。。由于执行查查询需要更更多的连接操作,雪花模型型可能降低浏览的的性能。数据仓库库系统的性性能可能受受到影响。。在数据仓仓库设计中中,雪花模模式不如星星型模式使使用广泛。。该连锁商店店sales的雪花花模型在下下图给出。。这里,sales事实表与与上面的星星型模型相相同。两个个模式的主主要不同是是维表。星型模型中中的item的单个个维表在雪雪花模型中中被规范化化,导致新新的item表和supplier供供应商表。例如,,现在item维表表包含属性性item_key,item_name,,brand,,type和supplier_key,supplier_key连接接到supplier维表。。而supplier维表包包含信息supplier_key和和supplier_type。类似地,星星型模型中中location的单个维维表被规范范化成两个个表:新的location和city。新的location表中中的location_key现在连连接到city维。。根据需要要雪花模型型还可以进进一步规范范化。sales数据仓库库的雪花模模式timesalesitem时间维表事事实实表商商品维表time_key-----------time_keyitem_namedayitem_key-------item_keyday_of_the_weekunits_soldbrandmonthdollars_soldtype供应商维表表quarterlocation_keysupplier_type---supplier_keyyearbranch_key|(规范化))supplier_type||分店维表地点维表(规范化))branch_keylocation_keybranch_namestreet城市维表branch_typecity---------------city_keyprovince_or_statecountry从1980年代末的的初露头角角到1990年代末末的广泛应应用,以数数据挖掘为为核心的商业智能(BI)已经成为IT及其它它行业中的的一类新星星。当前数据挖挖掘应用主主要集中在在电信业(客户分析析),零售业(销售预测测),银行业(客户欺诈)),电力(客户呼叫)),生物(基因),天文(星体分类)),化工,医药等方面。当前数据挖掘掘能解决的典典型问题:·数据库库营销(DatabaseMarketing);·客户群群体划分(CustomerSegmentation&Classification);·背景分分析(ProfileAnalysis);;·交叉销销售(Cross-selling)等市场分分析行为。·客户流流失性分析(ChurnAnalysis);·客户信信用记分(CreditScoring);;·欺诈发发现(FraudDetection)等;;在许多领域得得到了成功的的应用。什么是数据挖挖掘?数据挖掘DM(DataMining)是从大量数据中中挖掘出隐含含的、先前未未知的、对决决策有潜在价价值的知识和和规则。这些规则蕴蕴含了数据库库中一组对象象之间的特定定关系,揭示示出一些有用用的信息,为为经营决策、、市场策划、、金融预测等等提供依据。。通过数据挖掘掘,有价值的的知识、规则则或高层次的的信息能就从从数据库的相相关数据集合合中抽取出来来,并从不同同角度显示,,从而使大型型数据库作为为一个丰富可可靠的资源为为知识管理服服务。数据挖掘在一些文献中中也有其他名名称,如数据据开采、知识识挖掘、知识识抽取、知识识考察等。数据挖掘是知知识发现KDD的一个关键步骤,它包括特定定的数据挖掘掘算法,具有有可接受的计计算效率,生生成特殊的模模式。KDD是利用数数据挖掘算法法,按指定方方式和阈值抽抽取有价值的的知识,包括括数据挖掘前前对数据的预预处理、抽样样及转换和数数据挖掘后对对知识的评价价解释过程。。数据挖掘的特特点所处理的数据据规模巨大。寻找决策所需需的信息。数据挖掘既要要发现潜在规规则,还要管管理和维护规规则。数据挖掘中规规则的发现主主要基于大样样本的统计规规律,发现的规则则不必适用于于所有数据,,当达到某一一阈值时便可认为有有此规律。数据挖掘的分分类根据所开采的的数据库类型型、发现的知知识类型、采采用的技术类类型,数据挖挖掘有不同的的分类方法。。(1)按数数据库类型分分类从关系数据库库中发现知识识;从面向对象数数据库中发现现知识;从多媒体数据据库、空间数数据库、历史史数据库、Web数据库库中发现知识识。(2)按挖掘的知识识类型分类按挖掘的知识识类型可分为关联规规则、特征规规则、分类规规则、偏差规规则、聚集规规则、判别式式规则及时序序规则等。按知识的抽象象层次可分为归纳知知识、原始级级知识、多层层次知识。一一个灵活的规规则挖掘系统统能够在多个个层次上发现现知识。(3)按利利用的技术类类型分类根据开采方法法分为自发知识识开采、数据据驱动开采、、查询驱动开开采和交互式式数据开采。。根据开采途径径分为基于归纳纳的开采、基基于模式的开开采、基于统统计和数学理理论的开采及及集成开采等等。(4)按挖挖掘的深度分分类在较浅的层次上,利用现有有数据库管理理系统的查询询/检索及报报表功能,与与多维分析、、统计分析方方法相结合,,进行OLAP,从而得出可可供决策参考考的统计分析析数据。在深层次上,从数据库库中发现前所所未知的、隐隐含的知识。。OLAP的出现早于数数据挖掘,两两者都是从数数据库中抽取取有用信息的的方法,就决决策支持的需需要而言两者者可以起到相相辅相承的作作用。OLAP可以作为为一种广义的的数据挖掘方方法,它旨在在简化和支持持联机分析,,而数据挖掘掘的目的是使使这一过程尽尽可能自动化化。数据挖掘有两两种功能:(1)预测/验证功能。用数据库的的若干已知字字段预测或验验证其他未知知字段值;(2)描述功能指找到描述数数据的可理解解模式。数据挖掘的对对象是某一专专业领域中积积累的数据;;挖掘过程是是一个人机交交互、多次反反复的过程;;挖掘的结果果要应用于该该专业。因此此数据挖掘的的整个过程都都离不开应用用领域的专业业知识。“BusinessFirst,techniquesecond”是是数据据挖掘掘的特特点。。因此此学习习数据据挖掘掘不意意味着着丢弃弃原有有专业业知识识和经经验。。相反反,有有其它它行业业背景景是从从事数数据挖挖掘的的一大大优势势。如有销销售,,财务务,机机械,,制造造,callcenter等工工作经经验的的,通通过学学习数数据挖挖掘,,可以以提升升个人人职业业层次次,在在不改改变原原专业业的情情况下下,从从原来来的事事务型型角色色向分分析型型角色色转变变。数据挖挖掘和和知识识发现现的联联系知识发发现KDD(knowledgediscovery)是指识识别出出存在在于数数据库库中有有效的的、新新颖的的、具具有潜潜在效效用的的、最最终可可理解解的、、模式式的、、非平平凡过过程。。KDD的整个个过程程包括括在指指定的的数据据库中中用数数据挖挖掘算算法提提取模模型,,以及及围绕绕数据据挖掘掘进行行的预预处理理和结结果表表达等等一系系列的的计算算步骤骤。尽尽管数数据挖挖掘是是整个个过程程的中中心,,但它它通常常只占占整个个过程程15%~~25%的的工作作量。。知识发发现是从数数据库库中发发现知知识的的全部部过程程,而而数据挖挖掘则是此此全过过程的的一个个特定定的关关键步步骤KDD的步步骤::1熟悉应应用领领域、、背景景知识识及用用户的的KDD任任务性性质;;2数据的的选择择:确定与与发现现任务务相关关的数数据集集合;;3数据清清理和和预处处理,,包括括除去去错误误和冗冗余数数据、、处理理丢失失数据据、更更新数数据和和时序序信息息并将将其准准备成成数据据挖掘掘工具具所需需的表表达式式;4数据缩缩减和和投影影,寻寻找依依赖于于发现现目标标的、、表达达数据据的有有用特特征,,通过降降低维维数和和数据据转换换以缩减减数据据规模模;降低数数据复复杂性性;5确定KDD目标标,选选择合合适的的算法法如聚聚集、、分类类、线线性回回归等等;6选择数数据挖挖掘算算法,,选择择适当当的模模型和和参数数;7执行数数据挖挖掘过过程,,发现现模式式并表表达成成易理理解的的形形式式如分分类规规则等等;8评价和和解释释发现现的模模式,,必要要时反反复执执行步步骤1到7;9将模式式提交交给用用户或或应用用到系系统中中。KDD整个个过程程是一一个以以知识识工作作者为为中心心、人人机交交互的的探索索过程程。1生生物医医学和和DNA数数据分分析的的数据据挖掘掘人类有有约10万万个基基因。。一个个基因因通常常由成成百个个核苷苷按一一定次次序组组织而而成。。核苷苷按不不同的的次序序和序序列可可以形形成不不同的的基因因,几几乎是是不计计其数数。具具有有挑战战性的的问题题是从从中找找出导导致各各种疾疾病的的特定基基因序序列模模式。由于在在数据据挖掘掘中己己经有有许多多有意意义的的序列列模式式分析析和相相似检检索技技术,,因此此数据据挖掘掘成为为DNA分分析中中的强强有力力工具具2针针对金金融数数据分分析的的数据据挖掘掘(1)为为银银行和和金融融数据据构造造其数数据仓仓库::多维维数据据分析析用于于分析析这些些数据据的一一般特特性。。例如如,人人们可可能希希望按按月,,按地地区,,按部部门,,以及及按其其他因因素,,查看看负债债和收收入的的变化化情况况,同同时希希望能能提供供最大大、最最小、、总和和、平平均和和其他他统计计信息息。数数据仓仓库,,数据据立方方体,,多特特征和和发现现驱动动数据据立方方体,,特征征和比比较分分析,,以及及孤立立点分分析等等,都都会在在金融融数据据分析析和挖挖掘中中发挥挥重要要作用用。(2)贷款偿偿还预预测和和客户户信用用政策策分析析:有很多多因素素会对对贷款款偿还还效能能和客客户信信用等等级计计算产产生不不同程程度的的影响响。数数据挖挖掘的的方法法,如如特征征选择择和属属性相相关性性计算算,有有助于于识别别重要要因素素,剔剔除非非相关关因素素。例例如,,与贷贷款偿偿还风风险相相关的的因素素包括括贷款款率,,贷款款期限限,负负债率率,收收入比比率,,客户户收入入水平平,受受教育育水平平,居居住地地区,,信用用历史史,等等等。。分析客客户偿偿还的的历史史信息息,可以以发现现,偿还与与收入入比率率可能能是主主导因因素,而受受教育育水平平和负负债率率则不不是。。银行行于是是可以以据此此调整整贷款款发放放政策策,以以便将将贷款款发放放给那那些以以前曾曾被拒拒绝,,但根根据关关键因因素分分析,,其基基本信信息显显示是是相对对低风风险的的申请请。(3)对目目标市市场客客户的的分类类与聚聚类:分类与与聚类类的方方法可可用于于用户户群体体的识识别和和目标标市场场分析析。例例如,,通过过多维维聚类类分析析,可可以将具有有相同同储蓄蓄和贷贷款偿偿还行行为的的客户户分为为一组组。有效效的聚聚类和和协同同过滤滤方法法有助助于识识别客客户组组,将将新客客户关关联到到适合合的客客户组组,以以及推推动目目标市市场。。(4)金金融融犯犯罪罪的的侦侦破破:把多多个个数数据据库库的的信信息息(如如银银行行交交易易数数据据库库、、联联邦邦或或州州的的犯犯罪罪历历史史数数据据库库等等)集集成成起起来来。。然然后后可可以以采采用用多多种种数数据据分分析析工工具具来来找找出出异异常常模模式式,,如如在在某某段段时时间间内内,,通通过过某某一一组组内内发发生生大大量量现现金金流流量量,,等等等等。。这这些些工工具具可可以以识识别别出出一一些些重重要要的的活活动动关关系系和和模模式式,,有有助助于于调调查查人人员员聚聚焦焦可可疑疑线线索索,,做做进进一一步步的的处处理理。。有有用用的的工工具具包包括括:数据据可可视视化化工工具具(用用图图形形方方式式按按时时间间和和一一定定人人群群显显示示交交易易活活动动);链接接分分析析工工具具(识识别别不不同同人人和和活活动动之之间间的的联联系系),,分类类工工具具(滤滤掉掉不不相相关关的的属属性性,,对对高高度度相相关关属属性性排排级级);;聚类类分分析析工工具具(将将不不同同案案例例分分组组);;孤立立点点分分析析工工具具(探探测测异异常常资资金金量量的的转转移移或或其其他他行行为为);;序列列模模式式分分析析工工具具(分分析析异异常常访访问问模模式式的的特特征征)。。在传传统统的的决决策策支支持持系系统统中中,,数数据据库库、、模模型型库库和和知知识识库库往往往往被被独独立立地地设设计计和和实实现现,,因因而而缺缺乏乏内内在在的的统统一一性性。。数据据仓仓库库、、联联机机分分析析和和数数据据挖挖掘掘组组成成的的新新的的决决策策支支持持系系统统构构架架解解决决了了决决策策支支持持系系统统数数据据库库内内数数据据的的不不一一致致问问题题。。由于内在在的统一一性,这这种新结结构很好好地解决决了相互互间的衔衔接问题题,实现现了设计计观念从从处理驱驱动到数数据驱动动的转变变;从而使信信息的使使用重点点将逐步步从支持持面向操操作层的的联机事事务处理理、中间间管理控控制层的的管理信信息系统统提高到数数据模式式分析,,高层的的决策支支持和分分析预测测上来。企业知识识管理的的成功案案例:SPSS在英英国电信信的应用用英国电信信面临问问题:为了从市市场营销销预算中中获得最最大的价价值,英英国电信信需要建建立模型型来确定定潜在客客户的购购买倾向向和他们们变为用用户之后后可能的的价值。。建立精确确的客户户特征以以后,英英国电信信打算开发针对对于特定定客户群群的产品品。预期结果果是:更好好的营销销活动回回应率,,增加产产品收入入,并取取得更大大的市场场份额。。英国电信信选用了了SPSS的数数据挖掘掘产品Clementine,来为为其“商商业高速速公路””活动分分析数据据和建立立探索模模型,““商业高高速公路路”的目目标为小小型商业业客户服服务。如今,英英国电信信更好地地了解了了这些客客户和他他们在电电信市场场的行为为特征。。英国电电信将继继续使用用Clementine快速速可视化化的建模模环境为为其未来来的营销销活动指指引道路路。结果:向向销售人人员和营营销活动动提供了了“最佳佳客户””清单直直邮活动动回应率率提高了了100%曾经是平平安无事事的电信信行业现现在已充充满了火火药味。。以前是垄垄断寡头头的英国国电信,,现在仍仍然是英英国本地地电话、、国内长长途、国国际长途途和数据据服务的的领导者者,年销销售额290亿亿美元,,但同时时也面临临着160家电电信公司司的竞争争。为保持其其原有客客户,获取新的的客户并并最大化化销售,英国电电信需要要准确知知道哪些些人在购购买它的的产品和和服务。。为了识别这些些客户,英国电电信设立立了客户户和营销销活动分分析小组组,由高高级咨询询师领导导,隶属属于商业业联系部部门。这个小组组的第一一个任务务是为英英国电信信的“商商业高速速公路””产品建建立客户户特征模模型,““商业高高速公路路”专门门服务于于一条线线有三个个电话号号码(一一个是标标准的,,两个是是数字的的)的小小型商业业客户。。1998年9月进行行了一次次直邮活活动和全全国媒体体宣传。。有关客户户、产品品、账单单和历史史数据分散在英国电电信的不不同部门门。分析小组组首先在在一个新新的数据集市市(具有某一一主题结结构的数数据仓库库)收集用于于数据库库营销的的数据。。数据准备备需要相相当多的的时间,因为数数据必须须从它们们所在的的系统中中抽取出来,然然后进行行匹配、清清理和排排序;此后,才才能用Clementine对这些些数据进进行分析析。用数据挖挖掘工具具发现隐含含的模式式。为对样本本数据进进行挖掘掘并从中中发现潜潜在的模模式和趋趋势,英英国电信信选择了了SPSS的高高速建模模环境Clementine-数据据挖掘工工具包。。因为它提提供了大大量的分分析方法法,如聚聚类、神神经网络络、关联联规则和和决策树树。Clementine也可以以轻松地地处理常常规数据据问题,,如异常常值、缺缺失值和和取值较较小的数数值。过程:分分析数据据并建立立模型。。分析小组组用Clementine进进行数据据分析和和试验建建模在数据分分析过程程中,分分析小组组用Clementine识识别出数数据质量量问题,,熟悉数数据和数数据分布布,排除除与购买买“商业业高速公公路”关关系不太太密切的的数据属属性。然后,对对和客户户购买产产品的倾倾向相关关的单个个数据属属性的预预示力度度进行测测量。如如,二位位区号,,作为地地理指示示器,清清楚地和和回应和和购买数数据相联联系。进行这些些分析以以后,分分析小组组用Clementine的的决策树树快速地地建立和和检验了了一系列列试验模模型。Clementine最大的的优势在在于在数数据挖掘掘过程中中不会遗遗漏信息息。Clementine可以快快速地试试验多种种想法,,排除不不合适的的,这样样就减少少了失败败造成的的费用。。可以在在几天内内建立很很多试验验模型。。英国电信信超越原原始目标标,并使使活动的的回应率率提高了了100%。向销售人人员和营营销活动动提供了了“最佳佳客户””清单““Clementine的主主要输出出结果是是对数据的的洞察察(数据据挖掘掘的全全部目目的所所在))和这这些洞洞察结果的的可视视化展展示;;提供给给销售售人员员和营营销活活动的的是客客户清清单和和图形形,并并表明明了为为什么么他们们应该该向这这些客客户推推荐商商业高高速公公路。。商业高高速公公路项项目的的成功功说明明了如如何在在商业业活动动中通通过数数据挖挖掘获获利。。有了了Clementine,先先前所所作的的探索索性数数据分分析和和可视视化使使英国国电信信可以以开发发出满意的的客户户选择择标准准。下一步步,分分析小小组计计划使使用Clementine识识别有有最大潜潜在利利润的的客户户和查询询了很很多但但不会会购买买的客客户。。未来来他们们或许许会尝尝试确确定客客户背背叛的的模式式。建模::投资资回报报成功地地建立立客户户特征征需要要商业业知识识、合合适的的数据据和合合适的的产品品。英英国电电信新新的建建模方方案使使之可可以在在产品品和活活动的的整个个生命命周期期中定定位目目标客客户,,确定定不断断变化化的市市场的的发展展趋势势并加加强在在不同同市场场领域域的渗渗透。。Clementine作作为SPSS的的数据据挖掘掘工作作平台台,将将为营营销活活动提提供快快速、、可靠靠的统统计分分析。。回报就就像英英国电电信的的商业业高速速公路路案例例所表表明的的:更好的的客户户和更更高的的销售售。知识不不同于于信息息,其其特征征在信信息要要经过学学习与价值认认知方能形形成知知识。。知识也也不同同于技技术,,技术是是产品品与服服务的的具体组成部部份,因此此仅属属于有有形知知识的的一部部份,,而知识还还包括括产品品与服服务的的抽象组成部部份,并作作为驱驱动技技术创创新与与产品品创新新的重重要基基础。。商务智智能--以零零售业业为例例参考深深圳圳索迪迪科技技有限限公司司夏夏华学学二○○○五年年十月月国内零零售行行业IT发发展的的现状状与趋趋势总体情情况和和趋势势根据相相关统统计资资料显显示,,当前前中国国零售售行业业百强强企业业均不不同程程度地地实施施了企企业信信息管管理系系统。。其中中,与与零售售行业业主营营业务务密切切相关关的MIS系统统(主主要有有:财财务管管理、POS系统统、物价管管理等)系系统应应用较较为广广泛。。还有有CRM、决决策支支持管管理系系统等正逐逐步成成为商商业企企业当当前信信息化化建设设的重重点和和热点点。商业零零售企企业领领导均均充分分认识识到企企业信信息化化建设设的重重要性性,并并积极极加大大对企企业信信息化化建设设的投投入,逐步步扩大大企业业信息息化建建设在在企业业发展展投资资中所所占的的比重重,但但受访访企业业没有有一家家对本本单位位信息息化现现状表表示““非常满满意”。国内零零售行行业IT发发展当当前面面临的的主要要问题题业务系系统相相互独独立现行各业务务系统统各自自独立立互不不协调调;从而而导致致很多多统计口口径和和统计计指标标在不不同的的系统统存在在各自自不同同的表表达,在统统计上上极易易造成成混乱乱。统计工工作重重复、、分散散部门间间的统统计报报表有有交叉叉,有有些同同名统统计指指标的的表达达不一一致。。并且且数据据分布布在不不同的的系统统中,,而业业务决决策部部门的的要求求往往往是全全面的的数据据统计计,致致使信信息中中心疲疲于奔奔命,,尚不不能满满足业业务决决策部部门的的统计计需要要。无法有效地地利用现有有数据一方面,业务决策部部门不能及时掌掌握全面的的业务信息息;另一方面,,信息中心完善了面向向于操作的的业务系统统,基本满满足业务操操作的需要要,积累了了大量的基基础业务数数据;但由于数据过于零零散而且分布在各个个独立的系系统中,造成虽然然有各种各各样的数据据但不能集成到到一起来满满足管理层层决策的需需要。何为商业智智能?说起商业智能,大家也许会想起啤酒与尿布的例子,其实那是商业智能在商品摆放分析方面的一个应用案例,商业智能是什么?狭义的解释:能够帮助用户对自身业务经营做出正确决策的工具。广义的说商业智能是集数据仓库技术、在线分析技术以及数据挖掘等于一体的经营分析以及决策支持的数据应用体系。商业智能的技术体系主要有数据仓库(DW)在线分析处理(OLAP)数据挖掘(DM)数据仓库是商业智能的基础,许多基本报表可以由此生成,但它更大的用处是作为进一步分析的数据源。所谓数据仓库(DW)就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。多维分析和数据挖掘是最常听到的例子,数据仓库能供给它们所需要的、整齐一致的数据。在线分析处理(OLAP)技术则帮助分析人员、管理人员从多种角度把从原始数据中转化出来、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。数据挖掘(DM)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。零售企业使使用商业智智能系统的的条件及意意义企业上商业业智能系统统的条件:用户面临激烈的市场竞争

用户的数据积累已达到一定规模用户在系统建设的资金能得到保障用户基础业务信息化建设已经完成数据积累面临激烈的市场竞争基础业务信息化建设已经完成资金零售企业上上马商业智智能系统的的条件及意意义企业上商业业智能系统统的意义::整合业务系统,提升企业管理水平建立企业数据中心

,挖掘企业信息价值建立企业综合查询以及决策支持中心统一数据定义统一处理要求统一系统指标POS系统MIS系统财务系统其他系统POS系统MIS系统财务系统其他系统商业智能系系统建设目目标建立企业数据中心建立企业绩绩效考核中中心建立企业综综合查询中中心建立企业决决策支持中中心数据整合数据应用数据应用数据应用商业智能系系统所产生生的效益短期效益系统建设的的短期效益益就是通过过对商品销售情情况库存情况采购情况成本情况费用情况等直接关系系到企业效效益的经营营业务数据据进行分析析,逐步优优化产品的的结构来提高商品销售金额、合理控制库库存降低库存成本、对费用进行行分析控制费用以及对现金流进行分析来来控制安全的的现金流。通过对以以上经营情情况进行分分析来提高销售、、降低成本本以实现提高企业的的经营效益和经营效率,增强企业业的竞争优优势的目的!商业智能系系统所产生生的效益通过对员工工的绩效、部门的计划完成情况、、用户的达成率等绩效的考考核控制,,逐步建立立一套完成成的企业绩绩效考核体体系,提升升企业经营营管理水平平,增强企企业的竞争争力。通过对商品品的销售趋势分析、商品结构变化分析以以及财务分析(如:成本本分析、现现金流分析析)建立一一套完整的的监控预警以及决策支持体体系,及时调整整企业经营营策略,增增强企业抗抗风险能力力。系统建设的的长期效益益主要体现现在如下两两个方面::长期效益商业智能系系统总体架架构商业智能系系统应用层层次体系第1层数据源各个部门的业务系统(业务数据与标准数据对照)第2层数据加工整理层数据抽取、数据清理、数据加工第3层数据中心层次数据存储、数据汇总第5层企业应用层面向企业的应用服务(报告、邮件)权限、角色第4层商业应用层数据建模、数据分析、报表生成、数据查询数据层企业应用层商业应用层商业智能系系统建设主主要存在的的风险尽管零售业业商业智能能受到全球球零售业的的关注,热热衷程度也也逐渐升高高。但是对对企业而言言,因为涉涉及的范围围及层级甚甚广,包括括信息息技技术术、投资资金金额额、业务务流流程程、资料料完完整整性性等,,项目目的的风风险险性性极极高高。综综观观国国外外,,仍仍然然不不乏乏有有成成功功案案例例;;反反观观国国内内,,零零售售业业者者对对于于商商业业智智能能的的信信息息技技术术与与解解决决方方案案尚尚属属萌萌芽芽阶阶段段。。零售售业业商商业业智智能能一般般包包括括::客户户关关系系管管理理、、商商店店经经营营管管理理、、商商品品组组合合、、商商品品推推广广、、财财务务分分析析与电子子商商务务等分分析析范范围围。。商业业智智能能系系统统建建设设风风险险控控制制在项项目目实实施施过过程程中中由由于于涉涉及及到到数数据据的的完完整整性性、、应应用用的的重重视视程程度度、、分分析析模模型型的的准准确确性性等等多多方方面面因因素素,,所所以以项项目目存存在在一一定定的的风风险险,,我我们们将将通通过过以以下下手手段段来来控控制制项项目目风风险险::充分分调调研研,,充充分分了了解解企企业业管管理理以以及及绩绩效效管管理理的的焦焦点点,,建建设设能能满满足足分分析析需需求求的的数数据据分分析析模模型型。。认真真了了解解业业务务系系统统,,充充分分把把握握业业务务系系统统数数据据,,提提高高数数据据的的准准确确性性和和完完整整性性。。企业业领领导导亲亲自自负负责责,,通通过过企企业业领领导导亲亲自自负负责责来来提提高高系系统统的的应应用用重重视视程程度度。。商业业智智能能系系统统主主要要分分析析手手段段及及分分析析方方法法分析方法可进行的分析对比分析同比分析(去年同期)、环比分析(上月同期)、基比分析(与报告期进行比较)、类比分析(同类商品进行对比分析)。结构分析分析商品大类销售结构、楼层结构、利润贡献主要构成情况、供应商主要构成情况等等,常见的分析主要有饼图分析、帕雷托图(ABC)分析相关分析主要分析商品的相关性,即商品之间的促进关系和竞争关系分析,常见于商品微观分析。统计分析对商品价格区间和销售区间等分析,主要对商品特征和消费群体的消费习惯进行分析。趋势分析及预测对商品的销售周期进行分析以及根据以往的销售数据预测未来的销售走势进度分析主要分析计划完成进度情况预警监控预警监控商品存货情况以及对租户的达成率等进行监控零售售行行业业商商业业智智能能主主要要功功能能模模块块POS系统

采购系统

财务系统

人事系统

其他系统数据字典、外部信息信息应用(门户、角色、权限)数据仓库数据加工销售模型库存模型价格分析毛利分析客流分析绩效模型经营分析成本分析应用模型零售售行行业业商商业业智智能能主主要要数数据据模模型型以商商业业销销售售数数据据为为分分析析对对象象,,分分析析商商业业销销售售情情况况,,商商品品类类型型的的销销售售结结构构、、广广场场分分布布结结构构、、供供货货商商销销售售毛毛利利贡贡献献排排行行情情况况、、品品种种毛毛利利贡贡献献情情况况、、销销售售金金额额增增长长趋趋势势、、销销售售毛毛利利增增长长趋趋势势、、销

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论