新圆计算机系统公司-数据仓库_第1页
新圆计算机系统公司-数据仓库_第2页
新圆计算机系统公司-数据仓库_第3页
新圆计算机系统公司-数据仓库_第4页
新圆计算机系统公司-数据仓库_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新圆计算机系统公司

---------------------数据仓库

议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据库的定义传统的数据库技术是以单一的数据资源为中心,同时进行从事务处理,批处理到决策分析的各类处理;特别是OLTP主要是为自动化,精简工作任务和高速数据采集服务的。它的运行是事务驱动,面向应用的,数据库的根本任务是完成数据操作,即及时安全地将当前事务所产生的记录保存下来。

数据仓库的产生随着计算机的全局应用和复杂分析的增加,人们已不满足与简单的数据操作,用于进行商务运转的大量数据可能是人们不大在意未加充分利用的东西。近而产生了使用现有的和自己长期积累生成的数据进行分析和推理,为决策提供依据的需求,从而导致了DSS和OLAP的产生。人们逐渐认识到计算机系统中存在着两类不同的处理:操作型处理(事务处理):主要是对一个或一组记录的查询和修改,这时候人们关心的是响应时间数据的安全性和完整性。和分析型处理(信息型处理):用于管理人员的决策分析,如DDS(decisionsupportsystem)、EIS、多维分析等。数据仓库的产生和定义随着时间的推移,人们开始对DB中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生;数据库由操作性环境发展成一种新的环境:t体系化环境,数据仓库则是体系化环境的核心。面向主题的、集成的、稳定的、用以支持经营管理中的决策制定过程的不同时间的数据集合。用于OLTP的数据库无法满足分析的需求缺乏组织性:无统一的时间标准,抽取算法和抽取级别又不相同,参考的外部数据的不同效率低下:操作数据难以转化成有用的信息。1。各公司个阶段都要积累大量的数据,但他们仅是一种处于原始状态的资源2为了提高性能,数据常被分散在各个子系统中,而各个子系统的应用又是千差万别、零散琐碎。3同时主题内容可能分散在多个应用中,同一应用在不同字段中可能存在着同名异义,异名同义、单位不同和字段不同等矛盾。用于OLTP的数据库无法满足分析的需求其他困扰着基于传统数据库的DDS问题。如DDS分析需要较长时间,而OLTP则要求尽快作出响应;进行一次大规模的分析,对OLTP的影响是难以忍受的。DDS常常需通过一端历史时期的数据来进行分析趋势,而数据库一般只存储短期数据,且各个领域的保存期限也千差万别,分析难以满足DDS的需要。数据DATA知识KNOWLEDGE决定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography财经的Financial经济的Economic政府Government销售分数Point-of-Sale人口统计学Demographic生活方式Lifestyle痛苦:太多数据,无法作出正确判断!为什么要建立数据仓库面向应用ApplicationOriented有限的集成LimitedIntegration经常的更新ConstantlyUpdated只有当前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性数据OperationalData信息性数据InformationalData操作性数据和信息性数据是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay财务记帐AccountHistory建立数据仓库从而获取正确信息分析发现Display,Analyze,Discover管理和自动操作ManageandAutomate转换TransformTemplates分发DistributeDATADATADATA仓库Store摘取Extract寻找并理解FindandUnderstandLogMetadata选取数据....获取信息....作出决定设计数据库的建立--------步向成功之路议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据库的特征数据仓库是面向主题的。每个主题基本对应于一个宏观的分析领域如政策、市场分析、价格趋势等数据仓库是集成的。在数据进入数据仓库之前,必然经过加工和集成,以统一原始数据中的所有矛盾,实现将原始数据从面向应用到面向主题的转变。数据仓库是稳定的。数据仓库反映的是历史数据的内容,而不是处理联机数据。古数据经集成进入数据仓库是极少或不更新的。数据仓库是时变的。它存储有大量的历史数据、当前数据和综合数据等,它处于永远的发展变化中。引起变化的因素有:新主题的引入、历史数据的不断积累、细节数据的综合存储及无用数据的清除。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品

数据仓库的建立和开发

数据仓库并不等同于数据库,数据仓库也有其自身开发的特点。创建一个数据仓库会有以下五方面的工作:1任务和环境的评估2需求的收集和分析3构造数据仓库4数据仓库技术的培训5回顾、总结及再发展1.任务和环境的评估

数据仓库是建立在原有运行系统之上的。因此要结合用户的现状,来明确数据仓库的目标任务。除了业务现状外,特别要搞清任务所面对的数据源所在系统和其中的数据的状况。通过对这些情况的评估,看建立数据仓库这个任务是否可行;所能建立的数据仓库是不是用户所期望的;在此有没有不可逾越的障碍。最好能确定评定将来数据仓库系统成功与否的基本原则。开展评估工作一定要有高层负责人参加,最好他就是将来使用数据仓库部门的负责人。这样从他这里就可以了解到全部的业务工作状况。他也最清楚今后的工作目标及对任务的期望,以及和竞争对手比较的差距。在评估工作开展过程中,他应当及时的提出问题,并检查、回顾工作的进展。在他的领导下要组成一个项目组,并有以下人员参加:项目总负责人,与数据仓库相关的所有业务单位的负责人,计算机软/硬件负责人,向数据仓库提供数据的数据库管理员以及网络方面的人员。项目组要进行项目定义,并首先按要求达到的目标初步确定数据仓库的主题。进一步说明这个主题的层次结构,及所涉及的相关业务处理。最好还能设立几个可量化的工作指标。除了业务工作外,还要对相关的信息技术状况进行评估:数据源的数据库类型,工作平台,数据量,数据的质量等;将要建立数据仓库的环境状况,以及所利用的网络技术状况。全部评估工作应有正规的文档记载,并交数据仓库负责人审定。

数据仓库是为支持决策服务的。故首先要看决策者(亦即领导)的需求,即现在最重要的工作目标是什么;怎样衡量这个目标的达到与否;现在是怎样获得决策支持信息的;和竞争对手比差距是什么。领导的决策总是由一批具体工作人员支持的,所以还应从他们这里收集具体的需求,并加以分析:对应前面所定的主题,现在利用什么信息或报表(最好有实例);这报表中还缺什么信息;这报表是如何制作出来的;有没有紧急、突发的决策信息要求,其内容是什么;还希望数据仓库为他们完成什么等。在此基础上确认:当前共同的业务问题是什么;希望开发怎样的功能来解决这些问题;由此定义好业务处理的规则;初步估计功能的规模和数据量;与此同时还要定义、理清业务和编程所需的代码。基于上述业务需求和分析即可开始制定系统的逻辑模型。此外,还要对在实现这些业务需求时,对信息技术的需求加以分析:每一个数据源的物理存储状况、运行平台、数据质量如何;确认硬件、网络和软件的限制条件;数据装载与更新的策略和问题;数据量和占用空间的估计;从信息技术看数据的质量有何问题等。最后,还有文档制作,其内容应包括:项目概述、差距分析、系统基本架构图示、逻辑模型、物理模型、数据仓库初始装载和更新的策略、数据仓库的运行计划、决策信息展现的希望和需求、数据仓库建成的时限。

2.需求的收集和分析3.构造数据仓库构造数据仓库包括了数据仓库的管理,数据仓库的组织和决策支持信息的展现三部分。

数据仓库的管理通过建立以下诸项内容实现之:设置和编写取用数据的程序;设置和编写数据转换程序;设置和编写数据更新程序;设置和编写运行的接口程序;建立这一阶段的所有管理用数据——Metadata;此阶段所有程序统一标准命名和建档。

数据仓库的组织包括了:规划数据仓库的初始装载;在数据仓库中建立所需的索引;除了数据表外,建立数据视窗(View);进行数据仓库及工作平台的安全检查;装入数据和应用功能;建立这一阶段的所有管理用数据——Metadata。4数据仓库技术的培训

数据仓库是支持其使用者进行决策的,建成数据仓库后要认真进行最终用户的培训。首先要向用户介绍数据仓库的全部情况,数据是向用户介绍的重点,数据内容,系统如何保障数据的质量、完整性和可靠性。假如数据仓库的管理员不是系统的开发者,那末该员亦属培训范围。培训内容是:数据仓库的逻辑和物理模型;从OLTP系统到数据仓库的数据流;全部的数据转换操作;所有Metadata的所在和内容,管理员对Metadata要有相当的熟悉程度才能胜任工作;数据装载和更新的策略;所有安全性问题及其测度;所有程序文档资料的管理等。5.回顾、总结再发展在数据仓库开发过程中要不断总结回顾哪些地方可以做得更好;业务部门对开发的支持是否到位;双方如何合作得更好。主题的范围选择是否恰当;有什么阶段成果;发布这些成果的反映如何;业务和开发部门分别有什么反映;公司层的领导是否看到了初步成果;、公司的其它部门是否可以利用数据仓库获得效益;有没有得到未曾期望过的效益。数据仓库的开发往往是从一个简明的急需主题开始,从中积累经验,并由此也可能会激发用户的新需求,然后不断扩大数据仓库的内容和规模。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据挖掘和知识发现数

掘(DataMining),

现(KnowledgeDiscoveryinDatabase,KDD),

信、

颖、

程。

程,

问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。

数据提取根据要求从数据库中提取相关的数据。

数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。

数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。

知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据挖掘能做什么?

-数据总结其目的是对数据进行浓缩,给出它的紧凑描述。分类其目的是学会一个分类函数或分类模型,该模型能把数据库的数据项映射到给定类别中的某一个。

聚类是把一组个体按照相似性归成若干类别,即"物以类聚"。

----关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买了牛奶"(面包+黄油牛奶)。还有时间或序列上的规律。前

术KDD在

速,

快。

行、

司、

业。

IBM和

作,

外,

售,

如Platinum、BO以

及IBM。

用在国内也受

视。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品

类:

具。

具特

案。

候,

据、

性,

化。

域,

具。

----特

强,

用;

强,

法,

据,

的,

高。通

具通

义,

法,

型,

式。

如,IBM公

司Almaden研

的QUEST系

统,SGI公

的MineSet系

统,

大SimonFraser大

的DBMiner系

统。

掘,

么、

择。

具:

1.QUESTQUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:

提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。为各种发现功能设计了相应的并行算法。2.

MineSetMineSet是由SG

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论