版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章
数据仓库系统的实施SQLServer2000数据仓库设计与使用其他一些公司的数据仓库实施战略数据仓库的投资回报分析1SQLServer2000的基本服务SQLServer2000关系数据库引擎:是一个流行的、具有高度可伸缩性和高度可靠性的数据存储引擎。该数据库引擎将数据存储在表中。每个表上都列出感兴趣的一些对象,每个表上的列表示由表建模的对象的属性,而表上的行则代表由表建模的这种对象的事例。应用程序可以将结构化查询语言(SQL)的语句提交给数据库引擎,后者将表格格式的结果集返回给应用程序。SQLServer支持的特定SQL语言称为Transact-SQL。应用程序还可以提交SQL语句或XPath查询,并请求数据库引擎以XML文档形式返回结果。关系数据库引擎具有高度的可伸缩性。SQLServer2000企业版可以支持多组数据库服务器相互协作,构成可供上千用户同时访问的TB大小的数据库。该引擎能够处理世界上任何Web站点的流量。该数据库引擎还能自我调节,自动在连接到数据库的用户增多时获取资源,并在用户注销后释放资源。2SQLServer2000的基本服务关系数据库引擎具有高可靠性。在数据库引擎的早期版本中要求停止和启动的管理操作现在可以在引擎运行当中执行,从而增加了可用性。数据库引擎与Windows2000和WindowsNT®故障转移群集的集成可定义虚拟服务器,即使节点中的一台物理服务器出现故障,这些虚拟服务器仍然保持运行。在适当的地方,日志传送可以用于维护热备用服务器。在故障发生的数分钟内,热备用服务器可以代替生产服务器运行。关系数据库引擎具有高度的安全性。登录身份验证可以与Windows身份验证集成在一起,这样,密码将不会存储在SQLServer中,也不会通过网络发送而被网络嗅探器读取。网站可以设置C2级审核,对所有访问数据库的用户进行审核,还可以使用安全套接字层(SSL)加密的办法,对所有在应用程序和数据库间传送的数据进行加密。3SQLServer2000的基本服务数据库引擎的分布式查询功能。可以访问所有可通过OLEDB访问的数据源中的数据。在Transact-SQL语句中,可以像引用实际驻留在SQLServer数据库中的表一样引用远程OLEDB数据源表。此外,全文检索功能可以对SQLServer数据库或Windows文件中存储的文本数据进行复杂的模式匹配。关系数据库引擎能够存储由顶层联机事务处理(OLTP)系统生成的所有事务的详细记录。该数据库引擎还可以支持最大的联机分析(OLAP)数据仓库中的事实数据表和维度表的严格处理要求。MicrosoftSQLServer2000AnalysisServices提供分析数据仓库和数据集市中存储的数据的工具。AnalysisServices以多维数据集的形式显示事实数据表和维度表中的数据,从多维数据集中可以分析趋势和其它对于规划今后工作非常重要的信息。在AnalysisServices多维数据集上处理OLAP查询比试图在OLTP数据库中记录的详细数据上进行同样的查询要快得多。4SQLServer2000的特性Internet集成:SQLServer2000数据库引擎提供完整的XML支持。它还具有构成最大的Web站点的数据存储组件所需的可伸缩性、可用性和安全功能。其程序设计模型与WindowsDNA构架集成,用以开发Web应用程序,并且还支持EnglishQuery和Microsoft搜索服务等功能,在Web应用程序中包含了用户友好的查询和强大的搜索功能。可伸缩性和可用性:同一个数据库引擎可以在不同的平台上使用。SQLServer2000企业版支持联合服务器、索引视图和大型内存支持等功能,使其得以升级到最大Web站点所需的性能级别。企业级数据库功能:SQLServer2000关系数据库引擎能充分保护数据完整性,同时将管理上千个并发修改数据库的用户的开销减到最小。其分布式查询得以引用来自不同数据源的数据,就好象这些数据是SQLServer2000数据库的一部分,同时分布式事务支持充分保护任何分布式数据更新的完整性。复制功能可维护多个数据复本,同时确保单独的数据复本保持同步。5SQLServer2000的特性易于安装、部署和使用:SQLServer2000中包括一系列管理和开发工具,这些工具可改进在多个站点上安装、部署、管理和使用SQLServer的过程。SQLServer2000还支持基于标准的、与WindowsDNA集成的程序设计模型,使SQLServer数据库和数据仓库的使用成为生成强大的可伸缩系统的无缝部分。这些功能可以快速交付SQLServer应用程序,使客户只需最少的安装和管理开销即可实现这些应用程序。数据仓库:SQLServer2000中包括析取和分析汇总数据以进行联机分析处理(OLAP)的工具。SQLServer中还包括一些工具,可用来直观地设计数据库并通过EnglishQuery来分析数据。6SQLServer2000组件关系图
7SQLServer2000数据仓库工具
工具描述关系数据库数据仓库设计、构造、维护的基础数据转换服务(DTS)用于向数据仓库加载数据数据复制用于分布式数据仓库数据分布和加载数据OLEDB提供应用程序与数据源的接口APIAnalysisServices用于采集和分析数据仓库中的数据EnglishQuery提供使用英语查询数据仓库MetaDataServices浏览数据仓库中的元数据PivotTable服务用于制定操作多维数据的客户端接口8关系型数据库关系型数据库是设计、构造、维护数据仓库的基础技术。MicrosoftSQLServer2000是一个关系型数据库管理系统,它提供了强大的数据库引擎和许多工具,这些工具不仅可以用于数据库的管理,而且可以用于数据仓库的管理,是数据仓库的技术基础。9数据转换服务(DTS)提供数据转换功能,例如数据引入、引出以及在SQLServer和任何OLEDB、ODBC或者文本文件之间转换数据。利用DTS,通过交互式地或按照规划自动地从多处异构数据源输入数据,这样便有可能在SQLServer上建立数据仓库和数据市场。数据的来源特性允许用户输入查询数据的输入时间、地点及其计算方法。数据的引入引出是通过以相同的格式读写数据,在应用程序之间交换数据的过程。一次转换是指在源数据被存储到目的地之前,对其进行的一系列操作。转换特性使得载引入引出中完成复杂数据的验证、清除等功能变得非常简单。定制转换对象可以被创建并集成进第三方产品中。DTS支持多步封装,其中大量文件能被单独处理,最终被集成为一个单一的文件。在目的地,该文件的记录能被系统分为多个记录,或相反,多个记录被集成为一个单一的记录。DTS也与微软的中心库集成在一起,微软数据中心库存储元数据、数据传送包和数据源特性,许多独立的软件经销商支持和共享这个元数据模型。数据转换服务可以在SQLServer间移动数据结构、数据、触发器、规则、默认、约束和用户定义的数据类型,只有数据结构和数据可以在不同的异构数据源中间传递。10数据复制制数据复制制:是一一种实现现数据分分布的方方法,就就是指把把一个系系统中的的数据通通过网络络分布到到另外一一个或者者多个地地理位置置不同的的系统中中,以适适应可伸伸缩组织织的需要要,减轻轻主服务务器的工工作负荷荷和提高高数据的的使用效效率。数据复制制的过程程类似于于报纸杂杂志的出出版过程程,即把把信息从从信息源源迅速传传送到信信息接受受处。出出版服务务器包含含了将要要复制的的数据所所在的数数据库,,该服务务器负责责制作将将要出版版的数据据,然后后将这些些出版的的数据的的所有变变化发送送到分布布服务器器中。订订阅服务务器是数数据复制制的目标标地,负负责接收收复制过过来的数数据,并并且负责责接收从从出版服服务器上上传送过过来的全全部变化化。分布布服务器器在出版版服务器器和订阅阅服务器器之间起起中介作作用。分分布服务务器负责责从出版版服务器器中接受受复制过过来的数数据,然然后在该该服务器器上的分分布数据据库中存存储这些些变化,,最后按按照指定定的时间间间隔推推向响应应的订阅阅服务器器。在复制过过程中,,把将要要复制的的数据称称为出版版物和文文章。文文章是复复制的基基本单元元,是组组成出版版物的最最小单位位。文章章与数据据库中的的表对应应。文章章既可以以对应一一个表中中的全部部数据,,也可以以指包括括表中的的一部分分数据。。出版物物是一个个完整的的将要复复制的内内容,它它包括一一篇或多多篇文章章,是订订阅服务务器订阅阅的对象象。11OLEDBOLEDB式式微软开开发的数数据访问问编程界界面。微微软已经经定位OLEDB是是ODBC继承承者,ODBC主要用用于处理理关系型型数据。。ODBC是基基于SQL的,,它可以以很好的的用于关关系型数数据库访访问,但但是它不不能用于于非关系系型数据据源。象象ODBC一样样,OLEDB也提提供对关关系型数数据的访访问,但但是OLEDB扩展展了由ODBC提供的的功能。。OLEDB的的设计目目的是用用于所有有数据类类型的标标准界面面。除了了关系型型数据库库的访问问,OLEDB提供供对各种种各样数数据源的的访问,,包括Excel电子子表格的的数据,,dBase的的ISAM文件件、电子子邮件、、新的NT的ActiveDirectory和IBM的DB2数数据。使使用OLEDB,用用一个界界面就可可以访问问许多不不同的数数据源。。OLEDB是是微软的的数据访访问策略略,称为为万能数数据访问问的基础础。万能能数据访访问指的的是一组组通用界界面,它它用来表表示来自自任何数数据源的的数据。。OLEDB是使万万能访问问成为现现实的技技术。万万能数据据访问和和OLEDB的另一一方面是是所有的的对象都都应该在在数据库库中维护护,不是是企图把把商业要要求的不不同的数数据移动动到一个个面向对对象的数数据库中中。OLEDB创建建和理解解企业数数据并且且在各种种数据源源中维护护。12AnalysisServices在数据仓仓库或者者数据市市场中的的信息可可OLAP处理理,OLAP可可以有效效的以维维度和度度量组成成的立方方体方式式察看数数据。维维度是一一种描述述性分类类,例如如,维度度可能是是地理位位置,也也可能是是产品类类型。度度量是一一种定量量数值,,例如销销售额、、库存量量或者总总费用。。来自于于原始数数据源的的合计存存储在每每一个立立方体单单元中,,这种组组织数据据的方法法可以轻轻易得过过滤数据据、有效效的加快快数据的的查询。。然而,,存在着着这种问问题:虽虽然OLAP合合计是在在数据仓仓库中可可以达到到的查询询性能的的关键因因素,但但是存储储这些合合计数据据的成本本是磁盘盘存储量量。事实实上,合合计数据据量可以以轻易的的超过原原有的数数据量。。另外,,当维度度和合计计量提高高时,所所要求的的OLAP数据据存储量量也大大大的提高高。这种种对存储储量的极极大要求求一般称称为数据据爆炸。。OLAP描述述的是一一种多维维数据服服务,这这种服务务的设计计目的是是保证分分析员、、经理和和决策者者针对特特定的问问题,通通过快速速、一致致、交互互式的实实时数据据访问和和分析。。13AnalysisServicesMOLAP:多多维型OLAP在一个个用于压压缩索引引的永久久数据存存储中存存储维度度数据和和实时数数据。合合计存储储用来加加快数据据访问。。MOLAP查查询引擎擎是专有有的,而而且优化化成由MOLAP数据据存储使使用的存存储格式式。MOLAP提供了了比ROLAP更快的的查询处处理速度度,并且且要求更更少的存存储空间间。然而而,它不不能较好好的伸缩缩,并且且要求使使用单独独的数据据库来存存储。ROLAP:关关系型OLAP在关系系型数据据表中存存储合计计。ROLAP针对关关系型数数据库的的应用允允许其利利用已有有的数据据库资源源,并且且允许ROLAP应用用程序很很好的伸伸缩。然然而,ROLAP使用用表存储储合计则则要求比比MOLAP更更多的磁磁盘空间间,速度度相对比比较慢。。HOLAP:正正如其名名称所示示,混合合型OLAP介介于MOLAP和ROLAP之间。。象ROLAP一样,,HOLAP将将主数据据存储在在源数据据库中。。象MOLAP一样,,HOLAP把把合计存存储在一一个永久久性数据据存储的的地方,,它与主主关系数数据库分分开。这这种混合合形式使使HOLAP可可以具备备MOLAP和和ROLAP两两者的优优点。。14EnglishQuery微软的英英语查询询环境允允许设计计者将他他们的关关系数据据库转移移到英语语查询上上来,这这给最终终用户提提供了使使用英语语提出问问题而不不是用SQL语语言进行行查询的的能力。。EnglishQuery服务务是利用用英语查查询域编编辑器创创建的,,提供了了数据库库的有关关信息,,从而使使EnglishQuery可用用于处理理关于特特殊表、、域和数数据的英英语问题题。15MetaDataServices在MicrosoftSQLServer2000中,,许多工工具把元元数据存存储在位位于msdb系系统数据据库中的的集中式式中心仓仓库中。。这里提提到的元元数据是是指数据据的数据据,MetaDataServices提供供浏览这这些元数数据的功功能。数数据中心心库提供供了一个个通用的的位置::可以用用来存放放对象和和对象之之间的关关系。通通过使用用一些软软件工具具,可以以描述面面向对象象的信息息:软件件工具使使用各类类对象组组成的信信息。对对象接口口界面,,界面由由属性、、方法和和集合组组成,集集合包含含了对其其他界面面的关系系,以及及关联对对象。16PivotTable服务PivotTable服务和和AnalysisServices一一起为用用户提供供客户端端对OLAP数数据的存存取。PivotTable服务运运行于客客户端工工作站上上,它使使得可以以利用VisualBasic或其其他语言言来开发发用户程程序,这这些程序序可以利利用OLEDB技术术,并使使用AnalysisServices中的OLAP数据或或直接取取自关系系数据库库的数据据。当它它和OLAP服服务一起起使用时时,PivotTable服服务可以以自动将将进程或或缓冲内内存分配配到最合合适的位位置,并并且允许许多个客客户动态态存取同同一个立立方体。。PivotTable服务务业能在在本地客客户机上上存储数数据,从从而使用用户可以以在不连连接AnalysisServices的情况况下对数数据进行行分析。。这种移移动式的的解决方方案允许许分析者者将数据据带回家家或在途途中进行行分析。。为最终终用户提提供的OLAP数据分分析和描描述工具具可以利利用PivotTable服服务进行行开发。。PivotTable服务务也提供供了开放放的界面面,独立立的软件件销售商商可以利利用它来来开发第第三方应应用的产产品。17数据仓库库的实现现步骤明确用户户需求设计和建建立数据据仓库使用数据据仓库维护和优优化数据据仓库18数据仓库库生命周周期管理理数据仓库库系统框框架影响数据据仓库项项目成功功的因素素数据仓库库的技术术数据仓库库项目所所需的角角色19数据仓库库系统框框架基本特点点拥有为项项目作出出技术决决策的观观察点拥有确定定项目是是否能够够完成的的计量参参照点拥有以灵灵活方式式运用现现有知识识的能力力分部分、、分阶段段依靠多多个工作作小组协协调完成成四个阶段段设想阶段段规划阶段段开发阶段段稳定阶段段20影响数据仓仓库项目成成功的因素素数据仓库创创建前的影影响因素管理层的信信任从管理项目目开始:面面向主题交流实现目目标任命一个面面向用户的的项目经理理数据仓库创创建时的影影响因素采用成熟的的技术注重查询而而不是注重重事务只加载所需需数据定义合适的的数据源::元数据映映射明确定义主主题数据仓库创创建后的影影响因素面向决策的的使用者的的信任21数据仓库的的技术管理大量的的数据管理多介质质索引和监视视数据多种技术的的接口对数据存放放位置的控控制数据的并行行存储和管管理元数据管理理技术语言接口数据的高效效装入高效索引的的利用技术术数据压缩技技术复合键码技技术变长数据锁管理切换换技术快速恢复技技术其他技术::事务集成成性、高速速缓存、行行/页级锁锁定、引用用完整性、、 数据据视图等22数据仓库项项目所需的的角色管理角色项目主管项目经理技术角色数据提供专专家体系结构设设计者数据库管理理员数据迁移专专家数据转换专专家数据集市开开发的领导导人质量保证/测试专家家维护角色内行的用户户培训教师技术文档编编写人员工具专家销售商联系系人23创建数据仓仓库向导24创建数据仓仓库向导25创建数据仓仓库向导26创建数据仓仓库向导27完成创建数数据仓库28创建事实维维度表29创建事实维维度表30属性选项卡卡31属性选项卡卡32创建数据库库关系图向向导33关系图34多维数据集集向导35多维数据集集36多维数据集集37数据仓库软软件市场1993~1998平均年增增23.9%,达达22亿美美元。数据值入工工具:从数数据库中提提取数据,,转换为数数据仓库格格式并送入入数据仓库库中。数据过滤工工具:对数数据仓库中中的数据进进行存放和和管理。数据存取工工具:让用用户存取数数据仓库中中的数据。。数据仓库市市场划分软件总市场场69493-124166@12。3%数据存取663-1258@13.7%第三代语言言/公用程程序3061-6019@14.5%CASE1751-3085@12.5%DBMS5801-11680%15.0%其它市场58163-102124@11.9%数据存取663-1258@13.7%数据提取/转换31-232@49.3%数据管理59-708@64.3%数据仓库753-2198@23.9%数据复制14-319@87.1%注:***-***@***%指1993年-1998年销售额(M$)@年递增率38(1)动态可伸缩缩的数据库库系统(DSA)存放大量数数据:几几个GB到到几个TBPDQ(并并行数据查查询)技术术:实现数据查查询、索引引扫描。索引建立、、数据修改改、备份恢复等数据据库操作的的并发处理理支持所有开开放系统硬硬件环境:单CPUSMP(对对称多处理理器)Cluster(松松耦合群体体系统)MPP(大大规模并行行系统)批处理操作数据事务处理操作数据外部数据数据仓库管理软件开放系统平台元数据目标数据库库数据存取工具INFORMIX-ONLINE动态服务器器INFORMIX的的数据仓库战战略39SybaseWarehouseWorks体系系结构(1)C/S环环境下的数数据仓库框框架联机事务处处理子系统部门数据部门数据局部仓库局部仓库中央仓库个人使用个人使用决策支持数据分布的的灵活性要要求(2)Sybase支持数数据分布的的方法EnterpriseCONNECT互操操作体系结结构:并并发方法、、异构数据据分布、信信息打包ReplicationServer的基基于事件的的事件捕捉捉功能基于时间调调度方式的的批时间拷拷贝方案(3)高高速的时间间访问NavigationServer(导航航服务器)SQLServer中增加加interactionQuery(IQ)Accelerator进行行随机高速速查询SybaseOmniSQLServer提供供时间访问问透明性推荐荐125种种无无缝缝存存取取数数据据的的工工具具40ORACLE的的数数据据仓仓库库实实施施战战略略决策策支支持持应应用用系系统统OracleApplicationsDataWarehouse外部部数数据据源源析析取取、、转转换换、、装装载载工工具具数据据仓仓库库管管理理工工具具数据据分分析析工工具具数据据集集成成工工具具数据据挖挖掘掘并并将将数数据据切切换换到到用用户户自自定定义义的的视视图图中中数据据挖挖掘掘数据据切切换换多维维视视图图41ORACLE的的数数据据仓仓库库实实施施战战略略针对对多多维维数数据据的的扩扩展展Oracle7扩扩展展Oracle7SpatialDataOption管理理多多维维数数据据或或时时空空数数据据多维维数数据据的的编编码码:HHCODE标标准准多达达32维维的的数数据据综综合合无索索引引通过过数数据据分分割割优优化化VLDB多种种查查询询方方式式:行行方方式式、、近近似似方方式式、、自自定定义义多多角角度度方方式式数据据过过滤滤器器数据据转转换换工工具具集集数据据管管理理工工具具集集42数据据仓仓库库投投资资回回报报分分析析DW技技术术投投资资的的收收益益加拿拿大大IDC公司司对对62家家公公司司调调查查收益益巨巨大大DW的特特点点((BillInmon))::数据据按按主主题题组组织织,,有有利利于于宏宏观观分分析析、、决决策策分分析析数据据是是集集成成的的,,无无需需再再转转换换数据据是是稳稳定定的的,,便便于于查查询询信息息是是面面向向时时间间的的,,是是一一定定期期限限时时间间的的快快照照43DW投资资回回报报巨巨大大的的原原因因DW中的的协协同同数数据据能能够够使使管管理理者者了了解解完完整整的的商商业业过过程程、、制制定定决决策策维护护费费用用比比DSS低低软件件、、硬硬件件、、存存储储费费用用低低减少少白白领领工工人人为决决策策者者提提供供崭崭新新视视角角,,发发现现规规律律,,从从正正确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上饶市铅山县2025-2026学年第二学期四年级语文第八单元测试卷(部编版含答案)
- 齐齐哈尔市建华区2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 手风琴装配工操作规程竞赛考核试卷含答案
- 综合能源服务员风险识别强化考核试卷含答案
- 废矿物油再生处置工班组建设水平考核试卷含答案
- 陇南地区成县2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 淄博市沂源县2025-2026学年第二学期三年级语文期末考试卷(部编版含答案)
- 张家口市涿鹿县2025-2026学年第二学期四年级语文期末考试卷(部编版含答案)
- 宜宾市宜宾县2025-2026学年第二学期三年级语文第七单元测试卷(部编版含答案)
- 孝感市安陆市2025-2026学年第二学期五年级语文第七单元测试卷(部编版含答案)
- 4.1 分松果(1)(课件)-2025-2026学年三年级下册数学北师大版
- 2025版CNAS实验室认可质量体系文件改版要求与建议附CNAS-CL01-G001新旧版条款对照表(可编辑!)
- (二模)遵义市2026届高三年级第二次适应性考试英语试卷(含标准答案解析)
- 银行薪酬审计实施方案
- 灌云国盈新能源科技有限公司新能源压块生产项目环评
- 零基础花艺课程
- 肌肉注射讲课课件
- 2025年中级银行从业资格之《中级个人理财》题库及完整答案详解
- 国开2025年《社会教育及管理》形考作业1-3终考答案
- 食品销售安全知识培训课件
- 住院患者皮肤的评估护理
评论
0/150
提交评论