版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SAS数据仓库与数据挖掘-从业务数数据中提炼决决策支持信息息的解决方案案目 录SAS研究所和和SAS系统1利用SAS技术术建立你的数数据仓库2SAS数据仓库库的组成4SAS数据仓库库的体系结构构6SAS数据仓库库的开发9SAS的数据仓仓库产品-SSAS/WAA12SAS帮助你进进行数据挖掘掘15SAS的数据挖挖掘的方法论论-SEMMMA17SAS数据挖掘掘的集成软件件工具-SAAS/EM(Enterrprisee Mineer)21决策支持智能化化24企业级的报表制制作工具-SSAS/ERR+SAS/MDDB+SAS/IIntrNeet27在网上展开SAAS功能31SAS研究所和和SAS系统S
2、AS系统是用用于严肃数据据分析和决策策支持的大型型集成式模块块化软件包。六六十年代末到到八十年代初初以统计分析析及线性数学学模型为主,并并以此闻名于于世。故其早早期名为“Statiisticaal Anaalysiss Systtem”。“SAS”即成为SASS软件研究所所(SAS Instiitute Inc.)产产品的总商标标。SAS软件研究究所跨国公司司成立于19976年,总总部设在美国国北卡州凯瑞瑞市(Carry Norrth Caarolinna)。SAS保持了了20年连续不不断的两位数数的业务收入入增长率,现现已是全球最最大的私人软软件公司和全全球排名第九九位的独立软软件商。缘其其
3、是私人独立立软件商,免免受股市和公公众股东资本本的操纵和影影响,按自主主意志把收益益的很大部分分再投入于研研究和发展,使使其研发投资资比重一直保保持了全球软软件业的领先先地位。凭借借这一技术优优势,遍布世世界的45000多名SAS员工为为120多个国国家的三百五五十多万SAAS用户提供供了行业公誉誉的高质量技技术服务和支支持。面对当今竞争日日趋激烈、瞬瞬息万变的世世界市场经济济,从国家机机关到企业界界的各类人员员都要面对各各种机遇迅速速作出抉择。计计算机系统支支持人们能做做出迅即反应应业务处理的的能力已满足足不了当今的的需求,要信信息技术对各各个层次和各各种类型决策策进行支持已已是IT行业发展
4、展必然趋势。SAS以其具有前瞻性的技术开拓,在决策支持工具数据仓库和数据挖掘(Data Warehouse与Data Mining)方面已连年被评为“年度最佳产品”、“最佳决策支持工具”。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100家公司”之一及“最佳决策支持工具的供应商”。Interneet已成为世世界信息的通通衢大道,IIntrannet也已成成为先进企业业的信息经脉脉。SAS技术也也与之有着同同步的发展。SAS的IntrNet产品使全部的SAS技术最大限度的实现了Web-Enable。这使得SAS原来跨多平台应用的开放机制扩展到了网络计算环境和网际应用。这不仅使SAS使用更
5、加方便,而且使那些以Thin-client运行的系统在使用SAS时节省了投资,并减少了系统维护的工作量。在这里将按下面面五个脉络向向你系统的介介绍SAS技术:SAS世界领先先的数据仓库库技术SAS获最佳决决策支持工具具褒奖的数据据挖掘技术SAS的业务智智能化技术SAS的企业级级报表制作工具具SAS的Webb-Enabblemennt你可以通过htttp:/www.ssas.coom/查到SAS研究所所最新的技术术信息。你还还可以通过美美国SAS研究所所设立在北京京(Tel:010-662351228(0-3),上上海(Tell:021-635822288)和和广州(Teel:0200-8755
6、54490)的的办事处得到到直接的咨询询和技术支持持。利用SAS技术术建立你的数数据仓库由于使用SASS系统成功地地建立了许多多卓有成效的的数据仓库,SAS系统的数据仓库产品已连续两年(1996-1997)被美国著名的“Datamation”评为“当年度最佳产品”。销售额也占据了SAS产品的首位。98年又在DCI全球数据仓库大会荣获“Excellence in Business Information”大奖。正象数据仓库虽然是个较新的词语,但它是计算机技术发展的必然结果一样;SAS获此殊荣也非一日之功,正是它顺合计算机技术发展规律的渊源所致。为什么在有了这这么多数据库库产品之后,人人们又要用数
7、数据仓库技术术。业界的各各路诸侯又如如此趋之若骛骛。这正是计计算机技术应应用需求的推推动。当年数数据库技术大大发展的过程程是伴随着OOLTP(On Linne Traansacttion PProcesss联机业务务处理)应用用需求的推动动。联机业务务处理最迫切切的技术要求求就是快速响响应。数据库库技术,特别别是基于E. F. CCodd提出出的关系理论论的数据库的的技术,将数数据集分成了了甚少冗余的的实体(Enntity),然然后又将它们们按一定的关关系(Rellationnship)编编织成一个有有机的整体,比比较完美地满满足了OLTTP的应用需需求。对于每每个业务处理理最好只须涉涉及一个
8、实体体,业务处理理对于实体的的Add或Updatte也只涉及及数据媒体的的可能最小的的空间(如记记录级封锁技技术),对于于其它实体的的相关更新通通过关系保持持了一致性和和完整性。这这个切合当时时OLTP应用用实际需求的的理论和技术术的成功,推推动了关系数数据库产品风风靡世界。象计算机技术的的迅速发展一一样,激烈竞竞争的市场也也激发了各行行各业对计算算机应用的更更多样的需求求。计算机用用户早已不满满足于计算机机能帮助他迅迅速地处理具具体业务,他他们要从这大大量业务数据据中探索业务务活动的规律律性,市场的的运作趋势,并并从中为他们们参与市场竞竞争作出重要要的决策。由此而来产生了了对DSS(Deci
9、ssion SSupporrt Sysstem)决策支持持系统的需求求。支持决策策就要进行数数据,信息的的分析,这就就产生了OLLAP(On Liine Annalysiis Proocess)联联机数据分析析处理的需要要。决策支持持所依据的数数据从哪里来来,当然是成成功运行着的的业务处理数数据库中的数数据。所以最最早的决策支支持所进行的的数据处理就就是直接使用用数据库中的的数据。可称称之为ROLLAP,即利利用关系数据据库的数据进进行联机分析析处理。SAAS系统早就就具有最强有有力的数据分分析处理能力力,再加上SSAS的SAS/AACCESSS对几乎所有有数据库和数数据文件的强强大的读取能能
10、力,以及SSAS跨多平平台的运作能能力,SASS系统就成了了最完善的RROLAP工工具。当ROLAP只只使用很少的的关系数据库库表时,这一一操作是可行行的。这种操操作往往是针针对局部性问问题进行的决决策支持数据据分析。但面面对市场的决决策往往是涉涉及整个企业业范畴的数据据和信息。这这就要同时启启动大量的数数据库表,并并且要将众多多表中的数据据按一定的规规律拟合起来来,形成恰好好针对所支持持决策问题的的数据内容。这这样一个过程程或许是十分分复杂,且耗耗费大量资源源。或许企业业的数据是分分布在若干个个系统中的,这这样的数据整整合过程几乎乎是难以完成成的。除此之外,在一一个数据库表表中的每一条条记录
11、也并不不是某项决策策都需要的,这这要按决策支支持的需要编编制专用的数数据筛选程序序。再者,联联机业务处理理系统中的数数据有一个特特性:即每一一条记录都有有产生,反复复的变更、修修改,直至数数据记录不再再变化的过程程,称之为“数据到位”。例如:一一个物料在一一个工厂中产产生了,联机机业务处理系系统中就要添添加一条相应应的记录;这这个物料不断断地进行加工工,就要在它它的记录中记记入加工的参参数;当这个个物料加工成成产品,被发发货出厂,就就要再登录这这些出厂信息息,此后,记记录其生产过过程的数据就就再也不能修修改了。如果果要进行产品品生产周期的的分析,就只只使用发货出出厂后的那些些物料的数据据,而不
12、能使使用同一表中中的正在加工工的物料的数数据。由此可见,直接接使用联机业业务处理系统统中的数据进进行决策支持持数据的分析析处理是会产产生许多麻烦烦的,甚至是是实现不了的的。这时候,人人们就会问为为什么系统中中有我需要的的数据,而我我却无法运用用呢!这不是是说关系数据据库不好,而而是老产品遇遇到了新任务务。E-R型的数数据结构能完完美地执行联联机业务处理理,但不适应应较大规模的的决策支持数数据分析,尤尤其不适应企企业级的决策策支持数据分分析处理的需需要。适应这这一需求,应应运而生的就就是数据仓库库技术。在W.H.Innmon所著著“Buildding tthe Daata Waarehouuse
13、”一书中给出出了数据仓库库的定义:“数据仓库是是面向主题的的、整合的、稳稳定的,并且且时变的收集集数据以支持持管理决策的的一种数据结结构形式。”这一定义指指出了数据仓仓库和事务处处理系统之间间的主要差异异。数据仓库库的目标是为为了制定管理理的决策提供供支持信息,这这显著的与OOLTP系统统的快速响应应需要不同。正正象企业为了了发展要进行行业务重组一一样,为了支支持管理决策策需要也要按按决策业务科科目的要求重重组OLTPP系统中的数数据,并要按按不同决策,分分析内容分别别组织使之方方便使用。这这种基于主题题的模式从用用户角度来看看就是多重的的数据重组结结构。在把数据装载到到数据结构重重组后的数据
14、据仓库之前,先先要进行数据据转换,或称称“整合”处理。这一一处理包括几几个必不可少少的操作步骤骤,做到使数数据完整、统统一,这就确确保了在使用用数据仓库时时其中的数据据是有质量保保证的,对此此后文有详述述。简而言之之,整合就是是保证数据准准确,到位,没没有超出应有有的数值范围围,没有重复复等。数据仓仓库中的数据据不象事务处处理系统中的的数据那样频频繁的修改,所所以它是比较较稳定的(不不必实时修改改)。在一次次数据分析的的执行过程中中使用的数据据不得变更,这这才能保证两两次在使用同同一组信息进进行分析时不不会得出不同同的答案。数数据仓库一般般是按周、月月或隔月从OOLTP系统统周期性的批批次更新
15、数据据。由于具有有数据的时段段稳定性,对对数据仓库来来说就可以减减少许多传统统RDBMSS必须的资源源消耗,如:记录的锁机机制、参照完完整性的检查查、数据操作作的日志、以以及检查点/回退(Rolll bacck)等。和OLTP的“实际事件”相比,SASS数据仓库的的数据组织可可呈多维时间间段结构(时时变的例如:19997年各个月月份的销售数数据),这一一数据结构供供进行某一时时间段众多事事件的定量分分析用,并产产生相应的结结论。从本质质上说,数据据仓库的目标标是从联机业业务处理系统统中筛选出某某项决策所需需的支持数据据,再在分析析处理过程中中得出进行决决策时有用的的信息。供分分析使用的这这种时
16、变数据据亦可预先归归纳出若干层层次的汇总数数据以利决策策支持使用,这这样,在常规规决策操作时时就不必临时时进行基础数数据的汇总处处理了。SAS系统提供供的数据仓库库模型是包括括了数据仓库库管理、组织织和信息展现现的整体解决决方案。这是是由一族有机机组合产品构构成的阵容强强大的模型。在在下图中表示示了SAS数据仓仓库的模型。总之,数据仓库库是当今社会会的人们参与与市场竞争等等各项活动,要要进行决策时时的最适合的的数据结构形形式。是适应应企业重组(Re-Engineering)时,进行企业数据、信息重组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大
17、潮。SAS数据仓库库的组成提醒您:在购买买数据仓库产产品时注意其其必不可少的的技术环节数据仓库是适应应决策支持系系统的需要而而产生的,所所以人们希望望所采用的软软件产品能支支持决策过程程的全部工作作内容。SAAS的数据仓仓库技术就是是可以支持决决策全过程的的整体解决方方案。包括:从任何业务处理理系统或数据据源中取出决决策所需数据据对源数据进行清清理和整合按计划或规则进进行数据仓库库的装载和更更新按支持决策的需需要,以多种种形式进行数数据和信息的的组织最丰富的决策数数据分析处理理能力灵活多样的结果果展现方式如果您想建立决决策支持系统统的话,您就就应当检查您您所采用的软软件工具是否否具备上述全全面
18、的能力。SAS系统的数数据存取能力力从早期的SASS技术来看,它它就是一个十十分通用,且且又十分开放放的软件产品品。唯有这样样SAS才会在在如此广泛的的各种不同类类型计算机系系统平台和各各种各样的环环境中得到充充分的运用。SAS有一个SAS/ACCESS产品,利用它可对众多不同格式的数据进行查询、访问和分析。SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ACCESS可建立对应外部异构数据的一个统一的共用数据界面。所提供的与外部数据的接口是透明和动态的。用户可不必将数据真的读到SAS系统中来,而只需在SAS系统中建立对外部数据的描述(亦即所谓View),便可把
19、这些外部数据当作真正存储在SAS系统中的数据集一样使用。这时,用户即可使用这些数据进行所谓ROLAP式的数据分析和决策工作。对一些经常反复使用的外部数据,亦可利用SAS/ACCESS将其真正提取放入SAS系统中,并进一步经过整理放进数据仓库。SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加载到外部数据载体中去。这使数据仓库系统和原有的运行数据体系更加沟通。目前SAS/ACCESS支持的数据库主要有:DB2,Oracle,Sybase,Rdb,CA-Ingres,CA-Datacom,Informix,ADABAS,NCR-Terada
20、ta,AS/400.等数据库。SAS/ACCESS还能支持一些老的数据文件系统,如有名的IBM/VSAM等。通过ODBC使SAS系统和更广泛的开放型数据库建立了沟通。另外,通过SAS编程中的DATA STEP可与任何知道其结构的数据进行联结。在数据仓库的宣宣传中曾报道道用一个数据据库产品作数数据仓库使用用。但这个数数据库对原有有数据载体没没有存取能力力,就又买了了第三方的软软件作为它们们取出数据的的工具。这种种选择显然是是不妥当的。SAS与众多软软/硬件厂商长长期友好合作作所形成的跨跨平台的数据据存取能力决决非一日之功功。数据的清理和整整合在SAS的数据据仓库系统中中有专门的机机制进行引入入数
21、据的检查查、核对和将将不同来源数数据进行整合合的技术环节节。在一个企企业或其它大大型的组织中中,各种数据据可能有不同同的类型,格格式可能也不不尽统一,在在原来不同的的应用场合亦亦可能采用了了不同的单位位、制式,要要想将它们放放在一起进行行有效的处理理,首先的要要求就是统一一。从业务操作系统统中引入的数数据必须进行行其完整性的的检查。在一一条记录中的的各个数据项项应保持完整整的存在关系系。若有缺项项,且又没有有检查,这必必然导致统计计的错误,决决策也会产生生偏差。数值的有效性也也是必须进行行核对的。防防止将数据源源中的错误带带入决策过程程之中。这些必要的清理理工作保障了了决策支持所所使用数据的的
22、质量。此外,还可以加加入用户自己己认为需要加加强的环节。系系统允许在数数据整理的各各个层次加上上用户自行强强化的环节。数据仓库的加载载和更新从数据源抓取数数据不仅有质质量问题,还还有有计划的的按一定时间间节奏从数据据源取出和装装入、更新数数据仓库的问问题。因为SSAS系统有有主动去取外外部数据的能能力,所以按按时间节奏从从数据源取出出数据的操作作在和其它系系统管理人员员协调好的基基础上,就可可完全在SAAS系统内制制定从各系统统取用数据的的计划了。在在此基础上,数数据仓库按照照数据和信息息使用的时间间要求,准时时的加载、更更新,就是完完全有保障的的了。从数据源到数据据仓库一气呵呵成的集成式式的
23、操作,这这是SAS数据仓仓库技术的重重要特点。按决策需要重组组数据和信息息清理好的数据还还要进行重组组。按照决策策的需要组织织成不同的主主题的数据仓仓库表。这是是十分关键性性的操作。在在再小的企业业或组织中,也也总是有许多多业务和技术术环节的。一一般来说,原原来运行系统统数据库的设设计也总是针针对这些业务务和技术环节节设置“实体”,即数据库库的表。这样样的设计使OOLTP系统统在线运行时时,发挥了最最大限度的工工作效率。但但在开拓决策策支持的OLLAP时,特特别是对于全全企业范围的的数据进行操操作时,这种种数据结构效效率极低。这这是因为可能能要从许多表表中取出所需需数据,而且且还要进行数数据的
24、筛选,对对不同表中的的数据进行拟拟合等操作,这这是极费时间间和资源的。企企业范围的决决策是对各个个环节分别进进行业务处理理的业务重组组,这就需要要有相应数据据结构的重组组,即按决策策的需要组织织成不同主题题的数据仓库库表,以及相相应的数据视视图,汇总表表等。SASS为此设置了了交互式操作作的界面,以以最大的主动动性帮你完成成决策支持所所需的数据重重组。丰富的决策数据据处理能力在有的所谓数据据仓库产品的的宣传中说:为了处理数数据他们有各各种函数功能能供编程使用用。这显然是是极其不够的的。为了更有有效地支持决决策,可能需需要进行广泛泛、深入的数数据挖掘(DData MMiningg)工作。SAS在
25、这方面面有世界领先先的丰富的决决策支持数据据分析、处理理软件。首先SAS/MMDDB可帮帮你构造最适适宜OLAPP操作的多维维数据结构。SAS/STAAT覆盖了所所有的实用数数理统计分析析方法,是国国际上统计分分析领域的标标准软件。它它提供了十多多个过程可进进行各种不同同模型或不同同特点的回归归分析;为多多种试验设计计模型提供了了方差分析工工具;在多变变量统计分析析方面,为主主成分分析,相相关分析,判判别分析和因因子分析提供供了许多专用用过程;还包包括多种聚类类准则的聚类类分析方法.等。SAS/ETSS提供了丰富富的计量经济济学和时间序序列分析方法法,是研究复复杂系统和进进行预测的有有力工具。
26、SAS/OR提提供了全面的的运筹学方法法。SAS/IMLL提供了功能能强大的面向向矩阵运算的的编程语言,帮帮助你研究新新算法或解决决SAS系统中中没有现成算算法的专门问问题。SAS/INSSIGHT是是一个可视化化的数据探索索工具。它将将统计方法与与交互式图形形显示融合在在一起,为你你展现了一种种全新的使用用统计分析方方法的环境。还有SAS的人人工神经元网网络和SASS/ASSIIST.等,具具有很大伸缩缩性的,适合合各个层次,各各种类型人员员使用的工具具。灵活多样的结果果展现方式分析结果的展现现方式对决策策时人的判别别有重大的影影响。SASS也有众多的的方式,方法法供你选择:在Basee S
27、AS中中就有从简单单列表到比较较复杂的统计计报表和用户户自定义的式式样复杂的报报表的能力;SAS/EER(Enterrprisee Repoort)更是是为企业级的的决策过程提提供了报告的的制作能力;SAS/GGRAPH是是一个强有力力的图形软件件包,可将数数据及其包含含着的深层信信息以多种图图形生动的呈呈现出来.。从各种数据源主主动的取出数数据;经过清清理、整合;再按决策支支持的需要分分别主题,重重组数据;按按照时序节奏奏不断地自动动装载、更新新数据仓库;用世界权威威的,丰富的的数据处理工工具进行决策策分析;最后后以多种形式式将决策支持持的意见呈现现给你。这就就是完整的决决策支持数据据仓库解
28、决方方案。再次提醒您:在在购买数据仓仓库产品时注注意其必不可可少的技术环环节!SAS数据仓库库的体系结构构数据库技术对计计算机应用的的推动发挥了了巨大的作用用,特别是建建立在E.FF.Coddd提出的E-RR理论基础上上的关系型数数据库更是对对OLTP(联联机业务处理理)应用开拓拓了广阔天地地。19944年E.F.CCodd曾回回答一个提问问:为什么对对一个运行十十分良好的基基于E-R理论的的关系数据库库进行查询,以以制作一个较较大型的报告告时,其响应应速度特别慢慢。他说:运运行数据库是是基于OLTTP需求环境境设计的,这这已有太多的的成功事例。但但现在是OLLAP(联机机分析处理,这这个概念
29、述语语E.F.CCodd在此此第一次提出出)类型的需需求。要实现现OLAP就要要有适应它的的,整合的,快快速的,多维维的信息架构构和查询机制制。SAS数据仓库库就是一个适适应于对企业业级的数据、信信息进行重新新整合,适合合多维、快速速查询;进行行OLAP操作作和决策支持持的数据、信信息的采集、管管理、处理和和展现的架构构体系。可用用下图表示:环境SSAS数据仓仓库的体系结结构数据仓库库1主题1主题表系统统主题表1 .主题表n汇总表组11SAS或DBMS汇总总层次1 .SAS或DBMS汇总总层次6MDDB11 .MDDBnn .汇总表组nn .信息市场11信息市场项项目1.信息市场项项目n.信息
30、市场nn .主题n数据市场场组1数据市场11 .数据市场nn信息市场11 .信息市场nn .数据市场场组n .数据仓库库n .运行数据据定义组1运行数据据定义1数据文件11 .数据文件nn外部文件11 .外部文件nn .运行数据据定义n .运行数据据定义组n环境(Enviiromennt)环境是SAS数数据仓库的体体系结构的总总根,它由两两大部分组成成。一部分是是分别含有不不同主题内容容的若干个数数据仓库;另另一部分是对对数据源的定定义。这构成成了从数据采采集到直接应应用的完整的的支持体系。数据仓库(Daata Waarehouuse)可以存在多个数数据仓库,这这是为了使用用的方便。在在一个大
31、的企企业或组织中中不同部门在在进行决策分分析时可能使使用的是徊然然不同的数据据,重新整合合后就没有必必要将它们放放在一起了。在在体系结构层层次中的数据据仓库主要是是管理性的作作用,其中有有对数据仓库库所有组成单单元的解释性性数据-Meetadatta。在每个个数据仓库中中还可以设置置若干个主题题,这一般是是同一部门中中支持不同决决策内容对应应的数据。主主题是较大的的数据载体,相相对精简或汇汇总一些的是是所谓数据市市场,在一个个数据仓库中中亦可存在若若干个数据市市场。主题(Subjject)在每个主题中有有一个主题表表系统,其中中放置与此主主题相关的各各种数据。为为了支持决策策方便还设置置了若干
32、个数数据的汇总表表组。进一步步为了支持决决策的方便还还有若干个信信息市场组,其其中放置的是是对数据处理理后产生的决决策支持信息息。主题表系统(DDetaill)这里放置的就是是从各个数据据源取出,经经过清理、整整合的原始数数据。为了使使用和管理的的方便,这些些数据可放在在多个表中。主题表(Dettail TTable)从运行系统数据据源取出的数数据,分别组组成这里的若若干表。它们们可能是实际际的表,也可可以是一些逻逻辑视图(VView)。从从本质上讲,它它们和原来各各个运行系统统数据源的数数据内容是一一致的。但是是为了支持决决策数据处理理的使用方便便,而对数据据的结构进行行了重组。为为了决策支
33、持持数据处理工工作的方便,和和提高了工作作的效率,在在数据重组过过程中,可能能还要增加一一些数据冗余余。汇总表组(Suummaryy Grouups)在汇总表组中定定义进行数据据汇总处理时时的层次维数数和所分析的的变量。当汇汇总表组是按按SAS数据集集和DBMSS格式存放时时可有六个层层次,若是采采用SAS的多维维数据库产品品MDDB时则则可有任意多多个层次。实实际上数据汇汇总就是最常常用的决策支支持数据处理理手段,或有有时是在汇总总数据的基础础上再进行进进一步的决策策支持数据处处理。汇总表表组可以有若若干个,也就就是说可以对对多种变量分分别进行不同同方式的汇总总处理。汇总层次(Suummar
34、yy Leveels)汇总一般是按时时间进程而执执行的。汇总总层次就是表表示你所选择择的数据汇总总处理的时间间维,如:日日、周、月等等。信息市场(Innformaation Martss)这是信息市场的的分组,在一一项主题中可可以有若干组组信息市场。一一般来说是按按不同的决策策支持内容需需要进行分组组的。之所以以要称之为“信息市场”,这正是体体现了设置这这样一个机制制的目的:要要让决策者象象到了一个信信息市场一样样,能最方便便,最快捷的的取得决策支支持所需要的的信息。信息市场项目(Information Mart Items)这是信息市场中中一项项具体体的信息,它它是对数据仓仓库中的数据据处理
35、后产生生的结果。在在一个企业或或组织中决策策目标并不总总是随机的,相相反总是有一一些要经常反反复进行的决决策工作,但但是随着时间间的进程,支支持决策的依依据在不断发发展、变化。利利用数据仓库库架构就可以以对这样的决决策支持数据据处理工作自自动的及时执执行。当人们们需要决策支支持时,马上上就可以得到到这些信息的的支持。信息市场项目可可以是一些报报表、图形或或分析的结果果。它也可以以是一项应用用功能的输出出。你在调用用这样的项目目时,可以是是即时启动此此项应用功能能,也可以将将它们设定成成在数据仓库库更新时作为为系统运行的的一部分。这这样,就在可可能的最早时时间形成了决决策支持的信信息,为支持持决
36、策创造最最大限度的快快捷和方便。数据市场组(DData MMart GGroupss)这是对数据市场场项目的分组组,在一个数数据仓库中可可以有多组数数据市场。这这也是按内容容的不同进行行分组的。和和“信息市场”一样“数据市场”也是一个形形象化的表达达词汇:要让让决策者能最最方便的取得得决策支持所所需要的数据据。数据市场(Daata Maarts)有时决策就是依依据某些数据据,但让决策策者在浩如烟烟海的企业信信息系统中找找出这些数据据可能并非易易事。正是为为了这样地目目的设置了数数据市场。它它实际上就是是为了各种特特殊需要专门门设计的数据据表。特别是是对一些要紧紧急查询的内内容设置这样样的数据表
37、,就就更有必要。你你可以注意到到数据市场不不是设置在每每个主题内,而而是设置在数数据仓库的范范畴内,这也也就是说,你你可在以分主主题的方式对对原来运行数数据重组的基基础上,为了了某种支持决决策的需要,再再跨主题进行行数据的重组组。可以想象象,这给你随随着企业管理理的发展,在在要求你为了了业务重组而而进行数据重重组时,SAAS数据仓库库技术为你创创造了可持续续增长的、无无限的数据重重组的广阔天天地。运行数据定义组组(Operrationnal Daata Deefinittion GGroup)这是对要从数据据源取出的数数据进行定义义的分组。企企业可能有许许多数据源,比比如说,它们们是放在不同同
38、的计算机系系统中的,你你就可以分系系统设置数据据定义组。这这从运行、管管理上看,或或者说从开发发文档上看都都是比较清楚楚的。运行数据定义(Operational Data Definition)在这里定义你要要取出的数据据。前面已述述SAS不仅有有多种方式可可从各种环境境中取出数据据,而且可以以通过SASS/ACCEESS在SAS系统中中启动这些操操作。所以这这里就是你在在SAS/AACCESSS中设定的逻逻辑视图(VView)的的描述。由于于取用对象的的不同,它亦亦可能是SAAS语句PROCC SQL的逻逻辑视图(VView)的的描述,或是是DATE STEP逻逻辑视图(VView)的的描述
39、。由上述内容可以以看出SASS数据仓库有有一个十分完完善的体系结结构。不仅为为你建立决策策支持系统提提供了完整的的解决方案,而而且为今后的的持续发展留留下了广阔的的天地。这也也正是SASS获得数据仓仓库最佳产品品奖的原因所所在。SAS数据仓库库的开发利用SAS技术术建立数据仓仓库,在全世世界已有数以以千计的成功功先例,从而而也积累了开开发的经验。SAS研究所愿与你分享这些经验:亦即在提供SAS数据仓库软件产品时,还可向你提供建立数据仓库的方法学,咨询服务,以至建立数据仓库的服务。数据仓库并不等同于数据库,数据仓库也有其开发的特点。根据SAS的经验建立一个数据仓库会有以下五方面的工作:任务和环境
40、的评评估需求的收集和分分析构造数据仓库数据仓库技术的的培训回顾、总结再发发展任务和环境的评评估数据仓库是建立立在原有的运运行系统之上上的。因此要要结合单位的的现状来明确确数据仓库的的目标任务。除除了业务现状状外,特别要要搞清任务所所面对的数据据源所在系统统和其中的数数据的状况。通通过对这些情情况的评估,看看建立数据仓仓库的这个任任务是否是可可行的;所能能建立的数据据仓库是不是是用户所期望望的;在此有有没有不可逾逾越的障碍。最最好能确定评评定将来数据据仓库系统成成功与否的基基本原则。开展评估工作一一定要有高层层负责人参加加,最好他就就是将来使用用数据仓库部部门的负责人人。这样从他他这里就可以以了
41、解到全部部的业务工作作状况。他也也最清楚今后后的工作目标标及对任务的的期望,以及及和竞争对手手比较有什么么差距。在评评估工作开展展过程中,他他应当及时的的提出问题,并并检查、回顾顾工作的进展展。在他的领导下要要组成一个项项目组,并有有以下人员参参加:项目总总负责人,与与数据仓库相相关的所有业业务单位的负负责人,计算算机软/硬件负责人人,向数据仓仓库提供数据据的数据库管管理员以及网网络方面的人人员。项目组组要进行项目目定义,并首首先按要达到到的目标初步步确定数据仓仓库的主题。进进一步说明这这个主题的层层次结构,及及所涉及的相相关业务处理理。最好还能能设立几个可可量化的工作作指标。除了业务工作外外
42、,还要对相相关的信息技技术状况进行行评估:数据据源的数据库库类型,工作作平台,数据据量,数据的的质量等;将将要建立数据据仓库的环境境状况,以及及所利用的网网络技术状况况。全部评估工作应应有正规的文文档记载,并并交数据仓库库负责人审定定。需求的收集和分分析数据仓库是为支支持决策服务务的。故首先先要看决策者者(亦即领导导)的需求,即即:现在最重重要的工作目目标是什么;怎样衡量这这个目标是成成功的达到了了;现在是怎怎样获得决策策支持信息的的;和竞争对对手比差距是是什么。领导的决策总是是由一批具体体工作人员支支持的,所以以还应当从他他们这里收集集具体的需求求,并加以分分析:对应前前面所定的主主题,现在
43、利利用什么信息息或报表(最最好有实例);这报表中还还缺什么信息息;这报表是是如何制作出出来的;有没没有紧急、突突发的决策信信息要求,其其内容是什么么;还希望数数据仓库为他他们做些什么么等。在此基础上确定定:当前共同同的业务问题题是什么;希希望开发怎样样的功能来解解决这些问题题;由此定义义好业务处理理的规则;初初步估计功能能的规模和数数据量;与此此同时还要定定义、理清业业务和编程需需要的代码。基于上述业务需需求和分析即即可开始制定定系统的逻辑辑模型。此外,还要对实实现这些业务务需求时,对对信息技术的的需求加以分分析:每一个个数据源的物物理存储状况况、运行平台台、数据质量量如何;确认认硬件、网络络
44、和软件的限限制条件;数数据装载和更更新的策略和和问题;数据据量和占用空空间的估计;从信息技术术看数据的质质量有什么问问题等。最后,还是制作作文档。其内内容应包括:项目概述差距分析系统基本架构图图示逻辑模型物理模型数据仓库初始装装载和更新的的策略数据仓库的运行行计划决策信息展现的的希望和需求求数据仓库建成的的时限构造数据仓库构造数据仓库包包括了数据仓仓库的管理,数数据仓库的组组织和决策支支持信息的展展现三部分。数据仓库的管理理通过建立以以下诸项内容容实现之:设设置和编写取取用数据的程程序;设置和和编写数据转转换程序;设设置和编写数数据更新程序序;设置和编编写运行的接接口程序;建建立这一阶段段的所
45、有管理理用数据Metaddata;此此阶段所有程程序统一标准准命名和建档档。数据仓库的组织织包括了:规规划数据仓库库的初始装载载;在数据仓仓库中建立所所需的索引;除了数据表表外,建立数数据视窗(VView);进行数据仓仓库及工作平平台的安全检检查;装入数数据和应用功功能;建立这这一阶段的所所有管理用数数据Meetadatta。决策支持信息的的展现SASS有强大的工工具软件可供供使用:SAAS/STAAT是国际上上统计分析领领域的标准软软件,涵盖了了所有实用数数理统计分析析方法;SAAS/EISS是一个成熟熟的决策支持持表现工具,也也是快速开发发工具并采用用了面向对象象的开发方式式;SAS/AF
46、也是一一个应用开发发工具,并含含有众多现成成功能的SAAS软件作为为方法库;SSAS/ETTS提供了丰丰富的计量经经济学和时间间序列分析方方法,是研究究复杂系统和和进行预测的的有力工具;SAS/GGIS是集地地理信息系统统与空间数据据显示分析于于一体的软件件;SAS还提供供了人工神经经元网络的功功能;SASS/ASSIIST采用了了面向菜单的的驱动界面,借借助它可使用用许多其它SSAS软件;SAS/IINSIGHHT是一个可可视化的数据据探索工具;SAS/OOR提供了全全面的运筹学学方法;通过过ODBC,OLE等还可可集成许多现现有的桌面工工具。利用这些工具可可预先制作好好许多常规的的信息市场
47、项项目(Inffomartt)供支持决决策使用,亦亦可利用这些些工具直接操操作主题数据据以得出新的的决策支持信信息。数据仓库技术的的培训数据仓库是支持持其使用者进进行决策的,即即使是建成了了非常好的数数据仓库,人人对系统的运运作仍是决定定性的因素。人人利用数据仓仓库决策的成成功才是数据据仓库的成功功,所以建成成数据仓库后后要认真进行行最终用户的的培训。首先先要向用户介介绍数据仓库库全部的情况况,用户掌握握的越深入,将将来运用的就就更好;数据据是向用户介介绍的重点,不不仅要介绍详详尽的数据内内容,而且要要介绍系统如如何保障数据据的质量、完完整性和可靠靠性,并且让让他们在今后后使用中进一一步注意这
48、些些问题,很可可能这就是以以后维护,改改进的地方;Metaddata是数数据仓库的管管理性数据,要要告诉用户什什么是Mettadataa,在何处,如如何使用它;图形化的界界面和各项功功能当然是培培训的主要内内容;还要介介绍数据的更更新计划和此此后数据的可可用性;汇总总层次的增加加,可能是用用户新需求的的内容,要让让他们知道如如何和开发人人员一起完成成这件事;最最后,不要忘忘记安全规范范的培训。假如数据仓库的的管理员不是是系统的开发发者,那末该该员亦属培训训范围。培训训内容是:数数据仓库的逻逻辑和物理模模型;从OLLTP系统到到数据仓库的的数据流;全全部的数据转转换操作;所所有Metaadata
49、的的所在和内容容,管理员对对Metaddata要有有相当的熟悉悉程度才能胜胜任工作;数数据装载和更更新的策略;所有安全性性问题及其测测度;所有程程序文档资料料的管理;等等等。回顾、总结再发发展在数据仓库的开开发过程中要要不断的回顾顾哪些地方可可以做的更好好;业务部门门对开发的支支持是否到位位;双方如何何合作的更好好;什么是业业务部门最立立竿见影的效效益,知道了了就要抓住它它;什么是开开发部门最立立竿见影的效效益,就要利利用它更好地地为用户服务务。开发有了一定进进展,就要慎慎重地看看:主题的范围围选择是否恰恰当;是否应应参与的部门门都积极主动动地参与了工工作;有什么么阶段成果;发布这些成成果的反
50、映如如何;业务和和开发部门分分别有什么反反映;公司层层的领导是否否看到了初步步成果;若有有问题及时改改进。在数据仓库开发发完成后要检检查:数据仓仓库的采用是是否对公司有有所推进;数数据仓库的采采用是否提高高了公司的竞竞争优势;投投资的回报率率是否达到了了预计的水平平;是否有公公司的其它部部门可利用数数据仓库获得得效益;有没没有得到未曾曾期望过的效效益。数据仓库的开发发往往是从一一个简明的急急需主题开始始,从中积累累经验,并由由此也可能会会激发用户的的新需求,然然后不断扩大大数据仓库的的内容和规模模。只要你稳稳扎稳打,循循序渐进,SSAS一定能能帮你建立好好你们的数据据仓库,并使使您的部门利利用
51、它获得更更大的效益。SAS的数据仓仓库产品SAS/WWASAS的数据仓仓库是一个非非常成熟的软软件。它有一一个顺应需求求的发展历史史,在发展中中不断完善,实实际上已是本本领域的权威威产品。连续续两年的获奖奖更说明了业业界的拥戴。SAS的数据仓仓库产品SAS系统,多多年来就以它它的数据的存存取,管理,分分析和展现能能力供用户作作为决策支持持的工具来使使用。SASS的数据仓库库产品SSAS/Waarehouuse Addminisstratoor(简称SASS/WA)一一方面将原有有的这些工具具整合在一起起;另外,为为了更规范地地建立,维护护数据仓库和和更方便地对对数据仓库和和数据市场进进行存取,
52、又又添加了新的的功能和工具具:定义数据仓库及及其主题传送和汇总整理理数据更新汇总数据建立,管理和取取用查看meetadatta设置数据市场定义数据仓库及及其主题在SAS/WAA中设置了友友好的用户界界面供用户定定义自己数据据仓库的构成成。在前文中中已介绍过SSAS数据仓仓库的体系结结构。在SAAS/WA导导引的定义过过程中保证了了数据仓库的的规范化和体体系中诸元素素的内在的应应有联系。在在进行这些定定义后,按照照这些联系就就形成了一个个规范化的数数据仓库体系系。SAS/WA在每一一步的操作中中都提供了缺缺省的元素特特性,但是根根据你的特殊殊需要,也可可以对它进行行更改。在这里特别要指指出的是:
53、你你所定义的数数据仓库,可可以建立在SSAS数据库库中;可建立立在一般的DDBMS中;还可以建立立在SAS的多维维数据库产品品SAS/MMDDB中。在在SAS/MMDDB中可可形成E.FF.Coddd所指出的运运作OLAPP的最佳数据据结构多维数据据结构。这将将大大提高数数据查询、访访问的速度和和方便程度。传送和汇总整理理数据这是通过SASS/WA的Proceess的Editoor来进行的的,它可以定定义四种处理理过程:运行数据的映射射(Mappping)在此定义从输入入数据源中取取出哪些数据据,这些数据据如何转换,然然后将它们装装载到哪个主主题数据表中中去。数据传送将数据从其所在在的计算机系
54、系统中选出,SAS/WA对它进行相应处理,然后使用PROC UPLOAD或者PROC DOWNLOAD再把它送到数据仓库所在计算机系统中。在图1中表示了数据的传送过程的一个示例。记录选取器按照你规定的某某些选取规则则选出一个数数据子集。形形成数据仓库库的其它元素素,如相应的的表,数据市市场或是VIIEW等。用户出口除了SAS/WWA所规定的的数据仓库的的操作过程外外,用户在各各个环节均可可插入认为需需要的数据操操作,如图11所示:图1数据仓库的的数据传送过过程示例更新汇总数据数据仓库中的数数据是按你确确定的时序,自自动的进行主主题数据更新新的。更新实实际上有两种种含义即在原原有数据表中中进行某
55、些数数据的更新;或者是产生生一个新的时时间区间的数数据新版本。无无论是哪一种种情况,SAAS/WA都都会按你预先先规定的规则则产生一个新新的汇总数据据。因为汇总总数据可能对对数据仓库中中的许多信息息元素都有关关系,这样就就保证了全体体信息的一致致性。建立,管理和取取用查看meetadatta企业的数据仓库库可能是从许许多不同的大大系统中取出出数据建立的的,因此其规规模可能比原原有的数据库库都要大的多多。面对这巨巨大的数据仓仓库,从建立立伊始就要保保证其可管理理性。在通过SAS/WA建立数数据仓库的过过程中,将形形成一个若干干个数据仓库库共用的meetadatta其中包括括了:数据仓库中的各各个
56、元素所存存放的地方在每台计算机系系统中都有哪哪些数据仓库库的什么内容容如何从运行系统统的数据源中中取出所需的的信息其它数据仓库管管理员和用户户间需要沟通通的信息metadatta不仅是数数据仓库的文文档资料,可可供管理,维维护人员使用用,而且亦可可供用户查询询,使之更好好的了解数据据仓库,提高高自己的使用用水平。设置数据市场数据市场(Daata Maart)是为为了更方便用用户的信息利利用而设置的的。日常的许许多决策支持持就是需要相相应的一组数数据。数据市市场的设置,以以其恰好对应应需求的针对对性;信息的的广泛综合性性(可能是跨跨主题的,预预先处理好的的);以及和和整个数据仓仓库更新的同同步节
57、奏;最最及时的满足足了用户决策策支持的需要要。SAS数据仓库库的方法学作为一个成熟的的产品SASS不仅提供给给你一套数据据仓库的计算算机辅助设计计工具;而且且向你提供SSAS建立数数据仓库的成成功经验SAS数据据仓库的方法法学。包括:如何建立好数据据仓库的开发发队伍如何进行数据仓仓库的需求分分析在一定系统环境境中确定建立立数据仓库对对信息技术的的需求数据仓库的设计计和原形化开开发方法数据仓库的投运运SAS的这些成成功经验可以以帮你少走弯弯路,开发迅迅速;同时,依依照SAS的成功功经验还给你你创造了一个个使决策支持持系统从无到到有、从小到到大可持续稳稳定地发展的的局面。SAS数据仓库库系统的全方
58、方位集成性数据仓库的数据据来源可能是是许多的计算算机系统和许许多不同的数数据载体。在在一个企业中中为了不同业业务部门的需需要亦可能要要建立多个数数据仓库,这这些数据仓库库也可能要建建立在不同的的系统平台上上。SAS可以适适应最复杂的的环境,建立立统一管理,更更新的集成式式的数据仓库库系统。如图图2所示例:图2 SASS系统支持的的多系统环境境下的数据仓仓库架构示例例在这个系统中有有:统一的数据仓库库管理机制SAS/Warehhouse Adminnistraator对应多数据源和和多个数据仓仓库有统一的的文档资料metaadata利用SAS跨平平台、跨数据据库的存取能能力实现数据据的统一管理理
59、和更新SAS系统的强强大的数据仓仓库技术,SSAS和业界界绝大多数厂厂家的长期友友好合作所形形成的跨平台台和环境的可可操作能力是是你建立数据据仓库时的唯唯一最佳选择择。SAS帮助你进进行数据挖掘掘早期的计算机主主要就是用来来进行数据处处理或称数值值计算的。后后来随着计算算机技术及其其周边设备和和通讯能力的的发展,计算算机更多地用用于了大量繁繁杂事务的在在线处理,生生产设备的实实时控制等。在在此过程中,计计算机系统积积累了越来越越多的数据,数数据处理的任任务就更加繁繁重。到今天天,即使是发发展中的我们们中国,在一一个企业中有有数以几十或或上百GB(10字节)计计的生产经营营数据已不是是什么希奇的
60、的事情了。企企业的数据和和由此而产生生的信息是企企业的重要财财富。它最真真实、具体的的反映了企业业运作的本质质状况。但是是,面对堆积积如“山”的数据,你你可能并未看看清企业运作作的本质规律律是什么,或或者说你至少少是未能全部部看清楚。面面对激烈竞争争的市场经济济,企业的经经营和管理者者任何不符合合客观事物规规律性的决策策都会给企业业带来损失,甚甚至失败。运运用有力的工工具,不断地地探索企业成成败、得失的的原委,并以以此不断完善善企业运作,这这是每一个成成功的企业家家必不可少的的工作任务。美美国SAS软件从从60年代在北北卡洲立大学学开创伊始就就致力于计算算机数据处理理的研究。几几十年来无数数的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年辽宁交安考试题目及答案
- 2026年执业医师(地方病防治)试题及答案
- 2026年银行招聘考试官方指定标准试卷通关题库及答案
- 2026年天津市安全员B证考试题库及答案
- 2026年生殖医学临床试题及答案
- 2026年临沧地区临翔区林业系统人员招聘考试参考试题及答案解析
- 生物医药车间腐蚀性试剂泄漏洗消预案
- 2026年地方病防治技能竞赛(理论知识)综合能力测试题及答案
- 2026年安全工程师《金属冶炼安全》全真模拟一(附答案)
- 企业资金验收方案
- 人事部岗位sop完整版
- GB/T 31883-2015道路车辆牵引连接件、牵引杆孔、牵引座牵引销、连接钩及环形孔机械连接件使用磨损极限
- GB/T 15766.2-2016道路机动车辆灯泡性能要求
- 烤烟缺素症与施肥原则课件
- 广东省韶关市各县区乡镇行政村村庄村名明细
- DLT 1055-2021 火力发电厂汽轮机技术监督导则
- 广西壮族自治区崇左市各县区乡镇行政村村庄村名明细及行政区划划分代码居民村民委员会
- 广西壮族自治区玉林市各县区乡镇行政村村庄村名明细及行政区划划分代码居民村民委员会
- c30砼回弹值对照表
- 新安标(煤安)现场评审模板教程文件
- 人防工程设计课件(75页PPT)
评论
0/150
提交评论