(计算机应用技术专业论文)数据仓库技术在电力经营分析系统中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据仓库技术在电力经营分析系统中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据仓库技术在电力经营分析系统中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据仓库技术在电力经营分析系统中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据仓库技术在电力经营分析系统中的应用研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着我国电力市场的逐步发展和完善,电力企业的服务理念由计划用电向市场开拓转变,由用 电管理向营销服务转变。建立适应我国电力营销需求的经营分析系统是提高竞争能力和业务持续发 展的必要技术保障之一。 论文课题来源于某省电力公司商业智能( b u s i n e s si n t e l l i g e n c e ) 项目的一部分,其内容是利用数据 仓库技术建立电力经营分析系统。经营分析系统的建设目标是建立一个统一的数据平台,采用先进的 数据仓库技术和数据挖掘工具,提取企业数据中的有价值信息,为电力客户服务、市场营销等工作提 供科学决策的支撑。 论文结合省电力公司电力经营分析系统的开发,开展电力行业实施数据仓库的方法和过程的研 究。主要工作有: l 、在介绍相关研究背景及关键技术的基础上进行电力经营分析系统的需求分析。 2 、研究比较数据仓库的开发策略,提出数据仓库的设计与实现方案,设计系统的体系结构,选 用合适的数据仓库平台及工具,给出系统的软硬件架构。 3 、中央数据仓库建模。根据不同的主题域_ i j 建模工具建立相应的逻辑模型和物理模型。 4 、数据仓库e t l 的实现。对来自不同的数据源、不同格式的数据,进行抽取、清理、集成、 转换、加载,完成中央数据仓库的建立。 5 、在中央数据仓库的基础上建立相应的数据集市,根据分析角度的不同进行o l a p 建模,并生 成多维数据立方体,在数据立方体上利用o l a p 前端工具进行分析与展现。 研究分析表明,基于数据仓库技术开发电力经营分析系统对供电企业在复杂的电力市场条件下 制定合理决策,提高电力企业的经济效益与社会效益,实现电力市场环境下的客户关系管理和需求 侧管理具有很大的实用价值。 【关键词】数据仓库经营分析系统o l a p 分析数据挖掘 a b s t r a c t w i t ht h es t e p w i s ed e v e l o p m e n ta n di m p r o v e m e n to fc h i n ae l e c t r i cp o w e rm a r k e t , t h ei n d u s t r y s s e r v i c ec o n c e p ti sc h a n g i n gf r o mp l a n n i n gp o w e rd i s t r i b u t i o nt oe x p l o r i n gm a r k e t ,f r o ma d m i n i s t r a t i o nt o m a r k e t i n ga n ds e r v i n g d e v e l o p i n g t h et h ep o w e rb u s i n e s sa n a l y s i ss y s t e mw h i c hs a t i s f i e st h en e e d so f o u r p o w e rs a l e sd e c i s i o ni so n eo f t h ei m p o r t a n tm e a n st oi m p r o v et h ec o m p e t i t i v e n e s sa n dd e v e l o pb u s i n e s s 1 1 1 et h e s i sw a se a r r i e do u to ft h ex xp o w e rc o r p o r a t i o n sb u s i n e s si n t e l l i g e n c es y s t e m , w h i c h i n t e n t i o ni se s t a b l i s h i n gt h ep o w e rb u s i n e s sa n a l y s i ss y s t e mb a s e do nd a t aw a r e h o u s et e c h n o l o g y t h e p u r p o s eo ft h ep o w e rb u s i n e s sa n a l y s i ss y s t e m i se s t a b l i s h i n gad a t ap l a t f o r m ,i n t e g r a t i n gv a l u a b l e i n f o r m a t i o nb a s e do nt h ea d v a n c e dd a t aw a r e h o u s et e c h n i q u ea n dt h ed a t am i n i n gt o o l s , w h i c hw i l lh e l p t h ep o w e rc o r p o r a t i o nt om a n ds c i e n t i f i c a l l yd e c i s i o nf o rp o w e rc u s t o m e rs e r v e sa n dp o w e r m a r k e t i n g t h i sp a p e rw h i c hc o m b i n e dt h et h ex xp o w e rc o r p o r a t i o n sb u s i n e s si n t e l l i g e n c es y s t e m , d i s c u s s e s t h ep r o c e s sa n dt h es o l u t i o n so f d a t aw a r e h o u s eo nt h ep o w e re n t e r p r i s e t h em a i nr e s e a r c ha r e f o l l o w i n g : 1 b a s e d o n i n t r o d u c i n g t h e c o r r e l a t i v e b a c k g r o u n d o f r e s e a r c h a n d t h e k e y t e c h n o l o g y , t h i s p a p e r s t u d i e st h er e q u i r e m e n ta n a l y s i so f t h ep o w e rb u s i n e s sa n a l y s i ss y s t e m 2 a t i e ra n a l y s i sa n dc o m p a r i s o no nt h eo f d a t aw a r e h o u s e t h et h e s i sr e s e a r c h e sa n dp u t sf o r w a r dt h e s o l u t i o nt od e s i g na n di m p l e m e n td a t aw a r e h o u s e ,d e s i g n st h ef r a m eo f t h es y s t e m , c h o o s e sr i g h td a t e w a r e h o u s ep l a t f o r ma n dt o o l s 3 c r e a t et h em o d e lo f c e n t e rd a t aw a r e h o u s e c r e a t et h el o g i c a lm o d e la n dt h ep h y s i c a lm o d e lo f d i f f e r e n ta n a l y s i ss o b i e e tb yu s i n gm o d e lt o o l s 4 e t l i m p l e m e n t o f d a t a w a r e h o u s e r e a l i z ec e n t e r d a t a w a r e h o u s ea f t e r c l e a r i n g , e x t r a c t i n g , i n t e g r a t i n g , t r a n s f e r r i n ga n dl o a d i n gd a t u m ,w h i c hc o m ef r o md i f f e r e n ts o u r c e sa n ds t y l e s 5 d e v e l o p i n gt h ed a t am a r t o nt h ec e n t e rd a t aw a r e h o u s e ,t h i sp a p e rc r e a t e so l a pm o d e lb a s e do n d i f f e r e n ta n g l e ,c r e a t e sm u l t i d i m e n s i o n a ld a t ac u b e ;a n a l y s e sa n de x h i b i t st h er e s u l tf r o mu s i n gt h eo l a p t o o l so nt h em u l t i d i m e n s i o n a ld a t ac u b e t h er e s e a r c hs h o w st h a tt h ep o w e rb u s i n e s sa n a l y s i ss y s t e mb a s e do nd a t aw a r e h o u s et e c h n o l o g yh a s t h ei m p o r t a n ta p p l i e dv a l u e sf o re l e c t r i ce n t e r p r i s et om a k ea v a i l a b l ed e c i s i o nu n d e rt h ep o w e rm a r k e ti n f u t o r e ,t oi m p r o v eo ft h ee l e c t r i ce n t e r p r i s e ,t of o r i l lt h ec u s t o m e rr e l a t i o n s h i pm a n a g e m e n ta n dt h ep o w e r d e m a n d sm a n a g e m e n tu n d e rt h ec o n d i t i o no f p o w e rm a r k e t k e y w o r d s :d a t aw a r e h o u s e , b u s i n e s sa n a l y s i ss y s t e m ,o l a pa n a l y s i s ,d a t am i n i n g 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:盎型 日期:些j 扩 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:硷趟 导师签名:喜戤日期:驯办 第一章绪论 1 1 研究背景及意义 第一章绪论 客户的需求推动着信息技术的发展。不断地积累信息系统的数据,从海量的数据中发现信息和 知识,这样的需求推动着“商业智能”技术的不断发展。 随着我国电力市场的逐步发展和完善,电力工业已经逐步从“卖方市场”转变为“买方市场”, 作为独立市场主体的电力企业,其经营目标转变为关注企业效益的最大化,工作的重点逐渐从发输 电方面转移到市场营销开拓以及电力需求侧的管理服务方面。电力企业的服务理念由计划用电向市 场开拓转变,由用电管理向营销服务转变。国电公司提出了分阶段逐步实现营销管理现代化的具体 措施和要求,各地电力公司根据市场的需求,正在转变营销观念,调整电力营销体系,建设电力营 销管理信息系统,提高自身竞争能力。 目前,我国供电企业经过多年的信息化建设,已经建立起比较完善的营销管理信息系统、负荷 管理系统、客户服务系统等应用系统,这些系统积累了大量的数据,然而,由于各地区及部门间信 息化建设的不平衡性和独立性,导致了目前电力企业信息传递困难,难以提供企业级的决策分析支 持。主要问题集中表现在以下两方面: ( 1 ) 系统的异构性使信息集成困难。很多电力企业虽然已实施了各种信息管理系统,但这些系统 通常构筑在不同的平台之上,导致了系统之间缺乏良好的信息沟通,使得各个应用系统成为相对孤 立的”信息孤岛”,不易与其他系统交换数据或在企业范围内实现集成。 ( 2 ) 业务数据的利用率低。数据的处理缺乏有效的: 具,大量的数据只用于简单的查询和统计报 表,数据后面隐藏的知识得不到很好挖掘,不能为决策服务。 如何更好地利用和管理这些日益庞大的同构和异构数据库,实现不同系统数据的集成并挖掘出 数据之间的潜在联系和隐含的知识,帮助企业实现决策的科学化,已成为地区供电企业日益紧迫的 需求。为了在未来的竞争中胜出,要求电力企业必须更快地降低自己的生产经营成本,为客户提供更 个性化的服务,对企业有更深入的了解。而所有这一切,都必须借助现代信息技术去解决,商业智能 将在其中发挥关键的作用。 商业智能的核心技术是数据仓库技术。数据仓库是一种提高企业业务分析能力和决策水平的有 效工具。利用数据仓库整合电力企业内部分散的原始业务数据,并通过便捷有效的数据访问手段, 能支持企业内部不同部门、不同层次的用户随时获得自己所需的信息。在建立数据仓库的过程中, 实现对数据的抽取、清洗、转换、加载,为数据的进一步挖掘、分析提供数据平台。数据仓库技术 是目前已知的最为成熟和被广泛采用的经营分析系统解决方案。数据仓库及其相关技术在用户需求 的推动下,已经发展比较成熟,许多国际级的大厂商都提供相应的数据仓库方面的产品及其实施方 法,而且数据仓库技术已经在世界5 0 0 强中的许多企业有着成功的应用,很多机构都在开发和利用 自己的“数据仓库”。研究基于数据仓库技术开发电力经营分析系统对供电企业在未来复杂的电力市 场条件下制定合理决策,减少决策所面临的不确定性,辅助各级领导优化决策,从而显著地提高电 力企业的经济效益与社会效益,实现电力市场环境下的客户关系管理和需求侧管理具有重大的实用 价值。 1 2 我国电力营销商业智能( b i ) 的应用和研究现状 国外,数据仓库技术已经开始了大规模的应用,产品的功能也目渐完善,可以很好的满足各种 需求。国内,数据仓库技术的研究主要是从九十年代中期开始,但是只是研究了数据仓库的概念, 没有进行数据仓库的深入研究。到了九十年代末开始了数据仓库平台的研究,主要是一些大学在国 外的基础上研究数据仓库技术。近年来数据仓库在电信业、证券业、银行领域、税务领域、控制金 融风险、保险、客户管理等众多领域得到了越来越广泛的应用。目前我国电力企业在电力营销方面 东南大学硕士学位论文 的计算机应用基本上还是处于面向业务的电力营销m i s 阶段。我国有1 5 个省电力公司( 天津、河 北、黑龙江、浙江、江苏、上海、福建、安徽、四川、湖北、重庆、江西、青海、甘肃、宁夏) 建 成了全省统一的营销管理信息系统,实现了营销业务的网络化处理。而基于数据仓库技术的电力营 销辅助分析决策系统和电力客户关系管理系统的研究应用目前也还在探索试验阶段。客户关系管理 有少量的应用,如:甘肃、安徽等省公司已开始初步应用。营销辅助分析决策系统有少量的应用, 如:华北、江苏、浙江、甘肃、黑龙江、辽宁、宁夏、青海等网省公司已开始初步应用。 这方面的报道文献也不多见。文献1 1 1 针对某个具体的电力公司设计了一种电力营销决策支持系 统的实现方法,主要思路是采用o l a p 工具( 使用p t s 公司的b o 工具) 实现电力营销数据的多维 分析,包括旋转、切片和钻取,在o l a p 分析方面有一定的特点,但是没有涉及数据挖掘方面的内 容。文献 1 2 1 介绍了一种营销决策支持的建设思路,分析了电力营销决策支持的功能要求,但没有涉 及到物理和逻辑结构的构建。 1 3 电力企业建立数据仓库的必要性和可行性 为了建设现代化供电公司,提高省公司统筹协调、应对复杂局面的领导能力与决策水平,加大 对各项管理指标、经营指标、服务指标的控制力,实现电力购售电环节的统一管理,营销经营损益 的实时分析,有效控制降低购电成本,提高销售均价,增强赢利能力,降低应收电费余额,提高市 场占有率,提高客户满意度,建设电力营销数据仓库,建立具有辅助决策和数据挖掘分析能力的电 力营销分析平台显得尤为迫切,其根本原因在于当前企业面l 临的各种内外环境。 ( 1 ) 企业外部压力增大 随着电力改革的持续开展,电力经济从过去的计划经济向市场经济转变,企业外部竞争更加激 烈,电力企业的经营环境发生很大的变化,具体呈现出以下特点; 从以生产为中心向以客户为中心的企业转换,虽然目前在供电市场上垄断的局面尚未完全打破, 但是供电公司的市场压力也在不断增加,客户对供电公司的服务质量提出越米越高的要求,客户要 求供电企业能提供个性化、针对性的服务,企业必须提供更加丰富多样的服务种类和更优惠的价格 等来满足用户的要求。 当前国民经济的持续高速增长对当前电力企业供电能力提出了更高的要求,连续几年出现的“电 荒”严重影响了供电公司的社会和经济效益,也为国家和用户带来了巨大的损失。如何及时调整企 业的各项生产,销售策略来保证国家,企业,用户的利益是电力公司面临的一个重要任务。 市场变化多样快速,客户的消费需求在发生变化、对手的竞争策略在发生变化,要求企业能及 时,正确地作出响应来应对市场的变化。 因此,电力公司在快速变化的市场经济条件下,在保障经济发展的同时提供高质量的客户服务, 而且还要保持企业自身的盈利水平。面对这些复杂繁多的各种压力,电力企业只有积极改造自身努 力提高自身运营水平来满足市场和用户的要求。 ( 2 ) 企业内部管理提出更高要求 为适应日趋激烈的市场竞争环境,提升电力公司的核心竞争力,电力公司以客户细分为基础, 针对目标客户群,提供优质的用电服务和优良的客户服务,突出差异性,提供多样化、个性化的业 务,保持服务优势,巩固用户忠诚度。为了更好的达到这个目标企业管理层决定充分利用业务支撑 系统产生的大量宝贵的数据资源,建立营销经营分析系统,实现对信息的智能化加工和处理,为市 场经营工作提供及时、准确、科学的决策依据,对企业自身经营行为,市场情况等要有更清晰的了 解,尤其对电费,促销手段,欠费行为,各种动态报表,客户群体划分,业务情况,企业收益等关 键信息要及时获取。 ( 3 ) 建立符合c r m 理念的营销信息系统的需要 电力企业未来将建设符合客户关系管理理念的营销信息系统,而客户关系管理理念的实现离不 开数据挖掘和数据仓库技术的支持。从管理科学的角度来考察,客户关系管理( c r m ) 源于市场营 2 第一章绪论 销理论;从解决方案的角度考察,客户关系管理,是将市场营销的科学管理理念通过现代信息技术 的手段实现并贯穿于整个企业的行为中。 数据仓库的成功实施是以企业拥有大量可以操作的数据为前提基础的。电力企业经过多年的信 息化建设工作,已经累积了大量的业务数据,使数据仓库的建设成为可能。由于当前的营销信息系 统从本质上说是一个在线事务处理应用,是以从事日常操作型工作为主,分析功能十分有限无法满 足更多的管理需要。大量的业务数据,导致访问和管理工作都很困难,随着数据量的成倍增长,这 个问题越来越突出,又使应用开发变得非常复杂,在这种情况下,迫切需要通过数据仓库,来汇总 这些信息,并支持数据挖掘、多维数据分析以及传统的查询和报表功能,把大量的原始数据转换成 可靠的、可用的、及时的商用的信息。通过经营分析系统的实施必将提高电力企业的核心竞争力, 牢固客户服务关系,增加企业的收益。 、 1 4 课题来源 商业智能( b i ,b u s i n e s si n t e l l i g e n c e ) 是出现在2 0 世纪9 0 年代的新名词,它是基于信息技术构件 的智能化管理工具,帮助管理者正确认识企业和市场,作出正确的决策。伴随着国内商用管理软件 的逐渐成熟,商业智能成为日益升温的领域,国内银行、电信、保险等行业纷纷建立起自己的商业 智能系统,电力经营分析系统就是商业智能在电力行业的应用。 电力营销b l 商业智能管理是在对营销客户层、业务层等相关客户资源进行有效整合的基础上, 结合市场调查活动,建立面向分析的电力营销数据中心,采用科学有效的分析方法,分析客户的需 求和消费行为,从中发现具有潜在价值的客户和市场潜力,为进行销售分析、市场开发和营销策划 提供决策支持,实现销售、市场和客户服务的有机结合,实现客户的价值管理,挖掘潜在客户的价 值和市场潜力,从而提高市场营销监控和决策能力,为市场分析和预测、营销策略研究提供技术支 持。 从以上这些分析不难看出,建立一个功能强大的电力经营分析系统对于改善电力企业的经营效 率是非常重要的。本论文正是结合x x 省电力公司电力经营分析系统的开发,开展电力行业实施数 据仓库的方法和过程的研究。电力经营分析系统是电力营销b i 的一期工程,在这一期工程中,要把 经营分析系统的架构建起来,把分散的源数据按照数据仓库的需求集中起来进入数据仓库,通过相 关主题展示出来,并为数据挖掘打下一个好的基础。 1 5 本文的主要工作及组织结构 本文通过x x 省电力公司实施的电力经营分析系统,探讨了如何在电力行业进行一个完整的数 据仓库项目的设计与实现,从理论和实际两方面给出了系统架构和解决方法。 本文第一章绪论介绍了电力经营分析系统的研究背景和意义,以及课题的来源:第二章对于商 业智能( b i ) 系统的相关技术,包括数据仓库技术、联机分析处理和数据挖掘技术作了简要介绍;第三 章进行电力经营分析系统的设计,包括系统的需求分析和中央数据仓库的设计;第四章是中央数据 仓库的实现,给出了整个系统的软硬件架构和e t l 的实现;第五章是分析系统的应用,包括o l a p 建 模、多维立方体的生成和o l a p 分析实例;第六章是总结与展望。 东南大学硕士学位论文 第二章研究的理论基础及采用的关键技术 商业智能( b i ) 一般由数据仓库( 或数据集市) 、联机分析( o l a p ) 、数据挖掘、前端展示工具等 几部分组成。其中数据仓库是商业智能的基础,完成对业务系统数据的整合,o l a p 对数据进行分析, 数据挖掘完成知识发现,前端展示工具把分析结果呈现给最终用户,这几部分形成统一的整体,互相补 充,能够对企业的经营状况进行全面、深入的分析。 2 1 数据仓库技术口“”1 2 1 1 数据仓库的定义和特性 数据仓库是商业智能的基础数据仓库之父w h i n m o n 对数据仓库的定义为:数据仓库是一个 面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策【2 1 。这个定义 指出了数据仓库的主要特征 ( 1 ) 面向主题的( s u b j e c t o r i e n t e d ) :是指数据仓库内的信息是按主题进行组织的,与传统数据库面 向应用相对应。例如销售、客户、产品等。它所关注的是为决策者提供所需要的信息,而不是关注 组织的日常操作和事务处理。 ( 2 ) 集成的( i n t e g r a t e d ) :是指数据仓库中的数据是从多个同构或异构业务处理系统中经过系统提 取、清洗和加载而来的,数据仓库内的数据是关于整个企业的一致的全局数据,这是建立数据仓库 的关键步骤。 ( 3 ) 非易失的( n o n v o l a t i l e ) :是指一旦某个数据进入数据仓库之后,一般情况下将被长期保留,例 如5 一l o 年。 ( 4 ) 时变的( t i m e v a r i a n 0 :是指数据仓库内的数据是系统记录了企业从过去某一时间( 如开始应用 数据仓库的时间) 到目前的各个阶段的数据;数据仓库中的数据可以根据需要或按某种周期进行更 新。 概言之,数据仓库是一种语义上一致的数据存储,存放着企业战略决策所需的数据。为此,数据仓 库也常常被看作是一种结构化的专门用丁查询、分析和决策制定的体系结构。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于 一个组织内外部的多个数据源。数据仓库的建立并不是要取代数据库,它要建立一个集成的、清洁 的、高效的数据集,用丁支持高层决策分析:而事务处理数据库在企业的信息环境中承担的是日常 操作性的任务。数据仓库是数据库技术的一种新的应用,数据仓库主要还是用关系数据库管理系统 来管理其中的数据。 数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据处理密集型行业。 国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立。需要和可能建立数据仓库的行业有两个基本条件: 第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面i f 缶市 场竞争的压力,它为数据仓库的建立提供外在的动力。 2 1 2 数据仓库的种类 从数据仓库的规模与应用层面来区分,大致可以分为下列几种:标准数据仓库;数据集市( d a t a m a r t ) ;多层数据仓库( m u l t i t i e rd a t aw a r e h o u s e ) ;联合式数据仓库( f e d e r a t e dd a t aw a r e h o u s e ) 。 标准数据仓库是企业最常使_ j 的数据仓库,它是依管理决策的需求而将数据加以整理分析,再 将其转换至数据仓库之中。这一类的数据仓库是以整个企业为着眼点而构建出来的,所以其数据都 是有关整个企业的数据,用户可以从中得到整个组织运作的统计分析信息。 数据集市是针对某一主题或是某一个部门而构建的数据仓库,是从数据仓库中按逻辑或物理上 划分出来的数据子集。数据集市通常针对部门级的决策或某个特定业务需求,它开发周期短,费用 低,能在较短时间内满足用户决策的需要。 多层数据仓库是标准数据仓库与数据集市的一种组合应用方式。在整个架构之中,有一个最上 层的数据仓库提供者,它会将数据提供给下层的数据集市。多层数据仓库的好处是拥有统一的全企 业性数据源,刨建部门使用的数据集市就比较省时、省事,而且各数据集市的工作人员可以分散工 作开销。 联合式数据仓库指的是在整体系统中包含了多重的数据仓库或是数据集市系统,也可以包括多 层的数据仓库,但是在整个系统中只有一个数据仓库数据的提供者,这种数据仓库系统适合大型企 业使用。 4 第二章研究的理论基础及采用的关键技术 2 1 3 数据仓库的开发策略 建立和使用数据仓库是一个复杂的任务。数据仓库通常是企业级应用,因此涉及的范围和投入 的成本非常巨大,使一些企业无力承担,它的建设也很容易形成高投入、慢进度、高风险的大项目。 选取一个好的开发策略对项目的开发成本、开发进度,成果效能和投资回报率等都非常重要,因此 一定要仔细研究。 数据仓库的开发策略主要有自顶向下、自底向上和这两种策略的混合使用。 自顶向f 策略由总体设计和规划开始。该策略在开发前就可以给出数据仓库的实现范围,能够 清楚地向决策者和企业描述系统的收益情况和实现目标,是一种有效的数据仓库开发策略。该方法 使用时需要开发人员具有丰富的自顶向下开发系统的经验,企业决策层和管理人员完全知道数据仓 库的预定目标并且了解数据仓库能够在那些决策中发挥作用。当技术成熟并已掌握,对必须解决的 商务问题清楚并已很好理解时,这种方法是有用的。但在实际应用中比较困难,因为数据仓库的功 能是一种决策支持功能,这种功能在企业战略的应用范围中常常是很难确定的,数据仓库的应用机 会往往超出企业当前的实际业务范围,而且在开发前就确定目标,会在实现预定目标后就不再追求 新的应用,使数据仓库丧失更有战略意义的应用。 自底向上策略一般以实验和原型开始。选择一些特定的为企业管理人员所熟知的管理问题作为 数据仓库开发的对象,在此基础上进行数据仓库的开发。因此,该策略常常用丁二一个数据集市或一 个部门的数据仓库开发。该策略的优点在于企业能够以较小的投入,获得较高的数据仓库应用收益。 在开发过程中,人员投入较少,也容易获得成效。当然,如果某个项目的开发失败可能造成企业整 个数据仓库系统开发的延迟。该策略一般用于企业希望对数据仓库的技术进行评价,以确定该技术 的应用方式、地点和时间,或希望了解实现和运行数据仓库所需要的各种费用,或在数据仓库的应 用目标并不是很明确时使用。 在白顶向下的开发策略中可以采用结构化或面向对象的方法,按照数据仓库的规划、需求确定、 系统分析、系统设计、系统集成、系统测试和系统试运行的阶段完成数据仓库的开发。而在自底向 上的开发中,则可以采用螺旋式的原型开发方法,使用户可以根据新的需求对试运行的系统进行修 改。 自顶向下和自底向上策略的混合使用具有两种策略的优点,既能快速的完成数据仓库的开发与 应用,还可建立具有长远价值的数据仓库方案。但在实践中往往难以操作,通常需要能够建立、应 用和维护企业模型、数据模型和技术结构的、具有丰富经验的开发人员,能够熟练的从具体( 如业 务系统中的元数据) 转移到抽象( 只基了二业务性质而不是基于实现系统技术的逻辑模型) ;企业需要 拥有由最终用户和信息系统人员组成的有经验的开发小组,能够清楚地指出数据仓库在企业战略决 策支持中的应用。 2 1 4 数据仓库的关键技术 ( 1 ) 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过 程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在 技术上主要涉及互连、复制、转换、清洗等几个方面。数据仓库的数据并不要求与联机事务处理系 统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序和成败 对数据仓库中数据的有效性至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟( 其中有一些是躲不开编程的) , 但整体的集成度还很不够。目前市场上所提供的大多是数据抽取t 具。这些: 具通过用户选定源数 据和目标数据的对应关系,会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的; 同时数据抽取过程涉及数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入 用户编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工 具。 ( 2 ) 数据的存储和管理 数据仓库需要对大量数据进行存储和管理。这里所涉及的数据鼍比传统事务处理大得多,且随 时间的推移而累积。从现有技术和产品来看,一般都选择关系数据库系统来担当此任。关系数据库 经过近3 0 年的发展,在数据存储和管理方面已经非常成熟,非其它数据库管理系统可比。目前不少 关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一 5 东南大学硕士学位论文 步增强了系统管理大数据晕的扩展能力。 数据仓库的另一个关键问题是针对决策支持的查询优化。在技术上,查询优化涉及数据库系统 的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。扩充的关系数据库引入了位图 索引的机制,以二进制位表示字段的状态,将杏询过程变为筛选过程,单个计算机的基本操作便可 筛选多条记录。由于数据仓库中各数据表的数据最往往极不均匀,普通查询优化器所得出的最佳查 询路径可能不是最优的。因此,面向决策支持的关系数据库在查询优化器上也作了改进,同时根据 索引的使用特性增加了多重索引扫描的能力。 以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作,而连接操作对于关系数据 库来说是一什耗时的- 作。扩充的关系数据库中对连接操作可以做预先的定义。我们称之为连接索 引,使得数据库在执行查询时可直接获取数据而不必实施具体的连接操作。数据仓库的查询常常只 需要数据库中的部分记录,如最大的前5 0 家客户等等。普通关系数据库没有提供这样的查询能力, 只好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系数据库在此做了改进,提 供了这一功能。此外,数据仓库的查询并不需要像事务处理系统那样精确,但在丈容量数据环境中 需要有足够短的系统响应时间。因此,一些数据库系统增加了采样数据的查询能力,在精确度允许 的范围内,大幅度提高系统的查询效率。 总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以做,它已成为关系 数据库技术的一个重要研究课题和发展方向。可见,对于决策支持的扩充是传统关系数据库进入数 据仓库市场的重要技术措施。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩充的并行关系数据 库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓库的中坚力量。 ( 3 ) 数据分析 多维分析是数据仓库支持的重要应用,由于m o l a p 系统是专用的,因此,关于多维分析领域 的工具和产品大多是r o l a p 工具。这些产品近两年来更加注重提供基于w e b 的前端联机分析界面, 而不仅仅是网上数据的发布。 数据仓库的实现主要以关系数据库技术为基础,为适应数据仓库对大数据最的操作要求,需要 扩展一些技术,如动态分区、位图索引、优化查询等,使关系数据库管理系统在数据仓库应用环境 中的性能得到人幅度的提高。 数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数 据之中的规律。这听起来虽然很吸引人,但在实现上却有很大的出入,市场上许多数据挖掘 具其 实不过是数理统计的应用,它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包 括许多毫无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应用中,有效地利用 数理统计就已经能够获得可观的效益。 2 2 联机分析处理( ol a p ) 2 2 1o l a f 的基本概念 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。当今的 数据处理大致可以分成两大类:联机事务处理( o nl i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 和联机分析处 理( o nl i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) 。o l t p 是传统的关系型数据库的主要应用,主要是基本的、 日常的事务处理,如银行交易;o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观的查询结果【3 】。olap 委员会对联机分析处理的定义为:是使分析人员、管 理人员或执行人员能够从多角度对原始数据中转换出来的、能够真正为用户所理解,并真正反映企 业维的信息进行快速、一致、交互的存取,从而获得对数据的更深入地了解的软件技术。 0 l a p 最终的数据来源与0 l t p 一样,均来自底层的数据库系统,但二者面对的用户群不同,数 据内容的特点也不同。两者的区别概述如表2 - 1 所示。 2 2 2o l a p 的特性 ( 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求,系统应能在数秒内对用户的大部分分 析要求做出反应。 ( 2 ) 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 ( 3 ) 多维性:多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和分析,包括对层次 6 第二章研究的理论基础及采用的关键技术 维和多重层次维的完全支持。 ( 4 ) 信息性:不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获取信息,并能 管理海量的信息。 o l t p 数据o l a p 数据 原始数据导出数据 细节性数据综合性和提炼性数据 当前值数据历史数据 可更新不可更新,但周期性刷新 一次处理的数据量小一次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常操作面向决策人员,支持管理需要 表2 - 10 l a p 数据与0 l t p 数据的区别 2 2 30 l a p 的分类m 1 0 l a p 按存储方式和特点主要分为三种方式:m o l a p 、r o l a p 、h o l a p 。 ( 1 ) m o l a p m o l a p ( l t i d i m e n t i o n a l0 l a p ) 是基于多维数据组织的olap 实现。是将按照主题定义的 o l a p 分析所用到的数据,生成并存储为多维数据库的形式,形成“超立方体”的结构。在其上进行 旋转,切片和钻取等多维分析操作,使最终用户从多个角度、多个侧面观察数据库中的数据,从而 了解包含在数据库中的信息。生成的多维立方体己经计算生成了些汇总值,当用户发出分析请求 时,从多维立方体中取得数据,而不是从数据仓库中取数据。这种方式对用户的反应速度较快,但 由于多维立方体通常是稀疏的,存储的利用率很低,造成存储空间的浪费。因此多维立方体中,不 可能存储大量的细节数据,综合数据较多,分析的粒度比较粗。 ( 2 ) r o l a p r o l a p ( r e l a t i o n a lo l a p ) 是基于关系数据库的o l a p 实现。以关系型结构存储和表示多维 数据,而不生成多维立方体,只是存储数据模型和数据仓库数据之间的映射关系,真正的数据物理 存储在数据仓库中。r o l a p 将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和 维关键字:另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维 表和事实表通过主关键字和外关键字联系在一起。形成了星型模式。对于层次复杂的维,为避免冗余数 据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模式。在进行多维分析 时,o l a p 服务器根据定义的模型和映射关系,从数据仓库中取得数据,进行实时分析。由于数据仓 库中保存了大量的细竹数据和描述性的数据,因而数据集比较大,且响应用户的分析请求时要进行 大量的关系表之间的连接操作,这就增加了对用户的响应时间,但数据只存储一次,相对于m o l a p , 节省了空间,且分析可以得到较细节的数据,即分析的粒度可以比较细。 ( 3 ) h o l a p h o l a p ( h y b r i do l a p ) 是基于混合数据组织的o l a p 实现。如低层是关系的,高层是多维矩阵 型的。这种方式具有更好的灵活性,综合两者优点,得到折中方案,对一些用户经常用到的维度和 度量值( 通常是一些聚集数据) ,保存为多维数据库,而与这些维度和度量值相关的详细数据,仍然 以关系型数据的形式保存在数据仓库中。这样既解决了o l a p 分析的速度问题和存储问题,也解决 了对详细数据的分析问题。 2 2 4o l a p 的多维数据概念和典型操作 多维结构是决策支持的支柱,也是o l a p 的核心。o l a p 展现在用户面前的是一幅幅多维视图。 维( d i m e n s i o n ) :是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个 7 东南大学硕士学位论文 维,如时间维、地理维等。 维的层次( l e v e l ) :人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的各 个描述方面,如时间维的层次有:日期、月份、季度、年。 维的成员( m e m b e r ) :维的一个取值,是数据项在某维中位置的描述。如“某年某月某日”就是 时问维的一个维成员 度量( m e a s u r e ) :多维数组的取值。如( 2 0 0 0 年1 月,上海,笔记本电脑,$ 1 0 0 0 0 0 ) ,这里由 一组维值确定的销售额$ 1 0 0 0 0 0 就是一个度量。 o l a p 的基本多维分析操作有钻取( d r i l l - u p 和d r i l l d o w n ) 、切片( s l i c e ) 和切块( d i c e ) 、 以及旋转( p i v o t ) 等。 钻取:是改变维的层次,变换分析的粒度。它包括向下钻取( d r i l l 一d o w n ) 、向上钻取( d r i l l u p ) 即上卷( r o l l - u p ) 。d r i l l - u p 是在某一维上将低层次的细节数据概括到高层次的汇总数据;而 d r i l l 一d o w n 则相反,它从汇总数据深入到细节数据进行观察。 切片和切块( s l i c e 和d i c e ) :是在一部分维上选定值后,关心度量数据在剩余维上的分布。如 果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转( p i v o t ) :是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 2 3 数据挖掘技术“0 “1 1 2 3 1 数据挖掘的基本概念 数据挖掘( d a t a m i n i n g ) 是从大量的、不完全的、有噪声的、模糊的及随机的实际应用数据中,挖 掘出隐含的、先前朱知的、对决策有潜在价值的知识和规则的过程。数据挖掘的目的是帮助决策者 寻找数据间潜在的关系,发现经营者被忽略的要素,而这些要素对预测趋势、决策行为也许是十分 有用的信息。数据挖掘技术是可以满足和解决当前“数据太多,信息不足”的技术。 2 3 2 数据挖掘的主要功能 数据挖掘任务一般可以归为以下几类:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论