




已阅读5页,还剩51页未读, 继续免费阅读
(管理科学与工程专业论文)基于数据仓库技术的电力营销决策支持系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于数据仓库技术的电力营销决策支持系统 摘要 随着电力体制改革的深入,电力企业的市场化步伐加快,其生产的各个环节 对管理的要求也越来越高,信息的处理也越来越需要先进的信息技术的支持。传 统的管理方式己经不能完成当前的技术要求,导致对收集的信息不能科学有效进 行处理和利用,缺乏综合分析决策和对未来发展趋势进行科学预测的能力。 在分析电力营销业务的基础上,本文基于数据仓库理论、决策支持系统理论 建立了电力营销支持系统。首先,分析了电力营销系统的现状,阐述了数据仓库 技术的现状及基于数据仓库方法的决策支持系统的研究;论述了数据仓库理论知 识,即数据仓库的定义和特点、数据仓库系统的结构等。 其次,详细分析了电力营销数据仓库的业务和数据模型,并且根据业务需求, 设计了数据仓库的数据结构和逻辑模型。对数据挖掘算法中的关联规则分析和决 策树分类法在电力营销决策中的应用进行了研究。提出了一种基于数据库的改进 a p f i o f i 算法和基于信息熵的决策树挖掘算法,提高了算法执行速度和效率,并在 系统中实现,取得了良好的效果。 最后,提出了电力营销决策支持系统的总体设计方案,并以电力营销中的购 售电工作为例,给出电力营销决策支持系统的数据转换聚合子系统、营销工作查 询子系统两部分的具体实现过程,完成了包括数据转换、多维预览等功能。 关键词: 电力营销,决策支持,数据仓库,数据挖掘 p o w e rm a r k e t i n gd e c i s i o ns u p p o r ts y s t e mb a s e d - o i ld a t a w a r e h o u s e t e c h n o l o g y a b s t r a c t w i t ht h ed e e p e n i n go ft h es y s t e mr e f o r mo fd e c t f i cp o w e r , a n dt h ea c c e l e r a t i o n o ft h em a r k e t - o r i e n t e dp a c e so ft h ep o w e rs u p p l y e n t e r p r i s e ,t h er e q u e s t t o m a n a g e m e n ti sm o r ea n dm o r es t r i c ti ne v e r yp a r to fp o w e rc o m p a n i e s ,m o r ea n dm o r e i n f o r m a t i o nn e e db em a n a g e db ya d v a n c e dt e c h n o l o g y c o n v e n t i o n a lm a n a g e m e n t w a y sc a n td e a ls c i e n t i f i c a l l yw i t hi n f o r m a t i o nc o l l e c t e da n dl a c ko ft h ea b i l i t yt o a n a l y z es y n t h e t i c a l l ya n df o r e c a s tt h et r e n d so ff u t u r ed e v e l o p m e n tb e c a u s eo ft h el i m i t o ft e c h n i q u e a f t e ra n a l y z i n gp o w e rm a r k e t i n gt a s k s ,p o w e rm a r k e t i n gd s sb a s e do nd w t h e o r ya n dd s st h e o r ya r eb u i l ti nt h i sp a p e r f i r s t l y , t h ep a p e ra n a l y z e st h ep r e s e n t s t a t u so fp o w e rm a r k e t i n gi n f o r m a t i o ns y s t e m ,e x p o u n d st h ep r e s e n ts t a t u so fd w t e c h n o l o g ya n dt h er e s e a r c ho nd s sb a s e do nd wm e t h o d ;i td i s c u s s e sd wt h e o r y k n o w l e d g e ,t h a ti s ,t h ed e f i n i t i o na n dc h a r a c t e r i s t i c so fd w 、t h ea r c h i t e c t u r eo fd w s y s t e m ,e t c s e c o n d l y , t h eb u s i n e s sa n dd a t am o d e lo fp o w e rm a r k e t i n gd a t aw a r e h o u s ea r e a n a l y z e dt o o ,a n dd a t as t m c t u r ea n dl o g i c a lm o d e lo fd w a l ed e s i g n e da c c o r d i n gt o b u s i n e s sd e m a n d t h ep a p e rr e s e a r c h e so nt h ea p p l i c a t i o no fa s s o c i a t i o nr o l e sa n d d e c i s i o nt r e ec l a s s i f ym e t h o di np o w e rm a r k e t i n gd e c i s i o n ,a n do f f e r sr e v i s e da p f i o r i a l g o r i t h mb a s e d o i ls q ls e r v e rd a t a b a s ea n dd e c i s i o nt r e ed ma l g o r i t h m , i m p r o v i n ge x e c u t i n gs p e e da n de f f i c i e n c y ,h a v i n gr e a l i z e di ns y s t e m ,a c h i e v i n gb e t t e r f o r e c a s t i n ge f f e c t f i n a l l y , t h es c h e m ed e s i g na n dr e a l i z a t i o no fp o w e rm a r k e t i n gd e c i s i o ns u p p o a s y s t e mi sp r e s e n t e d k e yw o r d s :p o w e rm a r k e t i n g ,d e c i s i o ns u p p o r t ,d a t aw a r e h o u s e ,d a t am i n i n g i i 插图清单 图2 1 标准数据仓库模型8 图2 2 数据仓库的改进模型9 图2 3 改进结构的处理数据流一9 图3 1 星型模型1 8 图3 - 2 雪花模型1 9 图3 3 星型连接2 1 图4 - 1 基于s q l s e r v e r 数据库的改进a p r i r o i 算法的流程图2 8 图4 2 决策树计算结果3 3 图5 1 电力营销决策支持系统示意图3 6 图5 - 2 数据处理流程3 9 图5 3 基于数据仓库技术的d s s 4 0 图5 - 4 决策支持系统硬件拓扑图4 2 图5 5 信息包图4 4 图5 - 6p i v o t t a b l es e r v i c e 体系结构示意图4 5 图5 - 7 用电营销综合查询4 6 图5 - 8 用户信息查询4 6 v l 表格清单 表2 - 1o l t p 系统和o i a p 系统的比较1 1 表3 - 1 主题划分一1 6 表4 - 1 转换成单维布尔关联的数据视图2 6 表4 - 2 决策树数据表3 1 v i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得 盒b b 兰些叁堂或其他教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名: 签字日期:“年月f 毕日 学位论文版权使用授权书 本学位论文作者完全了解盒目b 王些太堂有关保留、使用学位论文的规定。有权保留并 向国家有关部门或机构送变论文的复印件和磁盘,允许论文被查阅和借阅。本人授权盒目b 王 些友堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 搠晕 签字日期:州、5 ,i 斗 学位论文作者毕业后去向; 工作单位: 通讯地址: 电话 邮编 易日 移 月廛年 群 董| | 聊 黼 致谢 本人在三年的硕士研究生课程学习和撰写学位论文的过程中,自始至终得到 了我的导师梁昌勇教授的悉心指导,无论从课程学习、论文选题,还是到收集资 料、论文成稿,都倾注了梁昌勇老师的心血,由衷感谢梁昌勇老师在学业指导及 各方面所给予我的关心以及从言传身教中学到的为人品质和道德情操,老师广博 的学识、严谨的治学作风、诲人不倦的教育情怀和对事业的忠诚,必将使我终身 受益,并激励我勇往直前。 同时,真诚感谢管理学院的全体老师,他们的教诲为本文的研究提供了理论 基础,并创造了许多必要条件和学习机会;感谢网络所的老师和同学,在我课程 学习和论文撰写期间,给予我的大力支持。 i i i 作者:杨晖 2 0 0 6 年6 月1 4 同 1 1 研究背景及意义 第一章绪论 通过长期的发展,我国电力行业在信息化建设上已经取得很大成绩,特别 是在“九五”期间,电力行业大规模开展了管理信息系统的建设和实用化工作。 电力行业的管理信息系统基础建设初具规模,建立了以办公自动化、综合 指标查询、计划统计管理、人事劳资管理、生产管理、设备管理、安全监督管 理、电力负荷管理、营销管理、燃料管理、科技教育管理、财务管理、电网实 时信息和电子邮件等应用系统【1 1 ,并在各级电力企业中得到广泛的使用,大大 的提高了电力企业的管理水平。 随着电力体制改革的深入,电力企业的市场化步伐加快,电力营销成为电 力市场化的重要组成部分。电力营销管理以市场和客户服务为轴心,以方便客 户为宗旨,通过优化重组业务流程,创新服务方式,强化监管能力,提高企业 决策和管理水平1 2 】。其运作好坏将直接决定电力工业市场化改革的进程和成败。 而决策支持系统的特点和技术又决定了它是电力营销市场化运作的必要技术平 台。 2 0 世纪9 0 年代以来的电力行业信息化进程,用电m i s 系统、办公自动化 系统等业务与管理系统的相继投入使用,为电力企业积累了大量的历史数据, 电力企业产生了正在以指数速度增长的大量基础性数据,展现在运行人员和决 策者面前的己经不是局限于本单位、本部门和本行业的庞大数据库,而是浩瀚 无垠的数据海洋。传统的m i s 系统只能对数据库中的数据进行诸如录入、查询、 统计等操作性处理,通过这种处理所获得的信息仅仅是整个数据库所包含信息 知识的一小部分,缺乏对数据整体特征的描述及其发展趋势预测方面的知识, 无法发现数据中存在的关系和规则以及根据现有的数据预测未来的发展趋势, 从而导致“数据爆炸”和“知识贫乏”的现象。这些海量数据需要提炼并升华 为有用的信息及时提供给业务分析人员与管理决策者1 3 4 1 。 信息技术的迅猛发展使越来越多的企业认识到,信息作为一种战略性资源, 能决定一个企业在国内和全球竞争中的命运。如何将这些操作型基础数据转变 为决策型信息,从这些历史数据中挖掘出“宝藏”,为企业发展提供辅助决策依 据,已经成为当前电力企业的当务之急。例如,随着电力事业的蓬勃发展,电 力由短缺趋向相对缓和,如何“扩供促销”成为摆在电力企业面前的一项重要 任务;电力企业应该出台何种优惠政策鼓励用户用电;采取何种措施削峰填谷; 如何开拓电力市场,这些决策可以从企业信息库中积累的数据获得帮助。 针对这一状况,面向决策支持的数据仓库( d a t aw a r e h o u s e ,缩写为d w ) 技 术应运而生,本文将针对电力营销行业领域,探讨和研究数据仓库技术在电力 营销决策支持系统中的应用。 1 2 国内外研究现状 1 2 1 电力营销系统 一般来说,整个电力营销系统体系宏观上可以划分为客户服务层、营销业 务层、质量管理层和分析决策层四个层次,客户服务层为客户提供高效、便捷 的供电服务,树立电力企业的良好服务形象。如电力客户服务呼叫中心、营业 厅触摸屏、电力客户服务网站、手机短消息服务系统。业务支撑层按照标准化、 规范化、科学化的管理原则,快捷、准确地处理具体电力营销业务,实现工作 质量和效率的提高。它涵盖电量电费、业扩报装、计量管理、用电检查和综合 管理在内的一整套用电营销业务。质量管理层对客户服务层和营销业务层的业 务处理流程、业务处理时限、客户服务质量、投诉处理时限等进行监控和考核 管理。分析决策层为制定营销管理目标及营销决策提高科学的依据。分析决策 层是电力营销管理的最高层,它主要完成综合指标分析、用电需求预测、市场 策划等功能,并为高层营销决策提供全面的信息支持,电力营销决策支持系统 就是用来完成这部分功能的。 我国电力营销系统是从上世纪9 0 年代初期,由简单的电费核算单机系统经 过不断的功能扩充与升级改造,形成了包括电费计算、业扩变更、计量管理、 电费收费、综合查询、银企联网等子系统在内的,囊括了电力客服技术支持系 统“业务处理层”的大部分应用网络系统。 目前各省电力公司正积极建设自己的营销信息管理系统,提高对市场的快 速反应能力【5 ,“。如湖北省电力公司电力营销的各项业务如客户服务、资产管理、 业扩报装、日常营业、营销质量监察、收费账务等基本实现了电子化,已覆盖 了计量所、客户服务中心、市场营销部以及相关部门。江苏省电力公司到目前 为止已建立了全国领先的客户服务层、营销业务层管理软件,基本统一了全省 的营销管理系统,将全省的营销现代化工作推进了一大步。在此基础上,江苏 省公司正在着力开发营销管理决策支持层软件。上海市电力公司建设了全公司 统一的电力营销管理信息系统,整个系统按照数据集中、业务集中的要求采用 了基于数据中心的技术为全市所有客户服务,能够同时满足集中和分散的业务 处理模式,并提供基于测览器的综合查询、统计分析和考核的功能模块,为上 海市电力公司电力营销工作的开展提供有效的技术支持。在文献 7 】中,广东电 力局建立面向规划的数据仓库,利用聚类、分类、关联、总结等规则进行数据 挖掘,为辅助决策系统增加约束条件;寻求负荷变化与经济因素的联系模型, 克服了单纯从数学模型角度进行负荷预测的局限性。 但目前,对于电力营销系统中的营销辅助决策支持子系统的建设在全国来 说刚起步。国内致力于电力综合自动化决策支持系统研究的企业只有为数不多 的几家,如:深圳金蝶和福州起点等,这些企业的一个共同点就是都在有关数 据仓库和决策支持系统方面进行了一定的研究,积累了不少相关的经验,但是 对于情况较为特殊的电力营销决策支持系统的研究,却很少涉足。真正在电力 营销决策支持方面开展研究工作,并取得一定成效的是东方电子,但他们只是 对于解决确定的、目标单一的、例行决策支持和管理问题取得了良好的效果; 而对于电力营销决策经常要面对的突发性事件,却没有提供有力的支持。方式 表达出来,辅助进行用户分析的实例。 2 0 世纪8 0 年代以来,以英国、美国为代表的一些西方国家,对其电力市场 及电力营销体系进行了一系列的改革,将开放、自由的电力市场作为改革的目 标,在2 0 多年的摸索实践中取得了一定的经验”9 3 。世界各国电力市场化改革 的道路虽不尽相同,但各国都强调要根据实际采用符合各自国情的电力市场模 式,使电力市场更贴近于其他相关的商品市场,更好地反映电力商品特殊性的 特点,主要有以下5 种模式:垂直统一垄断模式、发电竞争上网模式、限制性 趸售竞争模式、完全的趸售竞争模式、零售竞争模式。这5 种模式均各有优点, 都为新的电力市场注入了新的活力。特定的技术分析问题上,文献【1 0 】中介绍了 意大利某电力公司混合使用神经网络技术和模糊聚类,把用户的管理、消费、 交易等数据进行综合处理,以欧几里得距离为判据得到分类的用户模型,并用 可视化的方式表达出来,辅助进行用户分析的实例。 1 2 ,2 数据仓库技术 9 0 年代初,w h 1 n l t l o n 在“记录系统”、“原子数据”和“决策支持系统” 等专项研究报告中,提出了数据仓库( d w ) 的概念,1 9 9 3 年,e e c o d d 发表 ( ( p r o v i d i n go l a p t ou s e r a n a l y s i s ) ) 一文,提出了o l a p 技术,并给出了o i _ a p 产品的十二条评价准哽| j 。数据库中韵知识发现k d d ( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) - - 词( 又称为数据挖掘) 的出现首先出现在1 9 8 9 年8 月在美国底特律 召开的第1 1 届国际人工智能会议( t h e1 1i n t e r n a t i o n a lj o i n tc o n f e r e n c eo n a d ) j j 。 现在,数据仓库技术经过了十几年的研究与发展,在理论与工程实践上都 取得了显著的成果。国际上许多重要的学术会议,如超大型数据库国际会议 ( v l d b ) ,数据工程国际会议( d a t ae n g i n e e r i n g ) 等,都出现了大量专门研究 数据仓库( d w ) 、联机分析处理( o n l i n e a n a l y t i c a lp r o c e s s i n g ,缩写为o l a p ) 、 数据挖掘( d a t am i n i n g ,缩写为d m ) 的论文,同时各大数据库厂商纷纷推出 相应产品支持数据仓库,比如n c r 、s a s 、o r a c l e 、i b m 、i n f o r m i x 、s y b a s e 等 都提出了相应的数据仓库解决方案【1 2 , 1 3 】。 3 随着数据仓库技术的兴起,越来越多的企业开始建设自己的数据仓库系统, 希望取得较高回报率,增强企业的竞争力。数据仓库的概念一经出现,就首先 被用于金融、电信、保险等主要传统数据处理密集型行业,使这些企业获得了 比原来更多的效益。但各个企业的业务、数据、应用各不相同,面在数据仓库 系统的实现中,也采用了多种不同的解决方案,出现了形形色色的数据仓库建 模工具、分析工具和展示工具【“】。 国外对数据仓库的研制始于9 0 年代初,现在已有一些商品化的数据仓库系 统,如s y b a s e i q 、o r a c l ee x p r e s s 和s q ls e r v e r 等;国内哈尔滨工业大 学开发了并行数据仓库管理系统p d w m s ,南京大学开发了数据仓库原型系统 s o f l b a s ew a r e ,文献“”在国产的数据库管理系统d m 3 的基础上开发了跨平台的 数据仓库管理系统d m d w ,它的特点是支持多种数据集成方式,支持实化视图 的增量维护,使数据源不必冻结生产数据。文献“”根据我国目前的数据库使用状 况和数据仓库应用的建设要求,开发研制了一个数据仓库工具集n g d w 一1 ,适 合于我国中低端数据仓库的应用需要。该系统与第三方的工具相结合,可以提 供一个完整的数据仓库应用解决方案。 1 2 3 决策支持系统 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 是涉及到计算机软件、硬件、 信息论、人工智能、信息经济学、管理科学、行为科学等跨学科的技术,旨在 通过人机交互系统、网络技术和通信技术综合利用各种数据、信息、知识,特 别是模型技术支持决策工作,解决决策过程中的半结构化和非结构化问题,帮 助决策者提高决策水平和实现决策的科学化【1 7 l 。决策支持系统主要用于企业的 管理者和领导者进行科学计划、趋势分析、正确判断、事件决策,将客观详实 的数据和宝贵经验有效地结合起来,确保能够迅速、有利、正确地做出决策和 行动。d s s 技术自7 0 年代中期提出以来,已在很多领域得到开发与应用。 决策支持系统的发展经历了电子数据处理( e d p ) 阶段,管理信息系统( m i s ) 阶段,到7 0 年代初发展到决策支持系统( d s s ) 阶段,1 9 7 1 年s c o t tm o r t o n 在 管理决策系统中最先提出决策支持系统的概念【1 8 1 ;8 0 年代,人工智能技术 蓬勃发展,将人工智能与专家系统的理论、方法应用于决策支持系统产生了智 能决策支持系统( i d s s ) ,智能决镱支持系统综合运用d s s 定量模型求解与分 析及人工智能技术特别是专家系统定性分析和不确定推理的优势,充分运用人 类在问题求解中的经验和知识,通过人机对话的方式,为解决半结构化或非结 构化问题提供决策支持,使d s s 能够更充分地应用人类的知识,增加了d s s 的 “柔性”,使系统能适应决策问题与决策环境的变化,提高了决策支持能力;进 入9 0 年代以后,随着计算机网络与信息处理技术( 自动控制、人工智能、机器 学习、软计算、神经网络、遗传算法、粗糙集、数据仓库、数据挖掘、定性推 4 理理论、证据理论、基于范例推理、智能主体、面向对象设计方法等) 的迅速 发展、决策支持系统的决策理论、方法和技术呈现出全面多元的发展。同时在 计算机界悄然兴起数据仓库、o l a p 技术和数据挖掘技术的研究和开发热潮。 这为克服智能决策支持系统中所遇到的问题提供了技术上的支持,开辟了新的 思路。智能决策支持系统( i d s s ) 成为决策支持系统的研究热点 1 9 , 2 0 , 2 1 1 。 1 3 本文研究内容 在电力行业中,随着管理信息系统的发展,电力企业积累了大量基础数据, 这些数据是对电力企业的业务运作的详实记录,是企业最宝贵的数据资源。但 由于种种原因,这些数据未能充分发挥其作用。其中最主要的两个方面表现在: ( 1 ) 信息共享度低。目前电力企业的大部分己经建成了无纸化营业报装系 统,电费计算系统,远程抄表系统,负荷监控系统,s c a d a 实时数据采集系统 等,由于各个子系统建设时大多是各个基层使用单位根据自身需要进行开发, 建设过程中受技术和认识的局限,开发的系统仅局限于本单位或者本专业的应 用,对信息的共享问题重视不够。虽然部分网络通过网桥互连,但由于网间数 据不可加工利用,因而无法实现真正意义上的信息共享;各个管理部门和生产 部门缺乏流畅、清晰的信息流转通道。这些系统表达信息的数据随着时间和业 务的推进而不断膨胀,而且数据分布在不同的系统平台上,并具有多种存贮形 式【2 2 】。 ( 2 ) 信息缺乏综合利用。目前计算机系统在业务处理方面发挥着举足轻重的 作用,同时也为电力企业积累了大量基础数据。数据中包含了许多十分有用的 信息,这些信息可以为企业发现问题及进行决策提供很大的帮助。如何将这些 信息综合利用起来,从这些历史数据中挖掘“宝藏”,也就是将操作型数据转变 为决策型数据,为决策提供依据是需要我们急待解决的问题。 对有相当数据积累的电力企业来说,需要一种面向最终用户的自由查询和 统计分析的工具,使业务人员和决策者可以任意访问企业信息数据,迅速做出 正确而及时的决策。而依靠传统统计分析方式己经远远不能满足电力市场的要 求,因此,使用具有灵活查询、在线分析处理、复杂报表能力为一体的决策支 持系统s s ) 己变得十分迫切。 由于全面设计并实现电力营销决策支持系统是一项非常庞大的系统工程, 因受制于各方面因素的限制,要在短时间内完成这项工程是不现实的。本文结 合作者在具体项目工程的实践,着重于结合电力营销行业研究决策支持系统的 总体框架设计和相关内容( 如d w 设计、o l a p 设计等) 以及售电关联规则分析和 预测算法,旨在为电力营销决策支持系统的设计和实现提供参考。本文的主要 研究内容有: ( 1 ) 针对电力营销决策支持系统进行详细的需求分析设计,在深入分析和研 究数据仓库、数据挖掘以及多维分析技术基础上提出了一种基于数据仓库的电 力营销决策支持系统的结构框架模式。 ( 2 ) 对数据挖掘算法中的关联规则分析和决策树分类法在电力营销决策中 的应用进行了研究。 ( 3 ) 在对电力营销决策支持系统框架模式中关键技术_ d w 技术和o l a p 技术进行分析和研究的基础上,设计电力营销数据仓库的具体实现方案。 ( 4 ) 提出了电力营销决策支持系统的总体设计方案,完成了其软件和硬件运 行环境的设计,进行了数据转换聚合子系统、统计报表生成子系统、综合查询 子系统和综合分析子系统四部分的设计。 ( 5 ) 以电力营销中的购售电工作为例,给出电力营销决策支持系统的数据转 换聚合子系统、营销工作查询子系统两部分的具体实现过程,完成了包括数据 转换、多维预览、报表图表显示等功能。 1 4 章节安排 文章章节安排如下: 第一章绪论介绍电力营销系统的现状;决策支持系统、数据仓库技术的现 状。 第二章阐述了数据仓库技术理论知识,即数据仓库的定义和特点、数据仓 库系统的结构、r o l a p m o l a p h o l a p 、o l a p 操作,数据挖掘模型等。 第三章详细阐述了电力营销数据仓库的建立,分析了电力营销数据仓库的 业务和数据模型,并且根据营销管理的一个业务主题供用电合同的业务需 求,设计了数据仓库的数据结构和o l a p 层。 第四章对数据挖掘算法中的关联规则分析和决策树分类法在电力营销决策 中的应用进行了研究。提出了一种基于数据库的改进a p r i o r i 算法和基于信息熵 的决策树算法,提高了算法执行速度和效率,并在系统中实现,取得了良好的 效果。 第五章基于数据仓库理论、决策支持系统理论介绍了电力营销决策支持系 统分析与实现。 第六章是总结与展望。 第二章数据仓库技术概述 2 1 数据仓库的概念和特征 1 9 9 1 年,数据仓库之父w h i n m o n 首次提出了数据仓库的概念:“数据仓 库是面向主题的、集成的、时变的、稳定的数据集合,用以支持决策制定过程【2 3 1 。” 这个简要又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、 集成的、时变的、非易失的( 稳定的) ,将数据仓库与其他数据存储系统相区 别【2 4 】。 主题是在一个较高层次将数据归类的标准,每一个主题对应一个宏观分 析的领域。基于主题的数据处理被划分为各自独立的领域,每个领域有 自己互不交叉的逻辑内涵。 集成是指源数据库的数据进入数据仓库前,必须经过清理、抽取、转换 等加工,将源数据的结构从面向应用转换到面向主题。通常,构造数据 仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记 录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码 结构、属性度量等的一致性。 时变是指数据仓库内的数据是历史数据,数据时限长,数据包含时间项 属性。 非易失的,又叫稳定,是指数据经集成进入数据仓库后极少或根本就不 改变。通常,它只需要两种数据访问:数据的初始化装入和数据访问。 概而言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据 模型的物理实现,并存放企业战略决策所需信息。 2 2 数据仓库的体系结构 2 2 1 常用的数据仓库体系结构 常用的数据仓库体系结构如图2 - 1 所示,它集成源数据库的数据,并将其存 储在数据仓库中,用户直接从数据仓库访问数据。这个结构简单易行,但它不 能及时地自动侦测源数据库的更新,只有当高端应用对数据仓库进行查询时, 才由数据仓库的实化视图对相关的源数据库发动查询,源数据库对更新处理处 于被动状态。 7 图2 - 1 常用的数据仓库体系结构 2 2 ,2 改进的数据仓库体系结构 本文建议在数据仓库体系结构中添加个更新辅助结构( 如图2 2 所示) , 来优化数据仓库的性能,减少用户查询时间。该结构假定为非易失随机存储器 n v r a m ,用它作为数据仓库和数据解释器之间的缓冲存储区。 1 基本原理 辅助结构和源数据库( s d b ) 之间的数据流是单向的,负责接收由s d b 提 交到数据解释器的更新数据。辅助结构和数据仓库之间的数据流是双向的,它 向数据仓库提供视图维护的基本数据,数据仓库的查询和维护请求则在辅助结 构中执行完成 2 5 , 2 6 】。有了这个辅助结构的好处在于避免了数据仓库在接收数据 解释器中数据的同时,对数据库表和用户视图执行更新维护。使得数据仓库的 更新选择在系统空闲时间,而不是新数据由源数据库转换的同时进行。据文献 2 7 j , 数据仓库使用具有周期性,因此必然存在接收更新数据的空闲时间。另外数据 仓库可以查询辅助结构获取更新数据,反馈给用户的查询。为了防止辅助结构 中数据溢出,还设一个机制强制执行更新事务将有关数据传送到数据仓库。 图2 - 2 数据仓库的改进模型 2 改进结构的设计实现 新模型结构重点在于用户查询,系统对用户查询响应拥有对系统其他进程 更高的优先权。高优先权是由于整个系统的重点是服务用户的要求而非其他的 数据仓库进程【2 8 1 。 ( 1 ) 功能结构 图2 - 3 改进结构的处理数据流 图2 3 所示,来自数据解释器的数据,首先存放在更新辅助结构的数据表 中。这些辅助表( 例如索引) 是存储在数据仓库中的表的副本,但是不具有与 9 数据仓库结构相联系的管理能力。它们是用于更新数据仓库的临时存储,而不 用于用户直接访问。更新信息传送到辅助结构时,一个机制检查辅助结构的空 问相对分配给辅助结构的n v r a m 空间所占比例。当辅助结构已使用空间达到 n v r a m 空间的9 5 ,标志溢出,更新辅助结构自动生成数据包和必要的查询 传递给数据仓库。溢出功能触发器是一种安全措施,防止因为更新辅助结构的 存储空间满,不能接收来自数据解释器的数据。操作流程是这样的:数据仓库 在空闲时间请求更新辅助结构里的数据。数据仓库的系统请求或者可能数据溢 出标志会触发更新进程。一旦更新进程被触发,更新辅助结构生成数据包,并 发送给数据仓库,用于插入到数据仓库表中。数据仓库中相应的数据表和视图 被更新,在更新完成后事务完成信息返回给辅助结构。然后辅助结构删除临时 存储表中的下相关数据,从而释放其占用的空间。 ( 2 ) 处理用户查询 提供有用信息给用户是数据仓库主要的目的,是数据仓库所有活动中最重 要的。数据仓库接到用户查询要求后,系统暂停队列表中除了来自辅助结构的 用户查询响应之外的所有队列。仓库应用程序确认用户查询,并将一个查询副 本立即发送给更新辅助结构,辅助结构临时内存中可能存有与查询相关的信息。 查询先在数据仓库的主数据表处理,查询的结果暂存在临时表里,该临时表用 于存放以后不断积累的查询结果数据。如果辅助结构里有任何与查询有用的数 据,会被立即提交给数据仓库作为对查询副本的响应。辅助结构响应用户查询 的数据传输在系统信息通道中有最高优先权,以确保来自数据仓库的信息要求 迅速地被处理,并使当前执行的用户查询较系统查询队列里其他查询最先获得 所需数据。如果辅助结构中没有数据符合用户查询要求,辅助结构提交一个空 包作为对查询副本的响应,以防止数据仓库空等待,使数据仓库能控制用户查 询进程,确认查询进程的结束。来自辅助结构的数据被加入到临时表里,数据 然后发给报表视图生成器处理成用户可读的形式。 2 3 联机分析处理0 l a p 1 9 9 3 年,“关系数据库之父”e e c o d d 首次提出了o l a p 的概念。o l a p 即o n l i n ea n a l y t i c a lp r o c e s s i n g ,是针对特定问题的联机数据访问和数据分析而 产生的一种技术,具有快速性、可分析性、多维性、信息性等特点。它满足d s s 从多种角度对数据进行快速、一致、交互地分析的要求,克服了传统d s s 交互 能力差的缺点,使决策者能够对数据进行深入观察【2 9 , 3 0 , 3 1 1 。 1 o l a p 和o l t p 的区别 o l a p 主要通过多维的方式来对数据进行分析、查询和报表。它不同于传 统的o l t p 应用。o l t p 应用主要是用来完成用户的事务处理,通常要进行大量 的更新操作,同时对响应时间要求比较高。而o l a p 应用主要是对用户当前及 1 0 历史数据进行分析、辅助领导决策。其典型的应用有对银行信用卡风险的分析 与预测、公司市场营销策略的制度等。主要是进行大量的查询操作,对时间的 要求不太严格。 o l t p 和o l a p 的区别概括在表2 - 1 中。 表2 - 1o l t p 系统和o l a p 系统的比较 特性 o l t p0 l a p 特征操作处理信息处理 面向事务分析 用户办事员、d b a 、数据库专业人员知识工人( 如经理、主管、分析员) 功能日常操作长期信息需求、决策支持 d b 设计基于e - r ,面向应用星型雪花,面向主题 数据当前的,确保最新历史的、跨时间维护 汇总原始的、高度详细 汇总的,统一的 视图详细、一般关系汇总的,多维的 工作单位短的,简单事务复杂查询 存取读写 大多为读 关注数据进入 信息输出 操作主关键字上索引散列大量扫描 访问记录数量数十个数百万 用户数数千 数百 d b 规模1 0 0 m b 到g b 1 0 0 g b 到t b 优先高性能、高可用性高灵活性,端点用户自治 度量事务吞吐量 查询吞吐量。响应时间 2 r o l a p m o l a p h o l a p o l a p 产品在上层尽管都提供多维分析的数据模型,但在底层具体实现上 按照数据的存储结构基本上又分为:基于多维数据库的m o l a p 、基于关系数据 库的r o l a p ,以及混合o l a p ( h o l a p ) 。r o l a p 是一种直接用关系型数据库 做存储结构的o l a p 系统。r o l a p 技术比m o l a p 技术具有更大的可伸缩性。 m o l a p 是通过基于数组的多维存储引擎,支持数据的多维视图。它们将多维视 图直接映射到数据立方体数组结构。h o l a p 结合r o l a p 和m o l a p 技术,得 意于r o l a p 较大的可伸缩性和m o l a p 的快速技术。例如,h o l a p 服务器允 许将大量详细数据存放在关系数据库中,而聚集保持在分离的m o l a p 的存储 中。 在数据仓库应用中,联机分析处理应用一般是数据仓库应用的前端工具, 1 1 同时,联机分析处理工具还可以同数据挖掘工具、统计分析工具配合使用,增 强决策分析功能。 3 o l a p 操作 o l a p 操作包括上卷、下钻( 钻过、钻透) 、切片和切块、转轴( 旋转) , 以及求等级、计算平均值和增长率等统计操作。 上卷( r o l l u p ) 是通过一个维的概念分层向上攀升或者通过维规约,在数据 立方体上进行聚集。例如,l o c a t i o n 维的概念分层定义为全序 s t r e e t c i t y p r o v i n c eo rs t a t e c o u n t r y 。上卷操作沿l o c a t i o n 的分层,由c i t y 层向 上到c o u n t r y 层聚集数据。 下钻( d r i l ld o w n ) 是上卷的逆操作,它由不太详细的数据到更详细的数据。 下钻可以通过沿维的概念分层向下或引入新的维来实现。例如,沿着 d a y m o n t h = m i n _ s u p 1 0 ) 1 1 ) r e t u r nl :u x l k ; p r o c e d u r e a p f i o r i _ g e n ( k 1 :f r e q u e n t ( k 一1 ) - i t e m s e t s ;m i n _ s u p :m i n i m u m s u p p o r t t h r e s h o l d ) 1 ) f o re a c hi t e m s e t l r 一1 2 ) f o r e a c hi t e m s e t1 2 l r 一1 3 ) i f ( , 1 】= 1 2 【1 】) a ( f 1 【2 】= 1 2 1 2 ) a a ( f 1 陋一2 】= 1 2 k 一2 】) a “冲一1 】c 1 2 k 1 ) t h e n 4 )c = 1 0 0 1 2 ;j o i ns t e p :g e n e r a t ec a n d i d a t e s 5 ) i fh a s _ i n f r e q u e n t _ s u b s e t ( c ,k 1 ) t h e n 6 ) d e l e t e c ; n e l s ea d dc t o c k ; 8 ) 9 、r e t u r nc k ; p r o c e d u r eh a s _ i n f r e q u e n t _ s u b s e t ( c :c a n d i d a t ek - i t e m s e t ;i _ l :f r e q u e n t ( k 一1 ) 一i t e m s e t ) u s ep r i o rk
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 任务二 风筝的制作说课稿-2025-2026学年小学劳动浙教版五年级下册-浙教版
- 机械厂仓储管理制度
- Project 1说课稿-2023-2024学年小学英语五年级上册牛津上海版(深圳用)
- 化肥厂备品备件存储规章
- 教育培训机构保密合同范本
- 国有建设用地使用权续期合同
- 第6课 竖提说课稿-2025-2026学年小学书法练习指导三年级下册北师大版
- 4.9.1人体产生的代谢废物说课稿-2024-2025学年北师大版(2024)生物七年级下册
- 2019人教版高中生物必修二教学设计
- 第7课 网络文明博客-博客的使用说课稿-2025-2026学年初中信息技术辽师大版2015七年级下册-辽师大版2015
- 采购战略合作协议范本5篇
- 财务部安全生产培训报告课件
- 基于CAN通讯的储能变流器并机方案及应用分析报告-培训课件
- 腹直肌分离康复(产后康复课件PPT)
- 聚合物成型的理论基础课件
- 药监系统官方培训06细菌内毒素方法介绍-蔡彤
- 慢性中耳炎的并发症课件
- 灭火器每月定期检查及记录(卡)表
- 千米、分米和毫米的认识单元备课
- 药品生产质量管理工程完整版课件
- 人工智能(AI)在人力资源领域的应用与展望
评论
0/150
提交评论