已阅读5页,还剩76页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据仓库的移动通信网络优化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 通信行业竞争日益激烈,如何通过对现有历史数据的分析,提高网络资源的利用 率,制定切实有效的业务政策来指导企业合理分配资源、提高服务质量,是通信行业决 策者亟需解决的问题。数据仓库是近年来兴起的一种新的数据库应用技术,它支持管理 部门的决策制定过程。联机分析处理( o l a p ) 针对特定问题进行联机数据访问与分析, 是数据仓库系统的主要应用。它通过多维的方式对数据进行分析、查询和报表,最终帮 助决策者得出正确的决策。因此,近几年数据仓库与o l a p 技术发展很快,并在很多行 业得到了应用。 我们针对省级移动通信公司提出的网络优化需求,提出了省级移动公司的网络优 化解决方案。同时,应用a n a l y s i ss e r v i c e s 创建了省级移动移动通信网络数据的数据仓 库,在此基上设计了各种网络优化分析模型。其中,在网络经营分析主题中设计了网络 运行质量分析模型、网络业务量分析模型、小区价值分析模型、分区域业务量分析模型、 分品牌业务收益分析模型。在无线网络资源及利用率分析主题中设计了现网无线资源及 配置模型、现网话务量及t c h 利用率分析模型、系统超忙超闲小区分析模型、现网未 服务载频处理分析模型、特殊时段的网络状况分析模型。在话务统计与分析主题中设计 了话务量统计模型、全省小区统计模型、基于用户群体的业务统计与业务发展策略分析 模型。在预测主题中利用回归预测方法设计出话务量预测模型,利用曲线拟合法设计了 用户数预测模型。在预警主题中设计了h l r 、v l r 、b s c 、m s c 容量预警模型。最后 的分析结果以表格、柱图、线图、饼图等多种数据呈现形式展现给决策者。针对移动设 备的地理分布特点,实现了g i s 数据呈现的方式,使得分析结果的呈现更加直观。 系统试运行后,分析结果与实际数据相符,数据仓库与分析模型的设计符合优化 分析需求,基本实现了省级移动通信网络资源优化配置的目标。 关键词数据仓库;o l a p , a n a l y s i ss e r v i c e s ;移动通信:网络优化 a b s t r a c t a b s t r a c t t h ec o m m u n i c a t i o nb u s i n e s s e sb e c o m em o r ea n dm o r ec o m p e t i t i v e ,h o wt oi m p r o v e u t i l i z a t i o nr a t i oo ft h en e t w o r kr e s o u r c e s ,d e v e l o pe f f e c t i v ea n dw o r k a b l ep o l i c i e st og u i d e t h ee n t e r p r i s e st od i s t r i b u t er e s o u r c e sr a t i o n a l l y , p e r f e c ts e r v i c eq u a l i t ya n dr e d u c es e r v i c e c o s t st h r o u g ht h ea n a l y s i so ft h eh i s t o r i c a ld a t a , a l lt h e s ea r et h es e r i o u sp r o b l e m st h e c o m m u n i c a t i o nb u s i n e s sd e c i s i o n - m a k e r sh a v et oc o p ew i t h i nr e c e n ty e a r s ,t h ed a t a w a r e h o u s et e c h n o l o g yb e c o m e sar i s i n gn e wa p p l i c a t i o no fd a t aw a r e h o u s e i ts u p p o r t s m a n a g e m e n t 。sd e c i s i o n m a k i n gp r o c e s s o n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) ,r e f e r r i n gt o s p e c i f i ci s s u e so n l i n e d a t aa c c e s sa n da n a l y s i s o l a pi st h em a i na p p l i c a t i o no fd a t a w a r e h o u s es y s t e m i ta n a l y z e s ,s e a r c h e sa n dr e p o r t st h ed a t at h r o u g hm u l t i d i m e n s i o n a l a p p r o a c h ,a n de v e n t u a l l ya s s i s t sd e c i s i o n - m a k e r st om a k e t h er i g h td e c i s i o n t h e r e f o r e ,t h e d a t aw a r e h o u s et e c h n o l o g yd e v e l o p sr a p i d l yi nr e c e n ty e a r s ,a n di ti sa l s ow i d e l ya p p l i e di n v a r i o u si n d u s t r i e s w ep u tf o r w a r dt h ep r o v i n c i a lm o b i l ec o m p a n y sn e t w o r ko p t i m i z a t i o ns o l u t i o n s a c c o r d i n gt ot h er e q u i r e m e n t so ft h ep r o v i n c i a lm o b i l et e l e c o m m u n i c a t i o n sc o m p a n i e s a t t h e s a l r l et i m e ,w ea p p l yt h ea n a l y s i ss e r v i c e st oc r e a t ean e t w o r kd a t aw a r e h o u s eo np r o v i n c i a l l e v e l ,b a s e do nt h i sw ed e s i g nv a r i o u sn e t w o r ko p t i m i z a t i o nm o d e l s i nt h et h e m eo ft h e n e t w o r ko p e r a t i n g ,t h en e t w o r ko p e r a t i n gq u a l i t ya n a l y s i sm o d e l ,t h en e t w o r kb u s i n e s sm o d e l , t h ec e l lv a l u ea n a l y s i sm o d e l ,t h eb e n e f i t sa n a l y s i so fd i f f e r e n tr e g i o n sa n db r a n d sa n a l y s i s m o d e la r ed e s i g n e d i nt h et h e m eo fw i r e l e s sn e t w o r kr e s o u r c e su t i l i z a t i o na n da n a l y s i s ,t h e w i r e l e s sn e t w o r kr e s o u r c e sa n da l l o c a t i o nm o d e l ,t h et r a f f i ca n dt c hu t i l i z a t i o no fn e t w o r k a n a l y s i sm o d e l ,t h es y s t e ms u p e r - b u s y l e i s u r ea r e aa n a l y s i sm o d e l ,t h et r e a t m e n to fc a r r i e r f r e q u e n c yn o ti nf u n c t i o na n a l y s i sm o d e l ,t h es t a t eo fn e t w o r ki ns p e c i a l s e s s i o n sa n a l y s i s m o d e la r ed e s i g n e d i nt h et h e m eo ft r a f f i cs t a t i s t i c s ,t h et r a f f i cs t a t i s t i c a lm o d e l ,t h e p r o v i n c i a la r e ac e l ls t a t i s t i c a lm o d e l ,t h eb u s i n e s ss t a t i s t i c sb a s e d o i lu s e rg r o u p sa n db u s i n e s s d e v e l o p m e n ts t r a t e g ym o d e la r ed e s i g n e d i nt h et h e m eo ff o r e c a s t ,t h et r a f f i cp r e d i c t i o n m o d e li sd e s i g n e du s i n gr e g r e s s i o nf o r e c a s t i n g ,t h eu s e rn u m b e rf o r e c a s tm o d e li sd e s i g n e d u s i n gc u r v ef i t t i n gm e t h o d i nt h et h e m eo fe a r l yw a r n i n g ,t h eh l r ,v l r , b s c ,m s ce a r l y i i a b s t r a c t w a r n i n gc a p a c i t ym o d e la r ed e s i g n e d a n di tc a l ld i s p l a yt h ef i n a la n a l y t i c a lr e s u l tt ot h e d e c i s i o n - m a k e r st h r o u g hm u l t i p l ed a t am e c h a n i s m ss u c ha st a b l e ,b a rd i a g r a m ,l i n ed i a g r a m , p i ed i a g r a m as p e c i a ld i s p l a ym e c h a n i s mc a l l e dg i sd i s p l a y i n gm e t h o di si m p l e m e n t e dt o c a t e rf o rm o b i l ed e v i c e s c h a r a c t e r i s t i ca b o u tg e o g r a p h yd i s t r i b u t i o n t h i sd i s p l a ym e c h a n i s m m a k e st h ed e m o n s t r a t i o no fr e s u l td a t ab em o r ei n t u i t i o n i s t i c a f t e rt h et r i a lo p e r a t i o no ft h i ss y s t e m ,t h ea n a l y z i n gr e s u l t sm a t c ht h ea c t u a ld a t a , d a t a w a r e h o u s ea n dt h ed e s i g no fa n a l y z i n gm o d e l sm a t c ht h ed e m a n do fo p t i m i z e da n a l y s i s ,a n d i t b a s i c a l l yr e a l i z e t h eo b j e c t i v e so ft h eo p t i m i z i n ga l l o c a t i o n i np r o v i n c i a lm o b i l e t e l e c o m m u n i c a t i o n sn e t w o r k k e yw o r d so l a p ;d a t aw a r e h o u s e ;a n a l y s i ss e r v i c e s ;n e t w o r ko p t i m i z a t i o n i i i 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了致谢。 作者签名: 趔溢馐 日期:盖丝翌年 月日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密 ( 请在以上相应方格内打“4 ) 保护知识产权声明 本人为申请河北大学学位所提交的题目为( 基于数据仓库的移动通信网络优化研 究) 的学位论文,是我个人在导师( 袁方) 指导并与导师合作下取得的研究成果, 研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下 完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、 行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书 面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反 本声明,本人愿意承担相应法律责任。 声明人:翻珞盛日期:趔年厶月厶日 作者签名: 导师签名: 日期:2 燮年厶月厶日 日期:塑年月上e 1 第1 章绪论 第1 章绪论 1 1 研究背景 1 1 1 研究的理论背景 数据仓库的概念是2 0 世纪9 0 年代初提出的,到了9 0 年代中期就受到了广泛的重 视。在主要发达国家,数据仓库技术已经成为仅次于i n t e r n e t 的又一技术热点。数据仓 库是市场激烈竞争的产物,它的最终目标是能够为决策者的决策提供有效支持。最近的 调查结果表明绝大部分的大中型企业希望建立数据仓库。根据互联网数据中心的报告, 大约8 0 已投资于数据仓库的企业认为获得了巨大成功n 1 。 传统数据库中大量的用于事务处理的数据经过清理、抽取和转换后存入数据仓库, 并最终按照决策者的需要进行重新组织,这就是数据仓库的主要工作乜1 。数据仓库的数 据源一般是关系数据库,当然也可以是其它类型的数据源。数据仓库的维度建模一般可 以采用两种模式:星型模式和雪花模式,现在多采用星型模式。星型模式的数据体现了 空间的多维立方体结构,这种数据组织形式可以方便决策者进行更有效的统计和分析。 随着数据仓库技术的发展,联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称 o l a p ) 技术也得到了很大的发展。数据仓库主要用于存储和管理面向决策的数据,而 o l a p 则主要用于对数据仓库中的数据进行分析,并将分析的结果转换成可以帮助决策 者进行决策的信息嘲。o l a p 的一个重要特点是多维联机分析处理,这与数据仓库中多 维数据组织正好形成相互结合、相互补充的关系。多维联机分析处理实际上是用多维数 组的方式对关系型数据表进行处理。o l a p 技术中比较典型的应用是对多维数据的切 片、切块、上卷、下钻和旋转等,这些应用有利于决策者从不同角度分析和观察数据, 并提取与决策者关心的问题有关的分析结果。 1 1 。2 研究的应用背景和意义 通信行业竞争日趋激烈,如何在提高网络质量的同时,降低建网和维护成本,降 低服务成本与服务收费价格,制定有效可行的业务政策,提高网络资源的利用率是各大 通信运营商尤为关注的问题。与此同时,用户对网络的服务质量要求越来越高,运营商 对网络的管理也从当初对信号覆盖率的定性要求转变为对网络性能指标的定量管理。在 这种情况下,实现网络资源的合理配置,提高网络的运行服务质量,提高企业的核心竞 河北大学下宁硕七学位论文 争力,越来越受到运营商的关注。网络优化工作涉及到移动通信网络的各个方面,贯穿 于整个网络优化的各个环节和步骤。本系统在对移动通信的各种网络业务指标数据和业 务收入数据进行清洗、筛选和汇总之后,利用相应的工具建立了符合系统需求的数据仓 库,并在此基础之上进行了大量的数据统计与分析,从而辅助决策者做出优化方案。 1 2 国内外的应用及发展 1 2 1 数据仓库的发展趋势 数据仓库技术及其相关产品已经被部分企业采用,其中有很多成功的案例,当然 也有一些失败的案例,这些案例都为数据仓库技术的研究提供了宝贵的经验。随着数据 仓库技术与客户的日益成熟,人们对数据仓库的期望越来越高。现在许多企业已经开始 将业界最佳案例与先进的数据分析技术结合,重新整理他们已有的数据仓库,进而逐渐 步入了第二代数据仓库。数据仓库已从后端的策略性决策支持系统,变为整个企业运营 的一个关键部分。下列几项内容指出了下一代数据仓库的发展趋势h 5 1 。 整合数据集市 早期的数据仓库通常是以部门为单位的数据集市,仅能支持来自特定部门的有限 查询,而且容易导致信息重复、各数据集市的信息不一致、无法解答企业高层的问题, 当然也很难承担其它与之相关系统的高额费用。然而,那些已将分散的各部门的数据集 市整合至集中数据仓库的企业,则已开始体验到整合数据集市所带来的优越性,以及以 前人工计算不可能达到的预期成果。 增加更多的分析 因为企业数据挖掘的解决方案拥有更具预测性的模式、更佳的数据挖掘模型、更 好的成本效益模型等优点,从而得到企业决策者的重视。因此,分析能力也是数据仓库 产品的重要组成部分。只有增加更多的分析能力,增加更多的挖掘模型才能提升产品的 竞争力,吸引更多的企业。 c r m 与数据仓库之间的整合 成功的客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,简称c r m ) 必须是基 于对企业当前的、历史性的及数据统计资料的整合和分析,也就是说c r m 必须是以数 据仓库为基础。对用户的行为分析一直以来都是各企业分析的重点,而数据仓库的分析 功能正好迎合了c r m 的这个要求。 第1 章绪论 动态数据仓库 要具备真正的竞争力,数据仓库使用者必须预测将会发生的事,而且更要得到正 确的信息,才可以应付将要发生的市场变化。动态数据仓库包含了动态数据的整合分析, 以制定最佳的战术和策略性决策。动态数据仓库能支持下列功能:在信用卡交易期间进 行欺诈监测;从呼叫中心自动产生直效营销;根据客户对公司的价值,在与客户接触时 能弹性地制定价格等。 当前采用数据仓库的各大企业都在积极导入动态数据仓库,以提高工作效率,使 其数据仓库的投资回报率达到最高,从而改善整体的业务质量,并且为客户提供更佳的 服务。数据仓库在企业决策中的作用越来越重要,这也极大地促进了数据仓库技术、产 品以及与之相关的技术和产品的发展。其中发展最快的、和数据仓库技术关系最紧密的 就是o l a p 技术。 1 2 2 数据仓库的应用案例 由于数据仓库技术带来的丰厚回报,近年来数据仓库被越来越多的企业所重视和 采用,其中在文献 6 7 中列举了很多成功的案例,总结如下。 西班牙及葡萄牙语地区领先的电信运营商t e l e f o n i c a 实施数据仓库协助决策后,有 效地分析出客户对什么感兴趣,他们在购买什么,哪些产品利润最大,销售渠道的效率 如何,销售的地理分布差异是怎么样的,等等。查询速度从以前的3 至4 小时缩短到了 3 至4 分钟。通过实施数据仓库,t e l e f o n i c a 在客户数量、收入、利润水平等方面都超 过了以前的领先者。 此外,美国西南贝尔通信公司( s b cc o m m u n i c a t i o n si n c ) 采用数据仓库的决策支 持系统后效益得到了大幅度的提升。比利时国家电信经纪人使用数据仓库建立的顾客信 息系统,通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在 造成重大经济损失之前终止这种欺骗行为。英国电信公司采用数据仓库应用系统保证了 关键性业务的处理。 到目前为止,华尔街6 2 的银行、保险、证券等机构采用数据仓库技术进行风险管 理,其中包括著名的摩根斯坦利银行、花旗银行、加拿大蒙特利尔银行、加皇银行等。 数据仓库以及其相关软件,帮助金融机构进行风险的评估、预测以及防范等工作,从而 使风险控制到最小。 河北大学工学硕士学位论文 国内数据仓库发展也十分迅速,在很短的时间内便取得了长足的进步,并在系统 的实现方面出现了很多成功案例,如宁夏电信客户流失分析系统,提供的客户流失信息 准确率高达9 3 ,命中率和覆盖率也达到了8 5 以上。通过对系统提供有流失倾向的 客户制定有针对性的挽留措施,使客户的流失数量大大减少,从而有效地提升了客户保 持率。北京移动经营分析系统、河北移动经营分析系统等电信行业经营分析系统,提供 了客户发展、业务发展、收益情况等全方位分析,使他们大大提高了行业竞争力。 1 3 研究目的和内容 1 3 1 研究目的 基于数据仓库技术对省级移动通信中现有的通信数据进行分析,并将分析结果以 直观的形式呈现给决策者,使其能够制定有效可行的业务政策,提高网络资源的利用率, 减少硬件的重复建设,减少无效的投入,最终达到对资源的配置做出最佳的安排效果, 同时开发出用户满意的业务种类。 1 3 2 研究内容 本文对省级移动通信公司的通信数据作了详细的需求分析,得出省级移动通信公 司建设数据仓库进行网络优化的必要性以及可行性;根据客户发展规划和需求方案,并 结合省级通信数据的特点设计出了网络优化的解决方案。包括:数据仓库平台选取,数 据的抽取、转换及装载的实现,数据仓库中多维立方体的建立,分析主题的设计,系统 代码的开发等,同时完成了以下研究内容。 1 、数据仓库与o l a p 技术分析; 2 、省级移动公司通信网络优化分析主题的设计; 3 、不同厂商数据仓库产品的分析与选取; 4 、采用m i c r o s o f ts q ls e r v e r2 0 0 0 中的a n a l y s i ss e r v i c e 设计并实现多维数据集, 并在此基础上实现o l a p 分析; 5 、将分析结果以各种直观可视化的形式呈现给用户; 6 、采用m i c r o s o f tv i s u a ls t u d i o2 0 0 5 环境和a s p n e t 、c 撑实现了系统的主要功能。 1 4 论文主要工作 本文基于某省移动通信公司的网络通信数据的具体情况,设计并实现了省级移动 4 第l 章绪论 暑量鼍i i 一一i 詈暑皇曼皇皇鲁置詈鼍量量皇量置暑蔓曼皇詈量詈蔓鼍量詈鼍墨鼍詈皇詈鲁詈皇詈皇量鼍量鼍詈詈詈鼍暑暑喜暑宣鼍鲁晕暑暑量孽昌鼍昌罡鲁皇皇詈詈詈暑詈皇皇暑置皇詈薯墨 公司网络优化系统的解决方案。主要工作包括制定解决方案、数据仓库产品的选取、各 种类型优化分析主题模型的设计、系统的开发与测试等。 1 5 论文结构安排 全文共分为7 章。 第1 章介绍了研究背景、国内外的发展现状、要解决的问题以及论文的章节安排。 第2 章主要介绍了数据仓库与o l a p 及其相关技术的产生和发展。 第3 章主要介绍了m i c r o s o f ts q ls e r v e r2 0 0 0 中数据仓库技术的实现、a n a l y s i s s e r v i c e 的特点以及如何使用a n a l y s i ss e r v i c e 进行o l a p 分析查询,并且介绍了m i c r o s o f t v i s u a ls t u d i o2 0 0 5 开发环境的特点。 第4 章详细阐述了系统的需求分析与架构设计,给出了不同优化主题的具体设计 思路、方法,并且给出了部分分析主题的分析结果样例,同时介绍了系统提供的其他功 能。 第5 章主要介绍了数据仓库与o l a p 技术在网络优化系统中的应用,阐述了选择 m i c r o s o f ts q ls e r v e r2 0 0 0 与m i c r o s o f tv i s u a ls t u d i o2 0 0 5 作为开发环境的原因,以及利 用这个环境建立多维数据集的全过程,完成数据仓库的维度设计与立方体中时间粒度的 设计。 第6 章主要介绍了系统实现过程中遇到的问题与解决方法。 第7 章主要阐述系统试运行后的实施结果,并对作者的工作做了总结,同时对以 后的工作进行了展望。 河北大学工学硕士学位论文 第2 章数据仓库与o l a p 技术概述 2 1 数据仓库及其相关概念 2 1 1 数据仓库的产生 虽然传统的数据库技术在联机事务处理( o n - l i n et r a n s a c t i o np r o c e s s i n g ,简称 o u p ) 中获得了成功,但由于市场竞争不断加剧,它无法满足管理人员对数据提供决 策支持的要求。传统的数据库系统中缺乏决策分析所需的大量历史数据信息,主要因为 传统的数据库系统一般只保留当前或近期的数据信息。为了满足中高层管理人员对发展 预测、情况预警与决策支持分析的需求,在传统数据库技术的基础上产生了能够满足预 测、预警、决策分析需求的数据仓库技术。 传统的数据库系统主要是面向事务的处理,而数据仓库则是面向分析的处理。面 向事务处理的传统数据库系统不在适应当前竞争形势下管理决策分析的需要,文献 2 - 5 及文献 8 列举出了传统数据库系统的缺陷,主要表现有: 集成性的缺乏 目前,企业的经营管理对于数据库系统的依赖程度日益加深,并且希望能以自身 数据库系统中存储的数据作为基础,进行决策分析。这就要求作为分析基础的数据必须 是全面的、正确的、高度集成的。但实际上,集成性的缺乏正是传统数据库最突出的不 足之处。 分析处理效率低 事务型处理和分析型处理的性能特点不同,操作型处理是要保证事务得到及时、 准确地处理。因此,在业务数据库系统的构建过程中,除了数据库和表的精心设计之外, 索引的建立、存储过程的优化等工作,也均以此为中心展开,这样虽然充分提高了事务 处理的效率,但数据分析处理的效率却无法保证。 主题不明确 建立传统数据库的目的,是为了满足事务处理的需要,数据库和表的定义与设计 完全以此为基础进行,对于进行数据分析而言,这些数据库和表无疑缺少明确的主题。 历史数据与数据的动态集成更新 供决策分析的数据一般是历史数据,而传统的数据库系统一般只保留当前或近期 6 第2 章数据仓库与o l a p 技术概述 的数据信息。决策分析系统要求数据能够定期更新,但传统的数据库系统缺乏动态更新 的能力。 分析决策操作能力差 决策分析人员希望用各种分析工具对数据进行分析操作,将数据操作的结果以商 业智能的方式表达出来,其中,最重要的就是可以从不同的角度褥到数据的分析结果。 而传统的业务处理系统只能够以标准的报表方式为用户提供信息,数据展现形式呆板, 用户难以理解信息的内涵,无法正确地用于管理决策。 以上诸多问题的存在,导致企业无法使用现有的传统数据库系统进行处理分析, 以满足预测、预警与决策分析的需求。因此,预测、预警和决策分析需要一个能够不受 传统事务处理约束、高效的处理决策分析的数据环境,数据仓库就是满足这一要求的数 据存储和数据组织技术。 2 1 2 数据仓库的特征 有关数据仓库的定义有很多种,其中最经典的、引用最为广泛的定义是数据仓库 专家w h i n m o n 在其著作b u i l d i n gt h ed a t aw a r e h o u s e 一书中给予的描述:数据仓库 ( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、非易失 的( n o n - v o l a t i l e ) 、随时间变化的( t u n e v a r i a n t ) 用来支持管理人员决策的数据集合圈。 对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分 析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数 据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中 的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点璐1 : 面向主题的:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各 自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的 概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多 个操作型信息系统相关。 集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数 据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的 不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 7 河北大学工学硕士学位论文 非易失的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询, 一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中 一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 随时间变化的;操作型数据库主要关心当前某一个时问段内的数据,而数据仓库 中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段 的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数 据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善 其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组, 并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看, 数据仓库建设是一个工程,是一个过程。 2 1 3 数据仓库系统的体系结构 由文献 4 可知整个数据仓库系统是一个包含四个层次的体系结构,如图2 - 1 所示。 图2 - 1数据仓库系统体系结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业的内部信 息和外部信息。 8 第2 章数据仓库与o l a p 技术概述 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存 储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其 对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需 要从数据仓库的技术特点着手分析。数据仓库按照数据的覆盖范围可以分为企业级 数据仓库和部门级数据仓库。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行 多角度、多层次的分析,并发现趋势。其具体实现可以分为:关系o l a p ( r e l a t i o n a l o l a p ,简称r o l a p ) 、多维o l a p ( m u l t i d i m e n s i o n a lo l a p ,简称m o l a p ) 和混 合型o l a p ( h y b r i do l a p ,简称h o l a p ) 三种类型。r o l a p 基本数据和聚合数 据均存放在r d b m s 之中;m o l a p 基本数据和聚合数据均存放于多维数据库中; h o l a p 基本数据存放于r d b m s 之中,聚合数据存放于多维数据库中。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及 各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对o l a p 服务器,报表工具、数据挖掘工具主要针对数据仓库。 2 2 数据仓库技术 2 2 1 数据仓库中数据的存储 数据存储的方式 一般情况下,数据仓库中的数据有两种存储方式:一种是存储在关系数据库中, 另一种是按多维的方式存储,也就是多维数组。 存储何种数据 数据仓库中存在不同的综合级别的数据。一般把数据分成四个级别,早期细节级 数据,当前细节级数据,轻度综合级,高度综合级。不同的综合级别一般称为粒度。级 别的划分是根据粒度进行的。数据仓库中还有一种是元数据,也就是关于数据的数据。 元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数 据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模 型和前端工具建立映射。 存储数据的粒度与分割 粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高, o 河北大学r 下学硕十学位论文 综合程度越低,回答查询的种类越多;反之粒度越大,细节程度越低,综合程度越高, 回答查询的种类越少。分割是将数据分散到各自的物理单元中去以便能分别独立处理, 以提高数据处理的效率。数据分割后的数据单元成为分片。数据分割的标准可以根据实 际情况来确定,通常可选择按日期、地域或者业务领域等进行分割,也可以按照多个标 准组合分割。 更新数据的方式 数据仓库中的数据要反映历史变化,因此数据要定时更新。更新的方式一般有两 种,第一种,增量更新。增量更新可用于保持多为数据集的数据更新,可将数据追加到 多维数据集中而不必重新计算原有的聚合。比如:数据存储单位被分为日、周、季度、 年等几个级别。每天将数据记录在日记录集中;然后七天的数据被综合存放在周记录集 中,每隔一季度周记录集中的数据被存放到季度记录集中,依此类推。第二种,刷新数 据,重新处理。这种方式一般不采用,只用在数据集的结构被修改后才使用,因为这种 方式会重新计算所有的聚合和汇总信息。 2 2 2 数据仓库中的关键技术 与传统的关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工 程。由于数据仓库的这种工程性,根据文献e 9 介绍的内容在技术上可以根据它的工作 过程分为:数据的抽取、数据的存储和管理、数据的表现三个方面。 1 、数据的抽取 数据的抽取是数据进入数据仓库的入口。数据仓库是一个独立的数据处理环境, 因此它需要通过抽取过程将数据从联机事务处理系统、外部数据源、其他数据存储介质 中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控 等几个方面。数据仓库中的数据并不要求与联机事务处理系统保持实时的一致,所以数 据抽取可以定时进行,但是多个抽取操作执行的时间、相互执行的顺序与成败对数据仓 库中信息的正确性和有效性至关重要。 2 、数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库的特性,同时也决定了其外部数据表现形式。传统的关系型数据库系统 采用二维表的形式存储数据,这样有利于数据的事务处理,而数据仓库采用多维立方体 1 0 第2 章数据仓厍与o l a p 技术概述 的形式存储数据,这样有利于分析处理。要决定采用什么产品和技术来建立数据仓库核 心,需要从数据仓库的技术特点着手分析。 3 、数据的表现 数据表现是数据仓库的数据分析结果的门面。它们主要集中在多维分析、数理统 计和数据挖掘方面。 2 3o l a p 技术概念 联机分析处理n 町的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。o l a p 的提出引起了很大的反响,o l a p 作为一类产品同o l t p 明显区分开来。由文献 1 l 卜 1 5 所介绍的内容可知,数据仓库的一个主要应用就是与o l a p 共同完成知识任务,从而帮 助决策者完成决策。由此可知o l a p 与数据仓库是密不可分的。数据仓库与o l a p 的 关系是互补的,现代o l a p 系统一般以数据仓库作为基础,即从数据仓库中抽取详细数 据的一个子集并经过必要的聚集存储到o l a p 存储器中供前端分析工具读取。 2 3 1o l a p 的产生 随着数据库技术的广泛应用,企业产生了大量的数据,企业决策管理人员所面临 的最大难题是如何从这些大量的数据中提取对企业决策分析有用的信息。传统的数据库 管理系统( d a t a b a s em a n a g e m e n ts y s t e m ,简称d b m s ) 与联机事务处理系统作为数据 管理手段,主要用于事务处理,而它们对分析处理的支持却一直不能得到企业分析决策 者的肯定。因此,对o l t p 数据库中大量数据进行进一步处理,形成一个综合的、汇总 的、面向分析的、支持决策制定的决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 就渐渐产生了。而o l a p 技术就是为了更好的实现d s s ,帮助分析企业历史数据才发 展起来的。 2 3 2o l 心的特点 企业中的专业分析人员及管理决策人员使用联机分析处理在分析企业相关业务数 据时,从不同的衡量指标来分析企业业务数据是一种很自然的思考方式。分析的结果可 以通过各种图表来展现,每一个分析的角度可以生成一张分析图表,各个不同分析角度 的不同组合就可以生成不同的图表,因此使得分析人员的工作量非常大,而且很难跟上 管理决策人员思考的步骤。而且,从不同角度对同一业务数据的分析可能得出完全不同 河北大学工学硕士学位论文 的分析结果n 阳。 联机分析处理的主要特点是直接按照决策者的多角度思考模式,预先为决策者组 建多维( 维,指的是决策者的分析角度) 的数据模型。例如对超市零售数据的分析,时 间周期是一个维度,产品类别、产品价格、客户类别也分别是不同的维度。多维数据模 型建立完成后,决策者可以快速地从多个不同的分析角度获取数据,也可以动态的在各 个角度之间切换,更主要的是可以进行多角度综合分析,具有极大的分析灵活性。这也 是联机分析处理在近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧有 的管理信息系统有着本质的区别n 刀n 劬n 帕。 o l a p 逻辑概念和典型操作 o l a p 展现在用户面前的是一幅幅多维视图畸1 。 1 、维( d i m e n s i o n ) :是人们观察数据的特定角度,考虑问题时的一类属性,属性 集合构成一个维( 时间维、地理维等) 。 2 、维的层次( l e v e l ) :人们观察数据的某个特定角度还可以存在细节程度不同的 各个描述方面( 时间维:日期、月份、季度、年) 。 3 、维的成员( m e m b e r ) :维的一个取值,是数据项在某个维中位置的描述( “某 年某月某日 是在时间维上位置的描述) 。 4 、度量( m e a s u r e ) :多维数组的取值。 o l a p 的基本多维分析操作有上卷( d r i l l - u p ) 、下钻( d r i l l d o w n ) 、切片( s l i c e ) 和切块( d i c e ) 以及旋转( p i v o t ) 等畸1 。 1 、上卷和下钻:改变维的层次,变换分析的粒度。上卷是在某一维上将低层次的 细节数据概括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总 数据深入到细节数据进行观察或增加新维。 2 、切片和切块:在一部分维上选定值后,关心度量数据在剩余维上的分布。如果 剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 3 、旋转:变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 o l a p 系统的数据存储格式 数据仓库与o l a p 的关系是相互补充的,现代o l a p 系统一般以数据仓库作为基 础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集计算存储到o l a p 存储 1 2 第2 苹数据仓厍与o l a p 技术概述 暑皇詈詈詈詈量皇曹皇皇皇置皇置皇墨鼍i i 一一一 !|- - - - - -i_lm lm 鼍量毫暑皇詈量置皇詈皇詈鲁量量詈詈曼吕墨 器中供前端分析工具读取分析使用。 o l & e 系统按照其存储器的数据存储格式可以分为r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年佳木斯辅警招聘考试题库及一套完整答案详解
- 2023年衡阳辅警招聘考试题库含答案详解(黄金题型)
- 2023年绥化辅警招聘考试真题附答案详解(培优a卷)
- 2023年贵阳辅警协警招聘考试备考题库附答案详解(达标题)
- 2024年和田辅警协警招聘考试备考题库及参考答案详解一套
- 2024年宿州辅警协警招聘考试真题完整答案详解
- 2024年内江辅警招聘考试真题及答案详解(全优)
- 2024年天津辅警协警招聘考试备考题库附答案详解(黄金题型)
- 2024年安庆辅警协警招聘考试真题含答案详解(预热题)
- 2023年秦皇岛辅警招聘考试真题含答案详解(巩固)
- 2025年注册兽医《兽医临床诊疗学》备考题库及答案解析
- 2025年小学五年级数学上学期单元测试专项训练(含答案)
- 2025宁夏交通建设投资集团有限公司校园招聘和社会招聘230人(1号)考试笔试备考试题及答案解析
- 2025汉中市级机关遴选公务员及选聘事业单位人员(54人)笔试考试备考试题及答案解析
- 2025广东广州市海珠区教育系统高校“优才计划”招聘68人笔试考试参考试题及答案解析
- 甘肃省陇南市西和县2025-2026学年八年级上学期周期学业能力评鉴数学试卷(含解析)
- 2025年中小学课外读物进校园落实情况自查报告
- 防爆弹课件教学课件
- 2025年护理专业单招试题及答案
- 电梯基础知识培训教程课件
- 气质联用仪课件
评论
0/150
提交评论