(计算机应用技术专业论文)电信经营分析系统数据模型的研究与应用.pdf_第1页
(计算机应用技术专业论文)电信经营分析系统数据模型的研究与应用.pdf_第2页
(计算机应用技术专业论文)电信经营分析系统数据模型的研究与应用.pdf_第3页
(计算机应用技术专业论文)电信经营分析系统数据模型的研究与应用.pdf_第4页
(计算机应用技术专业论文)电信经营分析系统数据模型的研究与应用.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)电信经营分析系统数据模型的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 近年来,我国通讯市场的拆分、重组使得通讯企业之间的竞争越来越激烈, 企业的决策对通讯行亚格局的影响显得越来越重要。通讯企业的经过近年的发 展,逐步建立了比较完善的计费系统、结算系统、渠道系统、客服系统、网管 系统、财务系统、统计系统等各种业务支撑系统,积累了庞大数量的各类数据。 如何整合历史数据、构建商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 平台,发挥对企 业决策的支持作用,成为通讯行业普遍面临的一个重要课题。 整个b i 体系结构,从简单的报表输出和领导信息系统( e x e c u t i v ei n f o r m a t i o n s y s t e m ,e i s ) 、多维分析统计和数据挖掘,到探索能力以及可定制的分析应用技 术等,有了相当的发展。支持和维护任何m 环境的基础是建立一个高质量、可 信赖的数据仓库。数据仓库技术的不断发展,给电信b i 建设带来了前所未有的 机遇和挑战。面对巨大的市场潜力和激烈的竞争,如何为电信企业构建一个先 进、,完善的数据仓库系统一即经营分析系统一进行决策支持,从而提升核心竞 争力、进一步增强客户满意度已经成为国内电信企业发展的当务之急。 本文在比较研究了典型的、流行的数据仓库架构的基础上,提出了适于大 型企业的数据仓库集线器与轮辐式架构的改良方案一基于数据中间层的数据仓 库体系架构,它可以增强数据仓库的可用性、易用性和可扩展性,实现各数据 集市间的数据共享,降低e t l 脚本开发的难度,以空间换时间的方式,提高系 统的访问速度,减少系统资源的消耗。本文以省级电信公司经营分析系统为例, 对其实施背景、业务目标进行了综述。重点论述了利用数据仓库技术、结合商 业逻辑,构建电信数据仓库的中央数据仓库数据模型、中间层数据模型及数据 集市层数据模型的设计思路、原则、约定和方法等。 关键词:数据仓库,体系架构,数据模型,o l a p ,电信 武汉理工大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,t h er e s o l u t i o na n dr e o r g a n i z a t i o no fc h i n a st e l e c o m m u n i c a t i o n s m a r k e th a v ep r o m p t e dt h et e l e c o m m u n i c a t i o n si n d u s t r ym o r ec o m p e t i t i v e e n t e r p r i s e d e c i s i o n sh a v ei n c r e a s i n gi n f l u e n c eo ut h et e l e c o m m u n i c a t i o n si n d u s t r yp a t t e r n a f t e r y e a r s o fd e v e l o p m e n t , c o m m u n i c a t i o n sf i r m sh a v eb e e n g r a d u a l l yb u i l d i n g c o m p a r a t i v e l yc o m p l e t ea c c o u n t i n gs y s t e m , s e t t l e m e n ts y s t e m ,c h a n n e ls y s t e m , c u s t o m e rs e r v i c es y s t e m , n e t w o r km a n a g e m e n ts y s t e m , f i n a n c es y s t e m , s t a t i s t i c s y s t e m , a n do t h e ro p e r a t i o n a ls u p p o r ts y s t e m s ,t h e s es y s t e m sh a v ea c c u m u l a t e da h u g ea m o u n to fd i f f e r e n tt y p e so fi n f o r m a t i o n h o wt oi n t e g r a t eh i s t o r i c a ld a t aa n d b u i l db i ( b u s i n e s si n t e l l i g e n c e ) p l a t f o r mf o rt h ee n t e r p r i s e st op l a yas u p p o r t i n g r o l ei nt h ed e c i s i o n - m a k i n g , i sam a j o rt a s kw h i c ht h et e l e c o m m u n i c a t i o n si n d u s t r y a r e f a c i n g t h ee n t i r eb ia r c h i t e c t u r e , f r o ms i m p l er e p o r tf o r m so u t p u ts y s t e ma n dt h ee i s ( e x e c u t i v ei n f o r m a t i o ns y s t e m ) ,t om u l t i d i m e n s i o n a la n a l y s i ss t a t i s t i ca n dd a t a m i n i n g , t ot h ea b i l i t yt oe x p l o r ea n dc u s t o m i z a b l ea n a l y t i c a la p p l i c a t i o nt e c h n o l o g y , h a sd e v e l o p e dc o n s i d e r a b l y t h es t a r t i n gp o i n to fs u p p o r t i n ga n dm a i n t a i n i n ga n yb i e n v i r o n m e n ti sc r e a t i n ga h i g h - q u a l i t ya n dr e l i a b l ed a t aw a r e h o u s e t h ed e v e l o p m e n t a n dm a t u r a t i o no fd a t aw a r e h o u s e t e c h n o l o g y h a v e b r o u g h tu n p r e c e d e n t e d o p p o r t u n i t i e sa n dc h a l l e n g e st ob ia p p l i c a t i o no ft h et e l e c o m m u n i c a t i o n s f a c e dw i t h h u g em a r k e tp o t e n t i a la n dd r a s t i cc o m p e t i t i o n , h o wt ob u i maa d v a n c e d , p e r f e c td a t a s t o r a g es y s t e m ( o p e r a t i n gs y s t e m ) f o rt e l e c o m m u n i c a t i o n se n t e r p r i s e st os u p p o r t d e c i s i o n ,t h e r e b ye n h a n c i n g t h e i rc o r e c o m p e t i t i v e n e s s ,e n h a n c i n gc u s t o m e r s m i s f a c t i o n ,h a sb e , c o m eap r i o rp r o b l e mo ft h ed o m e s t i ct e l e c o m m u n i c a t i o n s e n t e r p r i s e so ft h em o m e n t b a s e do nt h ec o m p a r a t i v es t u d yo ft h et y p i c a la r c h i t e c t u r e so ft h ed a t aw a r e h o u s e , t h em o d i f i e dp r o j e c to fc e n t r a l i z e da r c h i t e c t u r ew h i c hi ss u i t a b l ef o rt h el a r g e e n t e r p r i s ed a t aw a r e h o u s ea n di sc o m p o s e do fc e n t r a l d a t aw a r e h o u s el a y e r , t h e m i d d l el a y e r , d a t am a r tl a y e r , i sp r o m o t e d t h et h r e el a y e rd a t aw a r e h o u s e a r c h i t e c t u r ep r o j e c tc a l le n h a n c et h er e u s a b i l i t y , f l e x i b i l i t ya n de x p a n d a b i l i t yo fd a t a 武汉理工大学硕士学位论文 w a r e h o u s e ,r e a l i z et h ed a t as h a r i n go fd a t am a r t s ,r e d u c et h ed i f f i c u l t yo fe t l s c r i p t , u s es p a c ef o rt i m et oi m p r o v es y s t e mp e r f o r m a n c ea n dt or e d u c ec o n s u m p t i o no f s y s t e mr e s o u r c e t h e nt h em a n a g e m e n ta n da n a l y s i ss y s t e mo fap r o v i n c i a ll e v e l d o m e s t i ct e l e c o m m u n i c a t i o n sc o m p a n yi su s e da sa ne x a m p l e ,t h ei m p l e m e n t a r y b a c k g r o u n da n db u s i n e s so b j e c t i v e sw e r er e v i e w e d o nt h eb a s i so ft h eu s eo fd a t a w a r e h o u s et e c h n o l o g ya n dc o m m e r c i a ll o g i c , t h et h e s i sd i s c o u r s e so nt h ed e s i g n i d e a s ,p r i n c i p l e s ,m e t h o d sa n da g r e e m e n to ft h ec e n t r a ld a t aw a r e h o u s ed a t am o d e l , t h em i d d l el a y e rd a t am o d e la n dd a t am a r tl e v e ld a t am o d e lo ft h et e l e c o md a t a w a r e h o u s e k e yw o r d s :d a t aw a r e h o u s e ,a r c h i t e c t u r e ,d a t am o d e l ,o l a p 武汉理工大学硕士学位论文 1 1 课题概述 1 1 1 课题研究的背景 第1 章绪论 随着世界经济的全球化、市场的国际化以及我国加入w t o 步伐的加速,国 际化的市场环境要求国内的电信运营商在经营管理上向国外先进的电信运营商 看齐,以面对电信运营业的国际化竞争。与此同时,随着国内电信行业改革和 重组的不断深化,电信运营商之间的市场竞争将越来越激烈。 国内、国际电信业的实际形势对国内电信运营商的服务内容、服务方式、 服务质量、经营管理以及服务意识提出了严峻的挑战。企业的经营模式和服务 体系正必须以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导 消费”的现代客户服务意识与理念。 这就要求电信运营商转变观念,增强服务意识,把服务作为企业发展战略、 竞争武器和可开发利用的资源;以客户为本,通过优质高效的服务策略占领和 稳固市场、进一步提高市场竞争力。 随着国内各大电信运营商信息化建设的迅速发展,采用数据仓库与数据挖 掘技术对现有信息资源进行知识发现与决策支持已成为提升信息系统价值的必 然选择。 数据仓库理论、o l a p 技术和数据挖掘技术的发展成熟,使得数据仓库辅助 电信企业管理者进行决策成为可能,使企业管理者能随着市场需求变化,不断 调整企业的运作方针,优化企业的业务流程,有效地降低经营成本、提高客户 满意度、增加经营利润、扩大市场份额,提高企业经营管理水平和企业竞争力, 赢得客户、时间及利润。 ( 1 ) 国际电信企业应用数据仓库系统现状 从上世纪9 0 年代开始,随着电信行业垄断格局被打破,电信行业的市场竞 争越来越激烈,在2 0 0 0 年左右,电信企业间的竞争已经不满足于单纯的价格战 手段,迫切需要提升竞争的手段和方法,提高企业的市场竞争力。国际上的电 武汉理工大学硕士学位论文 信运营商在经历了传统的价格战之后,为了提升企业的竞争力,充分使用了各 种信息化手段,其中,数据仓库技术是主要的手段。据统计,国际上资产排名 前十名的电信运营商,均建设了数据仓库系统。a t & t 、美国西南贝尔( s b c ) 、 b e l ls o u t h 、s p r i n t 、g t e 、南新英格兰电信、比利时电信、法国电信、巴西b c p 电信、台湾远传电信、台湾中华电信、台湾大哥大电信等几十家全球著名大型 电信运营商,就是在激烈的市场竞争中,纷纷采用数据仓库解决方案获得巨大 收益的成功典范。 ( 2 ) 国内电信企业应用数据仓库系统现状 今天的中国企业已经不再像以前一样仅仅面临着国内同类企业的竞争压 力,同时还要面临国际方面的竞争压力。激烈的市场竞争迫使我国的企业采用 各种技术手段和管理手段来提高企业自身实力,其中b l 就是当前最热门的一种 技术和管理手段,而数据仓库技术作为b i 的基础,也随之受到企业前所未有的 重视。 与国外电信运营商相比,国内电信行业数据仓库项目有如下的特点1 3 1 : 1 ) 数据量更加庞大,对数据仓库的处理能力等多个方面构成了挑战,对系统的 性能提出了更高的要求; 业务管理不规范,导致数据仓库较复杂; 3 1 业务应用水平仍有差距,国内仍靠技术人员进行分析为主,对业务知识仍比 较欠缺; 舢国内部分电信企业已经完成了大型数据仓库的建设工作,正在逐步转向为丰 富业务应用的过程。 1 1 2 课题研究的目的、意义 国内电信运营商在多年的经营活动中不断积累大量了数据,这些“历史” 数据分布在电信运营商的多个业务系统中,如老的电信9 7 系统,计费系统,客 户服务系统,渠道系统,新的b o s s 系统,结算系统等。 这些历史数据中蕴含着尚未被企业决策层认识的经营规律。基于这些历史 数据建立数据仓库、分析和挖掘其中的规律性,将有助于发现问题、改进经营 方式、提高业绩。 2 武汉理_ 大学硕士学位论文 本文主要针对数据仓库的数据模型进行研究,数据仓库是一个集中的、统 一的、一致的、共享的基础数据平台,数据仓库数据模型的设计目标、设计原 则和实现方式与业务系统数据模型之间存在一定差异,具有自身鲜明的特点。 作为数据仓库的基础,数据模型设计的好坏对数据仓库有着决定性的影响,直 接决定了整个数据仓库项目实施的成败。 数据模型是对客观事物及其联系的数据描述,它是连结和集成各种数据源 的手段,也是存放业务规则和过程的场所。它用可视化的形式语言描绘了业务 逻辑及数据的组织形式,因此成为业务人员和技术人员沟通交流的桥梁。在整 个数据仓库项目的实施过程中,必须充分体现和突出数据模型的重要性,任何 需求的变更、设计的修改及更新都必须从数据模型开始考虑,避免因为局部调 整而破坏整个业务逻辑。 数据模型是数据仓库建设的基础,一个完整、灵活、稳定的数据模型对于 数据仓库项目的成功起着重要的作用,包括: 1 1 数据模型是整个系统建设过程的导航图:通过数据模型可以清楚地表达企业 内部各种业务主体之间的相关性,使不同部门的业务人员、应用开发人员和 系统管理人员获得关于系统的统一完整的视图; 2 1 有利于数据的整合:数据模型是整合各种数据源的重要手段,通过数据模型, 可建立起各个业务系统与数据仓库之间的映射关系,实现源数据有效采集; 通过数据模型的建立,可以排除数据描述的不一致性。如:同名异义、同物 异名,等等。使系统的各方参与人员基于相同的事实进行沟通; 们由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描 述,当未来业务发生变化或系统需求发生变化时,可以很容易地实现系统的 扩展。数据结构的变化不会偏离原有的设计思想; 5 1 可以消除数据仓库中的冗余数据:数据模型的建立可以使开发人员清楚地了 解数据之间的关系,以及数据的作用。在数据仓库中只需要采集那些用于分 析的数据,而不需要那些纯粹用于操作的数据。 1 1 3 论文的主要工作 本文对数据仓库数据模型、数据仓库体系架构等关键内容进行了相关的探 索研究,主要工作包括: 1 1 基于两种主流的数据仓库数据模型一企业数据仓库模型和多维模型,总结概 武汉理工大学硕士学位论文 括了五种典型的数据仓库体系架构,详细分析阐述了五种体系架构的主要特 点,适用范围及存在的问题; 详细分析了两种主流数据仓库模型存在的问题,结合自顶向下逐步求精的分 层设计思想,提出了一种基于数据中间层设计的数据仓库数据建模方法,有 效提高数据仓库的访问效率,解决了信息孤岛的难题; 蓟在省级电信数据仓库项目中系统实现了基于数据中间层的数据仓库数据建 模方法,有效验证了基于数据中间层的数据仓库建模方法的可用性和有效 性。 1 1 4 论文的框架 本文采用理论与实证相结合的研究方法,对数据仓库的数据模型、体系架 构和建模方法做了相关研究。提出了一种基于数据中间层的数据仓库建模方法, 并应用于省级电信经营分析系统。 本文共分为五章。 第一章主要介绍了课题的研究背景、研究目的及意义,以及本文的主要研 究内容和工作。 第二章介绍了数据仓库的基本理论,主要包括数据仓库定义与特点、o l a p 技术、数据挖掘技术,简单阐述了数据仓库的基本建模理论,包括建模技术、 建模步骤等内容。 第三章首先概述了数据仓库的两种建模方法,然后介绍了五种数据仓库典 型体系架构的特点、优劣以及适用范围,接着分析了主流建模方法存在的问题, 最后针对这些问题提出了对数据仓库架构的改良方案基于数据中间层的数 据仓库架构,并对此种架构的特点和优势进行了详细论述。 第四章是论文的实证部分,在简要地概述了省级电信经营分析系统的业务 目标、数据来源后,分中央数据仓库层建模、中间层建模、数据集市层建模三 个部分,结合典型实例,重点论述了基于数据中间层的电信数据仓库系统数据 建模的思路、原则、约定和设计方法。 第五章是本文的总结与展望。 4 武汉理工大学硕士学位论文 第2 章数据仓库数据建模理论综述 2 1 数据仓库概述 传统数据库在日常的管理事务中获得了较大的成功,但是对管理人员的决 策分析要求却无法满足。管理人员常常希望能够通过对组织中的大量数据进行 分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺 乏决策分析所需要的大量历史信息。为了满足管理人员的决策分析需要,数据 仓库应运而生。 2 1 1 数据仓库的定义与基本特性 数据仓库的概念最初是美国信息工程学家w i l l i a mh i n m o l l 博士在9 0 年代 提出的,他认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化 的非易失性数据的集合,它用于对管理决策过程的支持。”【1 l 与其他数据库应用 不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整 合、加工和分析的过程。而不是一种现成的产品。 数据仓库有四种特征【i j : 1 ) 面向主题。主题是一个抽象的概念,指用户利用数据仓库进行决策时所关心 的重点方面,一个主题通常与多个操作性信息系统相关; 集成性。集成是指数据仓库中的信息不是从各个业务处理系统简单抽取出来 的,而是经过系统加工、汇总和整理的,保证数据仓库内的信息是关于整个 企业的一致的全局信息; 3 ) 数据随时间变化。随时间变化则是指数据仓库内的信息并不只是关于企业当 时或某一时点的信息,而是系统记录了企业从过去某一时点到目前的各个阶 段的信息,通过这些积累下来的信息,可以对企业的发展历程和未来趋势作 出定量分析和预测; 4 1 相对稳定性。所谓信息本身相对稳定是指一旦某个数据进入数据仓库后,一 般情况下将被长期保留,也就是说数据仓库中一般有大量的插入和查询操 作,但修改和删除操作很少。由于数据仓库自身容量的限制,设计人员会根 据实际分析的需要设定一个额度( 比如说2 0 年) ,那么数据仓库内只存放迄 5 武汉理工大学硕士学位论文 今为止2 0 年前的数据,在以前的数据就作为历史数据存放在磁盘或磁带等 存储媒介上; 2 1 2o l a p 技术 数据仓库是一种管理决策分析的基础,若要有效地利用数据仓库的信息资 源,须有强大的工具对数据仓库中的信息进行分析决策。o l a p ( o n - l i n e a n a l y t i c a lp r o c e s s i n g ,联机分析处理) 就是一个得到广泛应用的数据仓库使用技 术,专门用于支持复杂的决策分析,支持信息管理和业务管理人员决策活动的 一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量数据进 行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决 策入员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。 1 10 u 蟑的定义、特性 o l a p 是建立在多维视图的基础之上,重在根据已有的模式将源自数据仓库 中的不同信息源的大量相关信息联系起来,给分析人员一个清晰、一致的视图, 强调执行效率和对用户的快速响应,而且其直接数据源一般都是数据仓库或数 据集市。 o l a p 主要针对特定问题的联机数据查询和分析,具有快速性、可分析性、 多维性、信息性等特性。在线性( o n l i n e ) 表现为对用户请求的快速响应和交 互操作,它的实现是由c s ( 客户机服务器) 体系结构完成。 o l a p 与多维分析 多维数据集是决策支持的支柱,也是o l a p 的核心,又称为立方体或超立 方( c u b e ) 。多维数据集是数据的一种多维结构,由维度和度量值的集合进行定 义,可以用多维数组来表示。 多维分析( m u l t i - a n a l y s i s ) 是o l a p 技术的核心所在。o l a p 的多维分析 是指对多维数据集中的数据用切片、切块和旋转等方式分析数据,使用用户能 够多角度、多侧面地去观察数据仓库中的数据l ”。 i 切片切块 切片是在多维数据集的某一维上选定一维成员的操作。维是观察数据的角 度,切片的作用就是舍弃一些观察角度,使人们能在两个维上集中观察数据。 切块是在多维数据集的某一维上选定某一区间的维成员的操作。切块可以看成 是将多个切片叠加起来,它们的作用相似。 6 武汉理工大学硕士学位论文 i i 。钻取 钻取又分为上钻和下钻。下钻是从汇总数据到细节数据的细化过程,上钻 是从细节数据到汇总数据的聚集过程。 i i i 旋转 旋转就是改变维的方向,把某一行维移到列维或是把页面中的维和页面外 的维进行交换。 3 1m o l a p r o l a p h o l a p 根据o l a p 系统存储数据的不同方式,o l a p 划分为多维o l a p ( m o l a p ) 、 关系0 l a p ( r o i a p ) 、混合o u 址( h o l a p ) 。 m o l a p 将基础数据和聚合数据存放在多维数据库( m u l t i d i m e n s i o n d a t a b a s e ,m d d b ) 中,m d d b 存放在数据仓库之外,m o l a p 可以为数据分析 提供最好的查询功能 r o l a p 将基础数据和聚合数据存放在关系数据表中,这些表作为数据仓库 的数据表存放在关系数据库中,r o l a p 可以节省大量的存储空间。 h o l a p 是r o l a p 和m o l a p 的结合,h o l a p 把基础数据存放在关系数据 表中,这些表作为数据仓库的数据表存放在关系数据库中;把聚合数据存放在 数据仓库之外的多维数据结构中。h o l a p 既可以利用m o l a p 的高速查询处理 器快速的检索数据,又可以节省大量的存储空间,最适应对于大量基础数据的 聚合值所进行的频繁查询。 舢o l a p 的实施 应用比较广泛的一些o l a p 系统几乎都采用了“客户端o l a p 服务器数据 仓库”的三层c s 结构。因为要对来自数据库或数据仓库的数据进行多维化或预 综合处理,因此不同于传统o l t p 软件的两层c s 结构,o l a p 是三层c s 结构, 第一层解决数据的多维数据存储问题,第二层是o l a p 服务器,它接受查询并 提取数据,第三层是前端软件。这种结构的优点在于将数据逻辑、分析逻辑和 表示逻辑严格分开,o l a p 服务器综合数据仓库的细节数据,满足前端用户的多 维数据分析的需要。 o l a p 系统具体实现时,要解决是采用m o l a p 还是采用r o l a p 存储、显 示数据。 7 武汉理工大学硕士学位论文 2 1 3 数据挖掘技术 数据挖掘( d a t am i n i n g ,d m ) ,即通过从大量的、不完全的、有噪声的、 模糊的、随机的实际数据中抽取隐含的、未知的、但又具有潜在使用价值的信 息和知识的过程。其主要特点是对商业数据库中的大量业务数据进行抽取、转 化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库 中自动发现相关商业模式。1 1 j 传统数据分析技术的分析重点在于向管理人员提供过去已经发生了什么、 描述过去的事实,是对过去情况的验证。而数据挖掘技术则在于预测未来的情 况,解释过去所发生事实的原因。数据挖掘需要海量数据,依靠数据本身和系 统启动,使用发现型的、预测型的、模式匹配的等各种算法对数据之间的关系 进行挖掘。 1 ) 数据挖掘与数据仓库 大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘, 数据仓库完全能为数据挖掘提供它所需要的挖掘数据; 在挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处 理与数据分析工具中找到,根本没有必要为数据挖掘重新设置同样的基础设施; 在数据挖掘过程中,可以利用数据仓库的o l a p 与各种数据挖掘工具连接, 使用户能够灵活地组织挖掘工具、灵活地改变数据挖掘的模式和任务,以增强 数据挖掘能力: 数据挖掘技术在数据仓库中的应用,弥补了数据仓库只能提供大量数据, 而无法进行深度信息分析的缺陷。同时,也对数据仓库提出了更高的数据组织 要求,系统数据仓库在数据挖掘技术对数据仓库中的数据进行操作时能够提供 更多,更详细的数据,并且要求数据仓库能够经受数据挖掘技术对数据进行的 全方位的浏览和查询。 2 ) 数据挖掘过程 数据挖掘过程一般需要经理:确定挖掘对象、准备数据、建立模型、数据 挖掘、结果分析与知识应用这样几个阶段,这些阶段在具体实施中可能需要重 复多次。 i 确定挖掘对象:确定从何处入手;需要挖掘什么数据;要用多少数据;数 据挖掘要进行到什么程度等。 i i 准备数据;从数据仓库中选择数据;对数据进行预处理( 清洗) :按需确定 是否需要建立数据挖掘库( 数据仓库中所提供的数据格式可能不能满足数据 武汉理工大学硕士学位论文 挖掘的需要,数据挖掘的进行也可能影响到其它系统的应用) 。 i i i 构建挖掘模型:首先选择变量;接着从原始数据中构建新的预示值;然后 从数据中选取子集或样本建立模型;最后转换变量,使之和选定用来建立模 型的算法一致。模型建立后,需要评估模型的性能。 i v 数据挖掘:除了完善与选择合适的算法需要人工干预外,数据挖掘工作主 要由挖掘工具自动完成。 v 结果分析:当数据挖掘出现结果后,需要对挖掘结果进行解释并评估,一 般应根据数据挖掘操作结果所制定的决策成败来定。 v i 知识应用:数据挖掘结果要能够在实际中得到应用,需要将分析所得到的 知识集成到组织机构中去,使这些知识在实际的管理决策分析中得到应用。 2 2 数据仓库开发模型 数据仓库不仅仅是一种新技术,它更多的是一种新过程、新思维,与传统 的业务处理系统相比,它不仅是在数据的处理、存储和分析等方面不同,在系 统建设的方法论上也存在着很大的差异。主要体现在开发方式和驱动因素两个 方面: 业务处理系统一般采用瀑布式、自上而下的开发方式。业务处理系统的开 发,一开始就有明确的目标,知道系统要实现哪些功能,项目成功的标准是什 么。与此不同的是,数据仓库项目的开发是螺旋式前进、不断反复的过程,是 一种“发现式”的开发模式。如图2 - 1 所示。 7 一 娩埘 啭辘 ) f厂 fl 办。i 重潆卜 r 时耐枣琨 设扣 费甩 图2 - 1 数据仓库项目螺旋式开发模型 由于业务处理系统和数据仓库项目所采用的开发模式的不同,导致它们开 9 武汉理工大学硕士学位论文 发的驱动因素也不尽相同。业务处理系统遵循的是一种需求驱动型模式,而数 据仓库项目则采用的是数据驱动型模式。数据仓库项目在明确了主题和范围后, 首先要做的是根据项目的主题和范围去集成数据( 这些数据来自于业务系统) , 再在集成的数据基础上,去实现用户可能需要的产品,通过检验理解用户的需 求,再从集成的数据( 此时的集成数据在规模上已经扩容) 上实现更多的产品, 来理解更多的用户需求。因此,数据仓库项目的开发过程呈现出明显的数据驱 动型特征,数据的集成度越高,能发现的需求就越深入。数据驱动的优点是可 以通过了解原有数据库系统中的数据和需要建设的数据仓库主题中数据的共 性,最大程度地利用现有系统,减少系统建设的工作量。 2 3 数据仓库数据建模技术 2 3 1 三范式建模 范式理论是关系数据模型设计的基础。关系数据模型可以从第一范式到第 五范式进行无损分解,该过程也称为规范化。规范化的基本思想是逐步消除数 据依赖中不合适的部分,使各关系模式达到某种程度的分离。 规范化为数据库的设计和实施、应用程序的开发提供了诸多好处,其主要 优点体现在: 1 ) 可以得到更全面的数据组织 减少不必要的数据冗余 易于维护数据的完整性 舢模型设计更灵活,便于系统今后扩展数据库 数据库设计一般采用第三范式( 3 n f ) ,从所表达的含义看,一个符合第三 范式的关系必须满足以下三个条件:1 4 】 1 1 每个属性的值唯一,不具有多义性; 2 ) 每个非主属性必须完全依赖于整个主键,而非主键的部分; 3 ) 非键属性仅仅依赖于主键,不存在传递依赖。 2 3 2 星型模式建模 星型模式通过使用一个事实表和多个维表来执行用户的查询。星型模式是 武汉理工大学硕士学位论文 一种关系型数据库结构,在该模式的中间是事实表,周围是次要的表,所有具 有业务含义的指标变量值在事实表中维护,维度数据在维表中维护。每一个维 表通过一个关键词直接与事实表关联。维度是组织数据集市业务观察角度的分 类信息,例如账务月、地理位置、产品类型等等。维度支持一对多或一对一的 父层和子层的分层结构。例如,地理位置维度可以包含省公司、本地网、营业 区等信息。因此,在该维表中,维度由所有的省公司、所有的本地网、所有的 营业区按三层的关系组成。为了支持这种分层结构,在维表中需要包括每一个 成员与更高层次上维度的关系。维度关键词是用于查询中心事实表数据的唯一 标识符。维度关键词就像主键一样,把一个维表与事实表中的一行链接起来。 这种结构使得很容易构造复杂的查询,通过简单的语句就能查询复杂的业务问 题。事实表包含了描述特定业务问题的信息。例如产品发展量和计费收入。一 般地,事实表中的数据是不允许修改的,新的数据只是简单地增加进去。维表 包含了用于描述存储在事实表中信息的信息,例如产品描述、账务类型。把特 征信息和特定的事件分开,可以通过减少在事实表中扫描的资料量提高查询性 能。维表不包含与事实表同样多的资料,维度数据可以改变。如图2 2 所示。 一i ) g i q a c c t _ i t e g ! ! 丝 惨准账目类型标塑9 细屋2 标准账 标准账 标准账 标准账 标准账 标准账 标准账 :j 7 支局标识 支局名称 分局标识 分局名称 营业区标识 营业区名称 本地网标识 本地网名称 加载口期 图2 - 2 星型模式 星型模式使数据仓库的复杂查询可以直接通过各维的比较、上卷、下钻、 旋转等操作完成。但是利用星型模式进行数据分析存在数据冗余和多维操作速 度慢的缺点i l j 。 下图对比了标准账目类型在按3 n f 为自关联结构,按星型模式为从顶到下 粒度越来越粗的四层结构。在数据集市中,为了提高查询速度,将其逆规范化, 唬层层层层层层 磐3 3 2 2 1 1最第第第第第第称识称识称识称名杯名标名标名塑掣掣型型型型 类类娄类类类类 一雕 一层细最 一讽腿 瓣鼽嘞 类标0 一目志期识次 账杯周标跳 准惠务局长费额一标优账支时计金 武汉理工大学硕士学位论文 拉长成为横表结构如图2 3 所示。 2 3 3 雪花模式建模 一d m n a c ! ! p e m 一! ! 堕 堡准账旦类型嬷堡! 墨塑显 图2 - 33 n f 表转换为星型模式表 雪花结构是星型结构的扩展,它是对星型结构的进一步层次化,由多个表 定义一个或多个维度。在雪花结构中,与事实表连接的是主维度表,其他维度 表与主维度表相连接。 在星型结构中,维表是可以分层次的,但对于某些复杂且层次关系经常变 动的维表( 如产品目录,某个产品类型可能会从某个产品大类归为另一个产品 大类) ,单张维表并不是理想的解决方案。所以,采用对星型结构中的维表按第 三范式进行规范化的方式后,得到了雪花型结构。如图2 - 4 所示。 嬲害墨罂掣! ! l 、 d 删b i l l i n gy e a r 斗懂蓊:錾豢4 。i 琴脯军森亘 l髭务周g-鬻荤嫠识()rh檬;蒿磊;箸杀iml f k i 账期年标识( ) _i 账务周删年名杯_ 、- _ _ _ _ _ _ - - _ _ _ _ _ 1 - _ l - _ _ _ _ _ 半 o 一s u b b u r e a u n 硎一b u r e a u d m n t e l e c o ma r e 1 支局标识 -1 分局标识-i 营业区标识 支局名称p 于十1 赞局名称f h 营业区名称 分局标识( f k ) ii 营业区标识( f k ) i 本地网标识( f k ) d m nl t n 本地列标识 本地嗍名称 图2 - 4 雪花模式 与星型结构相比,雪花型结构消除了维表数据的冗余,将包含多个层次的 维表分解成与事实表直接关联的主维表和与主维表关联的次维表。这样,当多 层次的维度关系变动后,只需修改层次之间的映射关系或者变动一张主或次维 表即可,而不是修改整张大的维表。雪花型结构与星型结构相比弱势在于,用 瞩鼢尉勘尉尉勘 黜靴靴靴靴射射 称识称识称识称名标名标名标名型型型型型型型类类类类类类类目目目目日目目账账账账嫩账账准准准准准准准标标标标标标标 隧层细 最 识雎 箭引 嘲 类标 目志期次识账杯周既标 准惠务长费颉局标优账时计金支 武汉理工大学硕士学位论文 户作查询时构造的语句可能会复杂一些( 因为需要关联多张维表) 。 通过最大限度地减少数据存储量以及联合较小的维表、使复杂维度的层次 结构清晰来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某 些查询的复杂性,增加了o l a p 展现的处理时延。在数据仓库建模时,应该对 雪花模式加以限制1 1 1 。但雪花模式提高了处理的灵活性,可以回答更多的商业闯 题,特别适合系统的逐步建设要求。 基于数据集市的实现目标,决定了设计时必须按业务用户查询信息的方式 建立数据的结构,以利于面向主题、面向业务问题的信息处理,也就是数据集 市允许查询工具方便地“钻取”到数据库中,沿业务查询所涉及的路径( 或维 度) 查询数据,在这种情况下,要求数据集市数据可以任意而且快速地被重新 组织、聚合,从不同的方面,以多个视角向最终用户展现。因此数据集市通常 采用星型( s t a r - s c h e m a ) 和雪花型( s n o w f l a k es c h e m a ) 的模型结构。 在此项目中央数据仓库的数据模型建设中,采用3 n f 进行设计。在数据集 市中,采用星型模式设计。 2 4 模型设计的三个步骤 2 4 1 概念模型 概念模型的设计是给出一个数据仓库的粗略蓝本,以此为设计图纸来确认 数据仓库的设计者是否已经正确地了解数据仓库最终用户的信息需求。要求创 建一种基于对象,代表实际业务的模型,面向现实,易于修改,适应性强。概 念模型的设计不是建立一个业务用户及其行为的详细说明,而是交流对业务过 程的认识,可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模 型设计【1 】a 概念模型设计要求确定基本主题域。 2 4 2 逻辑模型 逻辑模型是将概念模型转换到物理模型的桥梁,是对高层概念模型的细分, 在高层模型中所标识的每个主题域或指标实体都需要与一个逻辑模型相对应。 逻辑模型设计一般需要完成:分析主题域,确定要装载到数据仓库的主题;确 定粒度层次划分;确定数据分割策略;关系模式的定义和记录系统的定义、确 武汉理工大学硕士学位论文 定数据抽取模型等【2 】。逻辑模型的最终设计成果应该包含每个主题的逻辑含义, 并将相关内容记录在数据仓库的元数据中,其中包括;粒度划分,数据分割策 略、表划分和数据来源等。 粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小, 级别也越低。数据粒度划分策略中最重要的一个准则是一定要保证数据的粒度 确实能够满足用户的决策分析需要。设计者应该根据需要分析的主题域来确定 该数据仓库中的数据将到达哪一个细节程度,不同的分析主题需要的数据粒度 不一样。 确定数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据 用户的要求设计聚集,以使用户获得更好的查询性能。聚集模型的好坏在很大 程度上影响着数据仓库的最终使用效果。 同时还需要考虑的是对数据进行合理的分割,分割就是将数据分散到各自 的物理单元中去以便能进行独立的处理,数据分割后的数据单元称为分区。数 据分割是影响查询性能的一个重要因素,主要是通过将数据进行适当分割,存 放在不同的分区中,从而提高系统的整体效率和查询性能。 数据抽取模型由数据抽取处理过程、数据源表、数据源抽取过滤条件与连 接表、数据抽取过程的排序与聚集表、数据抽取的目标列与源列对应关系表组 成。 2 4 3 物理模型 物理模型就是数据仓库逻辑模型在物理系统中的实现模式。其中包括了逻 辑模型中各种实体表的具体化。所考虑的因素有:i 0 存取时间、空间利用率以 及维护的代价。 与传统的业务处理系统相比,数据仓库的数据量要大得多,而且为了分析 的需要,数据仓库必须保留历史数据,数据量会箍着时间的推移越来越大,因 此,数据的存储和管理就显得尤为重要。在数据仓库的物理模型设计阶段,主 要就是解决数据的索引策略、数据的存储策略、存储分配优化等问题【l j 。 1 4 武汉理工大学硕士学位论文 第3 章基于数据中间层的数据仓库建模 本章首先对数据仓库建模进行概述,介绍两种主流数据仓库模型一企业级 数据仓库模型和多维模型的特点和优缺点。然后基于两种主流的数据仓库数据 模型,结合是否对企业数据进行集中统一管理,将数据仓库体系架构划分为五 种典型体系架构一独立数据集市式架构、联邦式架构、总线式架构、集线器与 轮辐式架构、集中式架构,并对这五种架构的特点、优点、缺点、适用范围等 做出论述。接着,根据我国数据仓库应用现状,重点阐述了集线器与轮辐式架 构的优势,分析了它不容忽视的缺点。最后,针对集线器与轮辐式架构的缺陷, 提出了基于数据中间层的数据仓库架构的构建思路。 3 1 数据仓库建模概述 要成功地建立一个数据仓库,必须有一个合理的数据模型。数据模型是对 现实事物的反映和抽象,它可以帮助开发人员更加清晰地了解客观世界。传统 的o l t p 系统是面向应用的,总是按照应用来建模。而数据仓库是面向主题的, 一般按照主题来建模。主题是一个在较高层次将数据进行归类的标准,每个主 题基本对应一个宏观的分析领域,满足该领域决策的需要。例如从整个电信的 角度考虑,其数据模型不再面向个别应用,而是面向整个电信的主题,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论