




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 是随着i n t e m e t 的高速发展和企业信息化的不断 深入而产生的。bi 能够对企业的所有信息进行有效、合理的分析和处删,为企业的决策 者提供可靠的运营决策依据。从全球范围来看,b i 已经成为继企业资源计划( e r p ) 之后最 重要的信息系统:从国内来看,b i 已经被越来越多的企业管理者所认识,其中也包括电信 企业的决策者。 本文基于本人参与开发的“湖北省电信有限公司经营分析系统”,洋细叙述了电信企 ! b i 系统中e t l 部件的设计和实现。文中阐述了电信企业b i 系统的架构和核心支撑技术, 包括系统实施过程中所用到的数据仓库、数据挖掘、o l a p 等技术,沦文的重点放在电信 企业b i 系统的数据预处理和e t l 部件的设计与实现上。e t l 部件的设计包括了e t l 的主 要处理过程:数据文件生成、数据文件上传、数据文件抽取与转换、数据从o d s 系统转 换到电信企业b i 的数据仓库中,统一分类编码,外部数据接口,e t l 流程与调度,e t l 问题反馈与解释等。 商业智能已经成为数据密集型企业的信息系统建设的重中之重。e t l 部件的设计可以 帮助电信企业在建造商业智能系统过程中踏出坚实的一步。 关键词:e t l ,数据预处理,数据仓库,商业智能 a b s t r a c t j 函嗣蕊b u s i n e s si n t e l l i g e n c ec o m ei n t ob e i n ga l o n gw i t ht h er a p i dp r o g r e s so fi n t e m e t a n dt h ed e v e l o p m e n tt h a t e n t e r p r i s ei n f o r m a t i o ns y s t e m sg od e e pi n t o b 1w o u l da n a l y s e e f f e c t i v e l ya n dr a t i o n a l l ya l ld a t af r o mae n t e r p r i s e ,a n dp r o v i d et h em a n a g m l sw i t hd e p e n d a b l e k n o u ,l e d g ew h e nt h e ya r ei nd e c i s i o n m a n n g i ng l o b a l ,w ec a r ls e et h a tb ih a sb e e nt h ef o r e m o s t i n f o r m a t i o ns y s t e ms i n c ee n t e r p r i s er e s o u r c ep l a n n i n gc a m ei n t ob e i n g a n di no u rc o u n t r y , w e c a ns e et h a tb ih a sb e e na c c e o t e db ym o r ea n dm o r em a n a g e r si nc o r p o r a t i o n s ,i n c l u d i n gt h e t e l e c o m i nt h i sp a p e r , f i r s t l y , w ew o u l da n a l y s et h eg e n e r a ls t r u c t u r eo fb i ,a n dt i l ec o r et e c h n i q u e si n b ii n c l u d i n gd a t aw a r e h o u s e ,d a t am i n i n g ,o n l i n ea n a l y t i c a lp r o c e s s i n g s e c o n d l y , w ew o u l d a n a l y s ed a t aw a r e h o u s ew h i c hi so n eo ft h ec o r et e c h n i q u e si nb i t h i r d l y ,w ew o u l di n t r o d u c e s o m ec o m m o nd a t ap r e p r o c e s s i n gt e c h n i q u e si no u rd a y s :f i n a l l y , w ew o u l de m p h a s i z et h e d e s i g na n di m p l e m e n to fe t lc o m p o n e n t si nt h eb u i l d i n gp r o g r e s so fd a t aw a r e h o u s e t h e d e s i g no fe t lc o m p o n e n t si n c l u d st h em a i ne t ld i s p o s a lp r o c e s s ,t h eu n i t i v ec o d es c h e m e ,t h e e x t e r n a ld a t ai n t e r f a c e s ,t h ep r o c e s sa n da t t e m p e r m e n to fe t l ,t h ef e e d b a c ka n de x p l a i no f e t l t h em a i ne t l d i s p o s a lp r o c e s sa l s oi n c l u d e st h ec r e a t i o no fd a t af i l e s ,t h eu p l o a do fd a t a f i l e s ,t h ee x t r a c t i o na n dt r a n s f o r m a t i o no f d a t af i l e s ,t h ec o n v e r s i o no f d a t af i l cf r o mo d ss y s t e m s t oa d w s y s t e m b ih a sb e e nt h ek e ys y s t e mo ft h em o s ti m p o r t a n ti n f o r m a t i o ns y s t e m si n e n t e r p r i s ew i t h d e n s ed a t a t h ed e s i g no fe t lc o m p o n e n t sw o u l dh e l pae n t e r p r i s ec a r r yo u tt h ef i r s ts t e pi n b u i l d i n gab is y s t e m k e y w o r d :e t l ,d a t ap r e p r o c e s s s ,d a t aw a r e h o u s e ,b u s i n e s si n t e l l i g e n c e i l 南京邮电大学 硕士学位论文摘要 学科、专业:工学计算机软件与理论 研究方向:数据仓库和决策支持系统 作 者:三旦堕级研究生 刘海峰 指导教师塑鏖 题目:电信企业b i 系统中e t l 部件的设计与实现 英文题目:t h ed e s i g n & r e a l i z a t i o no fe t l c o m p o n e n ti nt e l e c o mb is y s t e m 主题词:e t l数据预处理数据仓库商业智能 k e y w o r d s :e t l d a t ap r e p r o c e s sd a t aw a r e h o u s e b u s i n e s si n t e l l i g e n c e 南京邮电大学学位论文独创性声明 p8 5 1 0 4 0 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:童蝉日期:! 二尘兰加 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:型! 鱼二! 搀师签名 1 扩,占。矿 南京邮电大学硕士研究生学位论文 第1 章绪论 第1 章绪论 随着电信行业垄断格局的打破和中国的入世,一方面国内电信运营商之间的竞争越来 越激烈:另一方面国外电信运营商也在加紧市场战略部署。单纯的价格战将给竞争各方造 成损失,给行业带来萧条,前两年国内彩电行业的恶性价格战就是前车之鉴。面对日愈激 烈的市场竞争,国内各大电信运营商都在寻求方法提高各自的市场竞争力。 在过去的十多年中,为了提供对运营和商务的支持,电信运营商们花费了大量的人力 和财力去开发、安装运营管理和商务自动化系统。经过多年的运行,在这些系统积累了大 量的运营业务数据,而且数据还在以指数级增长。快速增长的海量数猁被收集、存放在大型和 大昔的数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集的海量数据 被沉淀,变成了难得再访问的数据档案。因此,重要的决定往往不是基于数据库中信息丰 富的数据,而是基于决策者的直觉,因为决策者缺少从海量数据中提取订价值知识的工具。 如何有效地发挥现有数据的价值,使运营管理、商务自动化系统中所积累的数据的信 息展现在数据拥有者面前? 如何快速准确地找出需要的信息,提高信息的利用率,做出正 确的决策? 如何通过分析由历史经营情况归纳成的经验和失败的教训,进而用数据来预测 未来的发展趋势,快速准确地把握风云变幻的市场脉搏? 从目前信。自、利学技术的发展来 看,商业智能( b u s i n e s si n t e l l i g e n e e ,b i ) 应用是最适合的解决途径。 已有的运营系统不能很好地实现从数据到信息的转化工作,原因在于这些系统的目标 是完成特定的业务需求,其系统架构、软件设计、数据模型等均是围绕着这个目标进行实 现的。换句话说,这些系统均是面向业务流程处理,而不是信息分析。电信企业商业智能 系统( 简称电信企业b i ) 提供了一个面向分析的信息处理方案,经过抽取、转换、加载等 步骤,运营业务数据就按照不同的类别、不同的层次、统一的标识分门别类地存放好,然 后按照用户需求进行多种方式的表现及发布。 电信企业b i 的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据 仓库( d a t aw a r e h o u s e ,d w ) 、联机分析处理( 也可称为多维分析, o n l i n ea n a l y t i c a l p r o c e s s i n g ,o l a p ) 和数据挖掘( d a t am i n i n g ,d m ) 三个部分。其中数据仓库用于抽取、 整合、存储有用的信息:多维分析用于全方位了解现状;数据挖掘则是发现问题、找出规 律、预测将来。因此可以晚电信企业b i 的核心就是数据仓库系统。 数据仓库就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成 的、不可更新的、随时间不断变化的数据集合。数据仓库系统的建设是+ 个不断建立、发 陴京邮电大学硕士研究生学位论文 第1 章绪论 展、完善的过程,通常需要较长的时间。 e t l ( e x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g ) 即数据抽取、转换和加载,是数据仓 库实现过程中,将数据从数据源经过加工处理后加载到数据仓库的主要过程。e t l 过程关 系到加载到数据仓库中的数据的质量,是数据仓库应用的基石。根据同i 口建设数据仓库的 经验,这个过程一般占到整个数据仓库建造过程时间的5 0 以上。这部分也是本文的主要 内容。 南京邮l 乜大学硕士研究生学位硷艾 第2 章电信企业b i 2 1商业智能 第2 章电信企业b i 2 1 。1 商业智能概念 商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 的概念最早是g a r t n e rg i o u p 于1 9 9 6 年提 山来的。当时他将商业智能定义为一类由数据仓库、查询报表、数据分析、数据挖掘、数 据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。借助商业智能,员工、 咨询员、客户、供应商以及公众能够有效地运用信息。商业智能所涉及的技术与应用,其 实在g a r t n e rg r o u p 命名之前就有,起初被称为经理信息系统( e x e c u t i v ei n f o r m a t i o n s y s t e m ,e i s ) ,在羽化成商业智能之前叫决策支持系统( d e c i s i o ns u p p o r t i n gs y s t e m , d s s ) 。 目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的 经营决策的工具。这里的数据包括来自企业运营系统的订单、库存、交易账目、客户和厂 商的资料,来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的 各种数据。而商业智能能够辅助的经营决策,既可以是操作层的,也iq 以是战术层或者战 略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理( o l a p ) 和数据 挖掘等技术。因此,从技术层面上讲,商业智能并不是什么新技术,而是数据仓库、o l a p 和数据挖掘等技术的综合运用。 所以,把商业智能看作足一种解决方案更恰当。商业智能的关键是从来自许多不同的 企、j k 运营系统的数据中,经过抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和加载( l o a d ) , 即e r l 过程,存储到一个企业级的数据仓库中,从而得到企业数据的一个全局视图,在此 基础上利用合适的o l a p 工具、数据挖掘工具等对其进行分析和处理,最后将知识呈现给 管理者,为管理者的决策过程提供支持。 商业智能是一个涉及很多领域的,集收集、合并、分析和提供信扈、存取功能为一身的 解决方案,包括e t l 软件、数据仓库、数据集市、多维联机数据分析、数据挖掘以及可 视化工具。 2 1 2 商业智能的典型应用 1 、经营分析 经营分析包括经营指标分析、经营业绩分析和财务分析三部分。 一3 - 南京| l | | j 电大学硕上研究生学位沦爻第2 章电信企业b i 经营指标分析是指对企业不同的业务流程和业务环节的指标,如:利润率、销售率、 库存量、单品销售情况及所占营业比例、风险采购和库存评价指标等进行搜集和分析。但 这些指标只能反映局部的经营状况。为了解企业的整体经营状况,还需对这些指标进行科 学的组织和分析,利用智能管理技术,形成一个能反映企业整体情况的数学模型。这样通 过观察总指标并设置告警才能获得整个企业的经营状况。 经营业绩分析是指对各部门的营业额、销售量等进行统计,在此基础上,进行同期比 较分析、盈亏分析、各种商品的风险度分析等等。经营业绩分析有利j :企业实时掌握自身 的发展和经营情况,有利于企业及时调整经营业务、化解经营风险。 财务分析是指对企业财务数据中的利润、费用支出、资金占用及其他具体经济指标进 j r 有效分析。通过财务分析,可以及时掌握企业在资金使用方面的实际情况,为及时调整 和降低企业成本提供数据依据。 2 、战略决策支持 在经营分析的基础上,将各类数据、信息进行高度的概括和总结,然后形成供高级决 策者进行战略决策时参考的企业经营状况分析报告,是商业智能的优势所在。 商业智能对战略决策的支持,分别表现在对公司战略、业务战略和职能战略的支持一h 。 在公司战略决策支持层面上,可以根据公司各战略业务单元的经营、i k 绩和经营定位,选择 一种合理的投资组合战略;在业务战略决策支持层面上,由于商业智能系统中集成了更多 的外部数据,如外部环境和行业信息,各战略业务单元可据此分别制定自身的竞争战略; 在职能战略决策支持层面上,由于来自于企业内部的各种信息,源源不断地输入进来,相 应地可以提供营销、生产、财务、人力资源等决策支持。 3 、绩效管理 商业智能技术能够从企业各种应用系统中提取出各种基础绩效指标与关键绩效指标 ( k e yp e r f o r m a n c ei n d i c a t o r ,简称k p i ) 。为了考核员工的绩效,企业可以先将希望员 工要做的工作进行量化,然后借助商业智能工具,管理人员可以追踪、衡量和评价员工的 工作绩效,引导员工的思想方向和行动与企业的整体目标保持一致。 2 1 3 商业智能的主流基础平台 i 、m i c r o s o f ts q ls e r v e r2 0 0 5b i 特性 s q ls e r v e r2 0 0 5 提供了s q ls e r v e rb u s i n e s si n t e l l i g e n c ed e v e l o p m e n ts t u d i o , 其实就是v i s u a ls t u d i o + b i 解决方案,它支持建立“商业智能解决方案”,在“商业智 能解决方案”中可以实现建模、e t l 、建立查询分析图表、定制关键绩效指标( k p i ) 、 d 一 南京邮电大学硕士研究生学位沦文第2 章电信企、b i 定制a c t i o n 、建立报表、构造数据挖掘应用以及发布等过程。这些方面:以完全融合在 个解决方案中;并且基于n e tp l a t f o r m2 0 的所有“商业智能解决方案”都是w e b w e b s e r v i c e se n a b l e d ,可以很容易就与s h a r ep o i n t 集成,即p o r t a le n a b l e d 。 支持x m lf o ra n a l y s i s ,开发人员只要通过x 札aw e b 服务即可访问o l a ps e r v e r 的 全部数据与服务。提供了7 种以上数据挖掘算法。 2 、o r a c l el o gb i 特性 o r a c l el o gb i 的商业智能解决方案的特性有:集成的开发环境j d e v e l o p e r 、免费组 件商业智能b e a n s 、报表制作控件、报表管理控件、数据警告、自定义计算构造、多种分 析功能。 3 、i b md b 2u d b8 2 1b i 特性 i b md b 2u d b 从8 2 1 版增加了a l p h a b l o x 产品,它是一种支持快速开发及广泛部署分 析型b i 解决方案的应用开发平台,它的目标是使用基于组件的、开放源码的j 2 e e 环境, 可以开发基于b s 的分析应用并与用户的业务过程及应用环境无缝集成。基于a l p h a b l o x 可以构造出用户即时定制的报表及分析应用、操作型分析应用、财务报表及分析应用、业 务计划管理应用、企业绩效等。 a l p h a b l o x 的特性主要有:基于j 2 e e 、可定制出交互式和向导式分析、实现个性化和 共享功能、支持实时数据访问和分析、即时定制业务计划等。 2 。2电信企业引的核心支撑技术 2 2 1 电信企业b i 的架构 l 、电信企业b i 的分析 电信企业b i 的- ,j 一,勺i ”、胁托刊行、信息来鹚! ”似、辑模型l 生i 卜i :i t 护,1 一l 味 个、j h - 一1 - j 褂i i - 二。i j 。,t 叭,【i l f l 分析、客户关系分析,“ 嚣、昕、电r 荫蓐, jf ,川r j i 。j ,吲 ;一! :型r 卜4 一改 d 、求蹦, 旦i :分忻,包协 孵州、溉 ,t 扶l 二:7 联髟c 的信息系统t 。 a 一1 。c | r 。- 仁 一一;,* 引盯l 。门系统需求相剥姬 ,l “ 5 川j 息;r 阳 l i 求荆m 1 i 南京邮电人学硕:l - t o f 究生学位论文 第2 章电信企业b i b i 结构设计包括确定软件和硬件的组成,设计数据从作业系统加载到电信企业b i 的 数据仓库中的处理流程,确定采用的o l a p 与数据挖掘工具等。 2 、电信企业b i 的设计 电信企业b i 的设计包括实体数据模型设计、e t l ( 抽取、转换和加载) 设计、数据挖 掘方法设计、终端接口设计( o l a p ) 等步骤。 实体数据模型设计就是数据抽取( e x t r a c tj o n ) 、转换( t r a n s j j 。o r m a t i o i l ) 与装载 ( l o a d i n g ) 的功能设计。电信企业b i 必须具备抽取各种类型信息的能力,并且依照数据 的特性与分析的需求,能够自动、定时地到操作数据库中抽取数据。数据转换则是将不一 致的数据,根据规则转换为具有一致性的数据。加载一般在电信企业b i 的数据仓库服务 器上自动进行。加载模块需要考虑加载策略,并对加载对产生韵异常遵行挺鲴一 数据挖掘方法设计即根据数据的特点,选择适用的挖掘算法,如可采用时问序列分析、 聚类分析、决策树方法、遗传算法等。 终端接口设计用于确定以何种形式将数据挖掘、联机分析的结果呈现给用户。 3 、电信企业b i 的典型架构 图2 - 1 电信企业b i 的体系结构 上图所示的电信企业b i 体系结构由数据源系统、商业智能工具系统、商业智能应用 系统、知识和行动应用系统四个部分构成,简述如下: ( 1 ) 数据源系统 6 - 南京邮电大学硕士研究生学位沦史第2 章电信企业b i 包括前后端o l t p ( o n l i n et r a n s a c t i o np r o c e s s i n g ,联机事务处理) 、电子商务系 统和外部信息提供者等。这些不仅是数据源,而且是知识和行动的操作对象。 ( 2 ) 商业智能工具系统 包括数据仓库模型和构造工具、访问工具、o l a p 和数据挖掘工具: 数据仓库模型和构造工具 包括e t l ( e x t r a c t 、t r a n s f o r m a t i o n 、l o a d ) 工具和数据仓库模板、元数据交换、 联合数据仓库和数据集市系统。这些工具用于从外部数据源系统中捕捉数据,经过 数据清洗和转换,最后将数据加载进数据仓库。 访问工具 包括应用接口和中间件,需求驱动数据的获得和分析,决策引擎的模型、规贝q 和度 量等,使得客户工具能够访问和处理数据库和文件系统中的商业信息。一般采用三 层信息存储,最高层次是数据仓库,数据仓库中集成了全企业的商业信息;中间级 是部门数据仓库,又叫做数据集市,这里存储了某个商业单位、用户组或部门的商 业信息,这些数据集市可以直接建立在企业操作系统的基础上;结构的最低层次存 储了根据用户和应用需求经过裁剪后的信息。 o l a p 和数据挖掘工具 包括了从基本查询和报表工具到先进的在线分析处理再到信息挖掘工具的各类工 具。所有 二具都支持g u i 客户界面。许多也可以在w e b 界面上使用。现在,这些工 具大多设计成能处理数据库产品来的结构信息,但是将来需要对文件系统、多媒体、 甚至邮件或w e b 服务器上的复杂的和非结构的信息。 ( 3 ) 商业智能应用系统 包括人力资源管理、分析和报告、财务管理、客户资源管理、分析和报告供应链管理、 企业计划管理的分析和报告。这些应用是许多针对不同行业或应用领域经过裁剪的完整的 商业智能解决方案软件包。很多信息管理系统构建在相对分散的体系结构上,企业的各个 部门都是一个个信息孤岛,彼此之间的信息很难共享。为了获得真正智能化的企业管理, 信息结构必须与商业智能无缝集成。 ( 4 ) 知识和行动应用系统 包括企业知识管理门户、商业信息和建议和知识行动。b i 软件提供商通常提供一个单 一的、基于网络的入口门户来提供报告、o l a p ( o n l i n ea n a l y s i sp r o c e s s i n g ) 和数据挖 掘信息。这些入口与企业信息门户( e n t e r p r i s ei n f o r m a t i o np o r t a l 简称e i p ) 不同, 南京| | i | i 电大学硕士研究生学位论文 第2 章电信企业b i 通常是不被用户直接访问的。通过向最流行的通用e i p 提供连接来实现b i 的应用,使其 成为一个企业全面信息管理中的关键。 2 2 2 数据仓库 数据仓库就是一个用以支持企业或组织的决策分析处理的、面向主题的、集成的、不 可更新的、随时间不断变化的数据集合。 数据仓库的四个基本特征: 数据仓库是面向主题的: 数据仓库是集成的; 数据仓库是不可更新的; 数据仓库是随时间不断变化的; 数据仓库对企业范围内所有可能收集到的数据进行更好地组织,不足为了存储数据, 而是为支持决策分析。建立数据仓库不是目的,只是进行决策支持的中问环节,保证数据 的一致性、准确性、综合性,为各种决策支持方案提供统一的数据视图。数据仓库的要素 包含以下几个方面:e t l ( 抽取、转换和装载) 、数据存储、管理和维护( 包括元数据的管理) 。 2 2 3 联机分析处理 联机分析处理( o l a p ) 是一种用于对大容量数据进行归总与分析的技术,它使用户能 够以交互方式快速方便地从数据中获得信息。o l a p 的关键是能够以用户想要的方式来表示 数据。o l a p 主要通过多维的方式来对数据进行查询、分析、制作报表。o l a p 不同于传统 的联机事务处理( o l t p ) 应用。联机事务处理( o l t p ) 应用主要是用来完成用户的事务处 理,通常要进行大量的更新操作,同时对响应时间要求比较高;而o l a p 应用主要是用来 对用户的当前及历史数据进行分析,辅助决策分析,通常是进行大量的查询操作,对响应 时间的要求不太严格。 目前,常见的o l a p 技术主要有基于多维数据库的多维型o l a p ( m o l a p ) 和基于关系数 据库的关系型o l a p ( r o l a p ) 。在数据仓库应用中,联机分析处理应用一股是数据仓库应用 的前端工具,同时,联机分析处理工具还可以同数据挖掘工具、统汁分析工具配合使用, 增强决策分析功能。 此外,o l a p 的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好相互 结合。o l a p 技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,便于使用 者从不同角度提取有关数据。 8 南京邮电大学硕士研究生学位沦文 第2 章电信企业b i 切片和切块 通过切片、切块功能,用户可以对数据进行过滤,专注于某一方面的问题。 钻取 钻取包含向下钻取和向上钻取操作,钻取的深度与维所划分的层次相对应。向下钻 取是通过对某一行汇总数据进行细分来分析数据,使用户对数据能更深入了解。向 上钻取是指自动生成汇总行的分析方法。 旋转 为了方便用户更直观的查看分析数据,通过旋转功能,使用户可以从不同的视角来查 看数据,对于一些数据,看起来更容易理解。 2 2 4 数据挖掘 数据挖掘( d a t am i n i n g ) 是采用数学、统计学、人工智能和神经网络等领域的科学方 法,如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术,从大量数 据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识 利规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。 数据挖掘按挖掘任务可以分为两类:描述型、预测型。描述型模式是对数据中存在的 规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能南接用于预测。预 测型模式是可以根据数据项的值精确确定某种结果的模式。 数据挖掘按功能或者可以发现的知识类型可以分为以下几类: 分类 按照分析对象的属性、特征,建立不同的类别来描述事物。例如:电信运营企业可 以根据以前的数据将客户分成了不同的类别,对不同类别的客户实施不同的营销策 略。 聚类 识别出对象的内在的规则,按照这些规则把对象分成若干类,它与分类不同,聚类 要划分的类是未知的,它是根据某种算法自动划分出来的。 关联规则 关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人 也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。 偏差的检测 对分析对象的少数的、极端的特例的描述,揭示内在的原因。 q 南京邮电大学硕士研究生学位论文 第2 章电信企业b i 2 3本文主要工1 卜电信企业引系统中的e t l 部件 电信企业b i 的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据 仓库( d a t aw a r e h o u s e ,d w ) 、联机分析处理( o n l i n ea n a l y t i c a lpr o c e s s i n g ,o l a p ) 和数据挖掘( d a t am i n i n g ,d m ) 三个部分。其中数据仓库用于抽取、整合、存储有用的 信息,电信企业b i 的核心就是数据仓库系统。 e t l ( e x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g ) 即数据抽取、转换和加载,是数据仓 库实现过程中,将数据从数据源经过加工处理后加载到数据仓库的主要过程。e t l 过程关 系到加载到数据仓库中的数据的质量,是数据仓库应用的基石。根据月前建设数据仓库的 经验,这个过程一般占到整个数据仓库建造过程时间的5 0 以上。 本文的主要工作是基于“湖北省电信有限公司经营分析系统”进行电信企业b i 系统 中e t l 部件的设计和实现,其中包括设计和实现e t l 部件的整体架构、e t l 的主要处理过 程、统一分类编码、外部数据接口、e t l 流程与调度、e t l 问题反馈与解释。e t l 的主要处 理过程包括数据文件生成、数据文件上传、数据文件抽取与转换、数据文件从o d s 系统转 换到d w 系统。外部数据接口实现包括实现与业务系统的数据接口、实现与网管系统的数 据接口、实现与其他系统的接口。e t l 流程与调度包括流程的关键点、雕l 调度过程、e t l 过程保障。e t l 问题反馈与解释包括错误数据监控、转换异常数据、分忻系统数据处理检 t 查、数据稽核、数据抽验、参数代码映射维护。 m 采l | | | ;电人学砸:l 研究生学位睑史第3 一一电信领域的数据仓库 3 1 数据仓库概念 第3 章电信领域的数据仓库 3 1 1 概念 什么是数据仓库呢? 宽松地讲,数据仓库是一个数据库,它与企业的操作数据库分别 维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供平台, 对信息处理提供支持。 按照数据仓库之父w h i n m o n 的定义,“数据仓库是一个面向主题的、集成的、时变 的、非易失的数据集合,支持管理部门的决策过程”这个简短的定义全而指出了数据仓库 的四个主要特征:面向主题的、集成的、时变的、非易失的。面向丰题指数据仓库围绕一 些主题,如客户、商品等,提供特定主题的视图,排除对于决策无用的数据。集成指通常 情况下建造数据仓库是将多个异种数据源,如关系数据库、一般文件等,集成在一起。时 变指数据存储从历史的角度提供信息。非易失指数据仓库中的数据和应川操作环境下的应 用数据总是物理地分离存放。 3 1 2 数据仓库与数据库的区别 数据仓库和数据库是不同的。数据库系统的主要任务实执行联机对 务和查询处理,这 种系统称为联机事务处理( o l t p ) 系统,它涵盖了一个企业的大部分同常操作,如销售、 库存、工资等。数据仓库系统在数据分析和决策方面为用户提供服务,统称为联机分析处 理( o l a p ) 系统,这种系统可以用不同的格式组织和提供数据,以满足用户的各种需求。 ol 1 1 p 和o l a p 的主要区别在于:o l t p 是面向客户的,用于营业员、客厂1 和信息技术专业人 员的事务和查询处理,o l a p 是面向市场的,用于经理、主管和分析人员的数据分析:o l t p 系统管理的是当前数据,o l a p 系统管理的是历史数据,提供汇总和聚集机制,并在不同的 粒度上存储信息;o l t p 系统通常采用实体一联系模型和面向应用的数捌库设计,o l a p 系 统通常采用的是星型或者雪花模型和面向主体的数据库设计;o l t p 系统的访问主要由短的 原:f 事务组成,o l a p 系统的访问大部分是只读操作。 3 1 3 数据仓库的系统结构 l 、数据仓库的设计步骤 设计数据仓库可以采用自顶向下、自底向上或者二者结合的混合方法。自顶向下方法 南京邮电大学顶士研究生学位论文 第3 章电信领域的数据仓库 由总体设计和规划开始,逐步细化设计。这种方法在技术成熟并已掌握,对等待解决的问 题理解的情况下是有效的。自底向上方法从实验和原型开始,逐步整合各子系统。这种方 法在建模和技术开发的早期是有效的。在混合方法下,既能利用自顶向下方法的有计划的 特点,又能保持自底向上方法的快速实现和立即应用的特点。 设计数据仓库的过程一般包含如下步骤: ( 1 ) 选取待建模的处理。 ( 2 ) 选取处理的粒度。 ( 3 ) 选取用于每个事实表记录的维。 ( 4 ) 选取将安放在事实表中的度量。 由于数据仓库的构造是一个长期的任务,他的实现范围应当清楚地定义。一个初始的 数据仓库的实现应当是特定的、可实现和可测量的。这涉及确定要建模的子集,选择数据 源数量,提供服务的部门数量和类型。 2 、数据仓库的系统结构 图3 一l 三层数据仓库结构 数据仓库通常采用三层结构,如图3 1 : 底层是数据仓库服务器。它从操作数据库或者外部数据源提取数据。 中间层是o l a p 服务器。其典型实现是关系o l a p 模型或者多维o l a p 模型。 顶层是前端工具。它包括查询和报告工具、分析工具和数据挖掘工具。 从结构上看,有两种数据仓库模型:企业仓库、数据集市。企业仓库提供企业范围内 的数据集成,它通常包含详细数据和汇总数据。数据集市提供企业某部门范围内的数据集 南京邮电火学碗j 研究生学位论文 赢磊丽赢竺竺竺竺 开发数据仓库系统,个推荐的方法是以递增的方式实现数据仓库,如图3 2 : 过程麓毖纂麓攀黼鲫撇黼糌憾的 趣干呈,流程主要包括了如下几步 “”1 “哭观i 、数据仓库是个复杂的 瀑量麓驾筹萎篙进嘲嘲提供 者、设备、培训、责任、方式方法、工磊二凳三圣包括数据范围、数据提供 ( 2 ) 搭建技术环培 。“”“啊,曼。 篙爹霎黧罢霎兰黧仇包括开发平台、数据库管理系统等。 ( 3 ) 确定主题进行数据建模 一。”辟届毪示瓶等。 鬻篡纛黧黼赫雠蝴蚴嘲獭计。 黎靶羰黼懈煳瓣蝴棚黼蝴结构嘁表和 ( 5 ,设计数据转换程序 裟鬻耥蝴配枫燃蝴虢 蒜黧篓翟淼二鬻 法、代码、默认值、安全要求等。 “”4 叭咣刿发转换规则、综合算 南京邮电大学硕士研究生学位论文 第3 章电信领域的数据仓库 ( 7 ) 开发数据分析工具 建立结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询 工具、统计分析工具、o l a p 工具等。 ( 8 ) 数据仓库必须像其他系统一样进行管理,包括质量检测、管理决策支持工具及应 用程序,并定期进行数据更新,使数据仓库正常运行。 什么样的企业最有可能建造数据仓库呢? ( 1 ) 该行业有较为成熟的联机事务处理系统,为数据仓库提供了数据电子化的客观条 件; ( 2 ) 该行业面临市场竞争的压力,为数据仓库的建立提供了外在的动力。 目前国内电信运营商已经具备了这两个基本条件。 3 2 1 电信领域的典型数据仓库系统结构 下图是电信领域的一个典型的数据仓库系统结构。 i 薯髓鬟lr 心嘏攒 网 1 一 鬯型 一 川l _ _ j h 小嫩被搭仓雕一 副l 7 。 倒 i 中啦无辑攥l 飞两| l - 一j 一望 i 商i 被雯秽| i 女酾 唑 l 教擢群陡 l 潍 3 2 2 数据源分析 图3 - 3 电信领域的典型数据仓库架构 数据源的分析包括以下内容: 数据的业务范围及业务含义 数据所在平台,包括系统平台和数据库平台: 数据结构; 数据更新周期; 数据更新方式: l 柯京| | j | j 电久学硕j 一研究生学位| 仑史 数据量; 信运营商的数据仓库的数据主要有以下几个来源: 支撑系统,包括计费、营i 怅等; 陌管系统; 挪3 仁电信领域的数据仓库 企业办公系统; 其它数据 些数据又可以分为两个类型:来自业务系统得实时数据、汇总数据。 实时数据 前,国内电信运营商都已经有若干业务系统了。这些系统中的数据代表了企业目前 的业务状态,这些数据一般都是高粒度的,达到非常细节的程度,这些数据对于企业韵业 务运作也非常重要,业务数据的流程实质上反映的是企业的商业流程。 来自业务系统的实时数据是数据仓库的最重要的数据来源,这些数据在进入数据仓库 之前,必须经过清洗、抽取、转换、加载等多个处理。 2 、汇总数据 汇总数据就是在细节数据上进行汇总、平均等处理步骤之后得到的较低粒度的数据。 它们从更高的层面上刻画了企业的现状,更接近管理的层面,对分析有更加重要的意义。 真正的业务分析其实很少基于最低层次的细节数据,更多的是基j 汇总数据。 3 2 3 数据仓库模型设计 数据模型决定了数据仓库所能进行的分析的类型、分析的细致程度、分析的效率以及 u 向应时间:同时不同的模型有不同的存储空间以及数据更新策略,并直接影响数据仓库项 f 1 的投资。 目前,主流的数据仓库建模技术有两种:实体关系建模、维建模。其中,维建模又分 为星型结构和雪花结构等。 1 、实体关系模型 实体关系建模通常用于为单位的所有数据创建一个复杂的模型。 实体关系建模通过“实体”和“关系”两个概念来构造特定的数据模型。 实体表示现实和抽象事物的集合,这些事物有相同的属性。现实埘:界的一个事物可以 由数据模型的多个实体表示。 关系连接多个实体,描述相关实体的相互作用关系。 2 、维度模型 一l5 一 电 这h 目 南京邮电大学硕士研究生学位论文第3 啦电信领域的数据仓库 维度建模针对相对独立的业务创建有针对性的分析模型。 星型结构模型是一种多维的数据关系,由一个事实表和一组维表组成。每个维表都有 一个维作为主键,所有这些维组成事实表的主键。事实表的非主属性称为事实,它们一般 是数值或者其它可以进行计算的数据;而维大都是文字、时间等类型的数据。 雪花型结构模型是星型结构的一个扩展,由多个表定义一个或者多个维度。在雪花型 结构中,只将主维度表与事实数据表连接,其它维度表连接主维度表。 3 2 4 数据e t l 数据e t l 即数据抽取、数据转换、数据加载,是数据仓库实现过程中将数据从数据源 系统向数据仓库加载的主要过程。e t l 过程关系到数据的质量,是数据仓库应用的基石。 l 、数据抽取 典型的数据抽取接口包括数据库接口和文件接口,不同的数据平台、不同源数据形式 采用不同的数据抽取接口。在数据抽取时,需要重点考虑数据抽取的效率,以及对现有业 务系统性能及安全的影响。 电信运营商的源数据一般具有如下特点: 数据量特别大; 业务系统工作负荷重,2 4 小时不问断工作; 业务系统性能、实时性的要求高; 因此,电信运营商的数据仓库的数据抽取接口一般情况下采用专用数据库驱动接口, 必要时采用a p i 接口编程实现数据抽取,以提高抽取效率,同时减小对业务系统性能的影 响。 数据的抽取必须保证不影响业务系统的性能,必须制定相应得策略,包括抽取方式、 抽取时机、抽取周期等。这就要仔细分析源数据,根据源数据的分类来制定相应的策略, 表3 一l 是源数据分类方式表: 分类数据特征主要数据内容 源 流水犁增长数据按增量方式产生,不涉及清单、账甲、订单 数 数据 对已有数据的更新操作 据 操作 变化更新对已有数据进行更新资源配置信息等 分 类 两者结合 按增量方式产生新数据的同 客服纪录等 方 时,还对已有数据进行更新 式 数据大清单、账单等 量相对较小资源管理、系统管理类数据 表3 1 源数据分类方式 京i | 1 | 5 屯人学硕j 二删究生学位沦殳痢3 r 电信领域的数挑仓库 制定抽取策略时,要综合考虑各项因素。对流水型增长且数据量久的数据适合采用增 量抽取的方式,典型的有清单类数据;对变化更新的数据适合采用完全抽取的方式,典型 的有反映当前状态的资源配置类数据;对有两者特点的数据,如果能提取增量信息,则进 行增量抽取,否则采用完全抽取方式,典型的有客户资料变更数据或其他的客户服务记录 数据。 2 、数据转换 数据转换是指对从业务系统中抽取的源数据根据数据仓库系统模型的要求,进行数据 的清洗、转换、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,保 证其质量。 数据转换主要完成由以下原
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小区物业管理协议书
- 定向硕士培训协议书
- 理赔授权协议书
- 物业消防协议书
- 工程经济合作协议书
- 射击设备租赁协议书
- 家庭分割分配协议书
- 甲方退房协议书
- 球队安全协议书
- 离岗休养协议书
- 语文五年级 【知识精讲】7.阅读(2)文言文阅读
- 社会心理学8-人际关系课件
- QC-R 596-2017高速铁路板式无砟轨道自密实混凝土高清-无水印
- 邻补角、对顶角、同位角、内错角、同旁内角经典习题-一对一专用
- 保密管理-保密教育培训签到簿
- 常见病媒生物分类鉴定
- 手术室剖宫产护理查房-课件
- 隧道工程隧道洞口临建施工方案
- DBJ∕T13-374-2021 福建省钢筋桁架叠合楼板技术标准
- 事故池管理的有关规定
- 高中语文部编版选择性必修下册第四单元 单元学习导航 课件 (8张PPT)
评论
0/150
提交评论