(计算机软件与理论专业论文)基于电信客户关怀项目的etl设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于电信客户关怀项目的etl设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于电信客户关怀项目的etl设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于电信客户关怀项目的etl设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于电信客户关怀项目的etl设计与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于电信客户关怀项目的etl设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

掖要 摘要 电信客户关怀项目是为了有效管理电信存量客户而建立的基于从属型数据集 市的分析管理系统。e t l 指数据抽取、转换、清洗、装载的过程,是建立数据集 市最基本最重要的环节,是电信客户关怀项目数据分析成败的关键。 本文主要内容是客户关怀项目数据集市e t l 过程的设计与实现,以及对处理 过程的优化改进。工作主要包括以下内容: 首先对数据仓库、数据集市与e t l 的概念特点等进行研究,得到理论基础; 对客户关怀项目进行详细的数据分析,在需求理解和数据理解基础上得到e t l 处 理结构。 然后在设计中,采用e l t 的系统结构设计更好解决性能问题,并将e t l 处 理的功能设计为数据抽取、清洗转换、加载和监控模块,确定了各功能完成的策 略和方式,加入了日志处理功能,便于对整个处理流程进行监控,得到e t l 过程 的处理框架;再针对转换处理中的数据质量问题,本文提出了以数据理解为基础, 保证数据质量为中心的e t l 处理方法,详细分析和理解客户关怀项目业务数据, 对转换处理中各个步骤的待处理数据和转化后数据都进行跟踪分析,制定e t l 的 每步相应的清洗转换规则,充分保证数据质量;且为了便于进行测试、维护和业 务扩展,将e t l 过程分段设计为六个串行业务处理相对独立的e t l 处理模块。 最后,实现了e t l 的整体到局部的调度过程、各个模块处理过程和e t l 日志 处理功能,并对e t l 实现过程遇到的问题采用逐步隔离测试的方法进行性能优化。 得到的该e t l 处理过程从功能和性能上都达到了设计要求,为客户关怀项目提供 了较好的数据支持,也为其他数据集市e t l 提供借鉴作用。 关键词:e t l ,数据集市,数据仓库 a b 盟r a c t d e s i g na n di m p l e m e n t a t i o no fe t l b a s e d0 1 1t h e t e l e c o mc u s t o m e rc a r ep r o j e c t a b s 仃a c t t o e f f e c i e n t l ym a n a g et h et c l e c o ms t o c kc u s t o m e r s ,t e l e c o mc u s t o m e rc a r e p r o je c t ( c c p ) h a sb e e nr a i s e da st h ea n a l y s i ss y s t e mw h i c hi sb u i l to nt h eb a s eo f s u b o r d i n a t i v ed a t am a r t ,e t li st h ep r o c e s so fd a t ae x t r a c t i n g , t r a n s f o r m a t i o n , c l e a n i n g a n dl o a d i n g ,a n di st h em o s ti m p o r t a n ts t e pi nd a t am a r t ,a n di st h ek e yo fc c p a n a l y s i s t h i sp a p e r sm a i nc o n t e n ti st h ed e s i g ni m p l e m e n t a t i o no fe t l p r o c e s sb a s e do n c c ba n dt h eo p t i m i z a t i o no ft h ee t l t h em a i nw o r ki sa sf o l l o w s : f i r s t ,s t u d yt h ec o n c e p ta n dc h a r a c t e ro fd a t aw a r e h o u s e ,d a t am a r ta n de t l f o rt h e t h e o r e t i c a lf u n d a t i o n c o n d u c td e t a i l e dd a t aa n a l y s i st og e te 耳p r o c e s s i n gs t r u c t u r eo n t h eb a s i so fa n a l y z i n gc u s t o m e rc a r ep r o j e c tn e e d s t h e n ,u s i n ge l ts y s t e ms t r u c t u r a ld e s i g ni no m e rt oi m p r o v ep e r f o r m a n c e ,e t l w a sd e s i g n e dt od e a lw i t ht h ef u n c t i o n so fd a t ae x t r a c t i o n ,c o n v e r s i o nc l e a n i n g ,l o a d i n g a n dd a t am o n i t o r i n gm o d u l e ,j o i n e dt h el o gp r o c e s s i n gf u n c t i o n s , i no r d e rt of a c i l i t a t e m o n i t o r i n gt h ee n t i r et r e a t m e n tp r o c e s s ,t h u sg e tt h ee t lp r o c e s s i n gf r a m e w o r k f o r t h et r e a t m e n tf o rc o n v e r s i o no fd a t aq u a l i t yp r o b l e m s ,t h ep a p e rr a i s e dt h ed a t aq u a l i t y a s s u r e de t l p r o c e s s i n gm e t h o db a s e do nd a t au n d e r s t a n d i n g ,t r a c i n ga n da n a l y s i n gt h e p r o c e s s i n gd a t aa n dt r a n s f o r m e dd a t ao fa l ls t e p s ,p r e p a r i n gt h ec o r r e s p o n d i n gc l e a n i n g c o n v e r s i o nr u l e s ,a n dt h u sf u l l yg u a r a n t e et h eq u a l i t yo fd a t a a n de t l p r o c e s s i n gw a s d i v i d e di n t os i xs e r i a lp r o c e s s i n go ft h ei n d e p e n d e n tt e s t i n go fe t l p r o c e s s i n gm o d u l e s oa st of a c i l i t a t eu n i tt e s t i n ga n dm a i n t e n a n c eo fe x p a n s i o n f i n a l l y , t h ep a p e ri m p l e m e n t e de t ls c h e d u l i n gp r o c e s sf r o mt h eo v e r a l lt op a r t i a l , a c h i e v e dt h ep r o c e s s i n gm o d u l e sf u n c t i o na n de t l p r o c e s s i n gl o gf u n c t i o n ,a n dt ot h e p r o b l e m se n c o u n t e r e db ye t l r e a l i z e dp r o c e s s ,u s e dag r a d u a li s o l a t i o no ft h et e s t m e t h o dt op e r f o r m a n c eo p t i m i z a t i o n t h ef u n c t i o n sa n dp e r f o r m a n c eh a v er e a c h e dt h e d e s i g nr e q u i r e m e n t s ,p r o v i d e da p p r o p r i a t ed a t as u p p o r t sf o rc c p k e y w o r d s :e t l ,d a t am a r t ,d a t aw a r e h o u s e i i 西北大学学位论文知识产权声明书 本入完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:查基指导教师签名: 守聊吕年厂月7 日舢8 年月夕日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名:夺驭 扣矽年5 月罗日 第一章绪论 第一章绪论 1 1 电信客户关怀项目( c c p ) 的背景与意义 在当今的商业环境中,随着移动通信技术的不断发展和电信产业的不断开 放,市场竞争日益激烈。新一轮的电信发展给电信运营商提供了巨大的机遇和挑 战,国内各大电信运营商都在寻求方法提高各自的市场竞争力,在经过大规模重 组后,电信运营商的自身和外部环境都在发生着剧烈的变化。 赶上这一轮发展高潮必需技术创新、人员储备和市场开发的同时,也须为不 断改进企业内部管理结构,建立和完善更为科学的分析决策体系,积极应对电信 发展中带来的机遇和挑战,并能够作出快速、科学的分析判断决策,这是所有电 信运营商所应做的。对市场的变化做出快速的反应,已成为电信行业赢得竞争的 关键。 电信行业每天都会产生大量数据,企业也已经开始关心如何从这些数据中取 得有用的信息了。发挥现有数据的价值,使各地市各运营商平台上积累的数据信 息有效的组织起来展现在数据拥有信息决策者面前,快速并且准确地找出需要的信 息从而直观地做出正确的决策,分析历史数据来归纳取胜经验总结失败教训,进 而预测未来的发展趋势得出最有效的管理,商业智能( b u s i n e s si n t e l l i g e n c e ,简称 b i ) 应是最适合的解决途径。 商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智 的业务经营决策的工具。由数据仓库或数据集市、查询报表、数据分析、数据挖 掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用【l 】。目 前商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的 业务经营决策的工具,而商业智能够辅助的业务经营决策既可以是操作层的,也 可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联 机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) 工具和数据挖掘等技术 【2 】 o 在b i 技术和企业转型推进中,电信企业也越来越深刻地认识到,“客户”的 第一章绪论 核心性。在信息时代客户服务绝不能和产品割裂开来,必须把“了解客户需求, 满足客户需求”作为企业各项工作的出发点和驱动力,把客户感知作为检验工作 成效的关键,有效改善企业服务形象,提高企业的核心竞争力,再结合商业职能 的应用,因而就有了“电信客户关怀项目( c u s t o m e rc a r ep r o j e c t ,简称c c p ) ” 的诞生。 由于各大电信运营商对客户的争夺非常激烈,如何有效管理存量客户已经成 为省电信关注的一个重点,从成本上来看,行业内普遍认为对现有用户的挽留成 本与寻找新用户的成本比是1 :5 ,把现有用户留住所需的成本显然比寻找一个新 用户所付出的成本要低。而目前情况下某省电信公司在存量客户的管理上也存在 着一些问题,归纳如下: 第一,客户价值与流失问题较为严重:客户的a r p u ( a v e r a g er e v e n u ep e r u s e r ,每客户平均收益) 值不高,并呈下降趋势;客户流失现象严重,譬如小灵 通拆装比较高; 第二,对于价值和流失两大问题开展的部分活动,面临很多问题;营销组织 和经营分析也存在一定困惑。 随着市场格局的变化,需要从管理客户数量转变为管理客户质量与关系,即 从大众营销转为定向营销。而这种转换需以识别客户的价值和流失趋势两方面的 特征为基础,电信客户关怀项目正是以此为建设宗旨,为目前电信存量客户的管 理提供强有力的业务支撑和数据支撑。 电信客户关怀项目系统旨在管理电信存量客户,基于客户细分,并依据不同 情况对客户实施增量销售、流失挽回和主动关怀等三种活动,从而延长客户在网 时间,提升客户终身价值,以此推动电信的综合竞争力,并得出该如何减少或避 免客户的流失,如何吸引客户新入网,如何使客户消费增值的有效策略,从而提 高利润和竞争力,使企业在激烈的市场竞争中取得优势。 系统定位为管理省电信所有存量客户管理,分三个层次对系统的功能进行分 解和展现:在策划层实现关怀政策的论证和评估,这里的关怀政策主要指套餐政 策:在实现层实现关怀策略的设计、论证、执行和评估整个流程;在支撑层实现 客户细分及建立分群模型、渠道支撑、知识管理。 该系统提供的功能以及在m b o s s 中的定位如图1 1 所示,其中红色标识的功 2 第一章绪论 能为客户关怀系统提供的功能: 各户关系管理系统( c r m ) 锛健 l 盛e i 彗理 i l 销售衍弛萱埋f l 销售文托瞢瑾i l 销售江队管理i i 销伏0 :瑾菏岸i 馨台弃艘 i 吝 ,接娃营习 i i 矗诲一千强务请求fi i f i i 埋控政 睾受理丁跟踪 i l r 甲受理与蹋_ ;c ;= li 吝户s l o 管理ii 收贽时端i ,一 二_ l 客j 资辩譬理 | | 壤瓣黪壤獭嬲襻褥l 瞄黼黼黧麟粼 图1 1 客户关怀系统所提供功能 系统涉及的支撑系统功能数据模型设计需要遵循电信i t 支撑系统企业数据模 型,以便以后能够顺利纳入电信i t 支撑系统体系【3 】i 【4 】。 1 2 本课题的国内外研究现状 随着b i 、数据仓库等技术的推广,国内外目前对数据仓库的研究颇多,主要 集中在如何构建支持决策分析系统的合理的数据仓库,也包括很多对数据仓库 e t l 的相关领域的研究,而目前专门针对部门级别的数据集市e t l 的研究却相对较 少。 e t l 为e x t r a c t t r a n s f o r m - l o a d 的缩写,即数据抽取、转换、装载的过程,作为 b i 的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据 从数据源向目标数据库转化的过程,是实现商业智能之前的数据采集步骤,是实 施数据仓库的重要步骤【5 1 。 现在通常所说的e t l 还加上清洗这一过程,b l 】e t l 是数据抽取( e x t r a c t ) 、转 换( t r a n s f o r m ) 、清洗( c l e a n s i n g ) 、装载( l o a d ) 的过程,是构建数据仓库或 数据集市的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按 照预先定义好的数据模型,将数据加载到目标库中,否则目标系统中有可能存在 墨西 第一章绪论 着滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等这样大 量的噪声数据,根据“垃圾进,垃圾出”( g a r b a g ei n ,g a r b a g eo u t ) 的原则,系统根 本就不可能为决策分析系统提供任何支持,为了清除这些垃圾数据,必须进行 e t l 过程【6 】。 数据e t l 是通过各种措施,从准确性、一致性、无冗余、符合应用的需求等 方面按照规则提高数据的质量。有统计资料表明,数据错误大约占到总数据量的 5 左右,因此数据质量问题是制约数据仓库应用的“瓶颈”之一【7 1 。如果数据质 量达不到要求,将直接导致数据仓库技术不能产生理想的结果,甚至会产生错误 的分析结果,从而误导决策。在e t l 执行过程中,由于多样性数据源中存在的数 据错误与冲突,一般需要进行数据清理f 8 1 。因此数据在进入目标库前必须进行清 洗。 e t l 过程在数据仓库和数据集市的建设与维护中占据了相当重要的位置,相 关报告指出建立数据仓库的预算中至少有三分之一被用于e t l 工具与数据清理 工具上【9 】 通常,一个数据仓库项目中会有8 0 的时间被用于e t l 过程的建立和执 行上【1 0 1 ,而数据仓库运行代价q b e t l 过程则要占到5 5 t 1 1 1 。 虽然数据集市e t l 与数据仓库e t l 确 相似之处,但也有很多不同,数据集市 e t l 的模式要比数据仓库e t l 简单,但数据变换的复杂度却要高得多,e t l 是b i 项目的基石,是仓库和集市项目的关键,保证e t l 处理过程,降低e t l 过程的设计、 维护代价以及提高e t l 过程的执行效率,可以有效降低整个项目的建设和维护代 价。 1 3 本文主要研究内容及意义 电信客户关怀系统是基于从属型数据集市的b i 项目,省电信中央数据仓库以 电信业务逻辑数据模型进行构建,存储基础业务数据,而要建立的数据集市则需 要面向该项目的业务应用,它要存储的是满足客户关怀项目功能需求分析的数 据。 e t l 直接关系着加载到目标库的数据内容和数据质量,也就直接关系着c c p 系统的分析功能。e t l 需要从电信数据仓库中抽取分析客户价值和流失趋势的相 4 第一章绪论 关数据,通过对仓库数据清洗和层层转换处理,加载到为客户关怀项目建立的数 据集市中,提供识别客户的价值和流失趋势所依赖的分析数据。 鉴于国内外目前对数据集市e t l 的研究相对较少的情况,本文以c c p 项目的 数据集市e t l 为例,从e t l 相关技术和业务数据理解开始,逐步进行e t l 的过程设 计和实现,提出以数据质量为保证的研究方法,深入分析c c p 系统的逻辑结构, 针对这个面向电信数据应用主题的项目的数据集市e t l 系统进行设计分析,根据 业务需求对让人极为头痛的电信行业海量数据量制定有效的e t l 处理框架和清洗 转换规则,提高其准确程度与数据可信度,并对e t l 过程的错误处理和性能问题 做出改进和优化提高方案,为c c p 提供了较为理想的数据分析支持,也为其它的 数据集市e t l 提供重要的借鉴作用。 1 4 本文的组织结构 本文由六个主要章节组成,各章主要内容如下: 第一章:绪论。本章主要介绍了建立客户关怀项目的背景与意义,基于此基 础上介绍了e t l 的国内外研究现状与研究意义和本论文的主要研究内容。 第二章:e t l 相关技术研究。本章介绍了与e t l 密切相关的技术知识,主要 为后面章节的主要内容做铺垫。相关知识包括:数据仓库的基本知识、数据集市 的概念、特点与分类、数据集市与数据仓库的联系与区别、e t l 的概念、实现方 法与特点。 第三章:c c p 数据分析。本章对客户关怀系统进行简单的业务介绍,确定了 e t l 处理后所支持的业务所需数据,分析介绍了c c p 数据集市的结构,对源数据 和业务数据进行数据理解,为e t l 设计做框架,制定了数据处理结构。 第四章:c c p 的e t l 过程设计。本章内容是全文的核心章节,提出了以数据 理解保证数据质量为中心的e t l 总体设计思想,并根据总体思想逐步设计了e t l 的处理过程。首先介绍了c c p 项目的e t l 总体结构设计,在此基础上设计e t l 的 处理框架,再根据设计思想,详细的分析了数据集市每一层次的数据结构,针对 对业务数据每一个处理步骤的具体理解,设计了e t l 处理的流程和规则,最后为 第一章绪论 了便于修改和维护将整体处理过程设计了根据业务划分的e t l 处理模块。 第五章:c c p 的e t l 实现。这一章主要为实现了e t l 过程的调度方法和各个 模块功能,对e t l 的日志处理过程进行阐述,并采用隔离测试的方法对性能作出 改进。 第六章:本文的总结与展望。作为结论部分,本章主要归纳了本文的主要工 作,以及对未来工作的研究方向展望。 6 第二章e t l 相关技术研究 第二章e t l 相关技术研究 2 1 数据仓库与数据集市的概念 2 1 1 数据仓库介绍 数据仓库( d a t aw a r e h o u s e ,简写d w ) ,是一个面向主题的( s u b j e e to r i e n t e d ) 、 集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策( d e c i s i o nm a k i n gs u p p o r t ) 1 2 】。对于数据仓库的概 念我们可以从两个层次予以理解,首先,数据仓库用于支持决策法,面向分析型 数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的 数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数 据仓库中的数据一般不再修改。 企业数据仓库的建设,是以现有业务系统和大量业务数据的积累为基础。数 据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做 出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整 理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因 此从产业界的角度看,数据仓库的建设是一个工程,一个过程【1 3 】。要理解数据仓 库的特性,应对比普通操作型数据库来理解: ( 1 ) 面向主题的。操作型数据库的数据组织是面向事务处理任务的,各个业 务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 ( 2 ) 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据库之间相互独立,并且往往是异构的。而数据仓库中的数据是根据一定规则在 对原有分散的数据经过抽取、清理的基础上经过转换、汇总得到的,并且消除了 源数据中的不一致性。 ( 3 ) 相对稳定的。操作型数据库中的数据需要实时更新,前台变化后台即时 更新。而数据仓库的数据主要供企业决策分析的,一旦某个数据进入数据仓库以 后,一般情况下将被长期保留,也就是说数据仓库中一般有大量的查询操作,但 修改和删除操作很少,通常只需要定期的加载、刷新。 7 第二章e t l 相关技术研究 ( 4 ) 反映历史变化。操作型数据库关心的一般是当前某时间段内的数据,而 数据仓库中的数据通常包含历史信息,用来对企业的发展历程和未来趋势做出定 量分析和预测【14 1 。 2 1 2 数据集市研究 2 1 2 1 数据集市的概念 数据集市( 或叫数据市场,d a t am a r t ,简称d m ) 就是一个从操作的数据和其 他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。从范围上来 说,数据是从企业范围的数据库,或者是更加专业的数据仓库中抽取出来的。数 据集市的好处就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现, 以及易用方面【1 5 】。 虽然o l t p 和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取 有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报 表,但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问的信息 的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了 不一致的和无效的值,使得难于分析。数据仓库是企业决策支持系统( d e c i s i o n s u p p o r ts y s t e m ,简称d s s ) 的心脏,是历史数据的适当存储场合【1 6 1 ,但是,数据 仓库并不能回答所有的决策支持系统的处理问题。数据集市是一种满足特定部门 的d s s 处理需求而专门定制的数据的集合,是数据仓库的一个子集。另外,当存 在共同的分析需求时,数据集市也可以为多个部门共享的资源。基于这些原因, 数据集市也就逐渐发展起来了。 2 1 2 2 数据集市的特点 数据集市合并不同系统的数据源来满足业务信息需求。若能有效地得以实 现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图,一个 设计良好的数据集市归纳起来有如下特点【1 7 】: ( 1 ) 集市是属于部门级别的,是特定用户群体所需的信息,通常是一个部门或 第二章e t l 相关技术研究 者一个特定组织的用户,且无需受制于源系统需求和操作性危机。 ( 2 ) 支持访问非易变的业务信息,非易变的信息是以预定的时间间隔进行更新 的,并且不受o l t p 系统进行中的更新的影响。 ( 3 ) 调和来自于组织里多个运行系统的信息,比如账单记录、产品实力、客 户管理以及组织外部的行业数据。 ( 4 ) 通过有效值有效格式、使进入集市的数据值保持一致从而能提供清洗过 后的数据。 ( 5 ) 能为即时分析和预定义报表提供合理的查询响应时间。 2 1 2 3 数据集市的分类 数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种 类型的数据集市如图2 1 所示: 图2 1数据集市的两种类型 独立型数据集市:是直接从操作型环境中获取数据的,这些数据集市是由特 定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际 上,它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性。 从属型数据集市:是从企业级数据仓库中获取数据,这样的数据集市往往以 分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实 现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实 际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个 部门中的终端用户可以访问和使用另一部门中数据集市中的数据【l 8 1 。 9 第二章盯l 相关技术研究 2 2 数据集市与数据仓库的联系与区别 2 2 1 联系 提起数据仓库和数据集市,就需要提及r a l p hk i m b a l l 和b i l li n m o n 两个b i 领域 的革新者和领军人物,他们分别开发并测试了不同的技术和体系结构,分别代表 了“自上而下和“自下而上 的两种实现方法。 b i l li n m o n 将数据仓库定义为数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的 ( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i l e ) 、反映历 史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策( d e c i s i o nm a k i n g s u p p o r t ) 。他认为应该围绕“主题 来组织数据仓库中的数据,主题指用户决策时 关注的重点,每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加 一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数 据集市【1 9 】。也就是说,某个特定数据集市中的所有数据都应该直接从数据仓库中 抽取而来,只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集 市。这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远 来看将真正节省资源和工作。b i l li n m o n 的设计方法如图2 2 所示【l8 1 。 而r a l p hk i m b a l l 则认为数据仓库仅仅是构成它的数据集市的联合,可以通过 一系列维数相同的数据集市递增地构建数据仓库【2 0 1 。每个数据集市将联合多个数 据源来满足特定的业务需求,通过统一的维信息,能够共同看到不同数据集市中 的信息。这个方法将提供集成的数据来回答组织迫切的业务问题并且要快于 i n m o n 的方法。r a l p hk i m b a l l 的设计方法如图2 3 所剥1 8 】。 两者目前相较而言,并不能得到究竟孰优孰劣的结论,因为实际上,方法的选 择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和数据质量, 或者希望为今后打下良好的基础,那么会偏向i l l m o n 的方法,但该方法缺乏灵活 性并且在现在的商业环境中所花时间太长【2 1 1 ,如果需要尽快给用户提供信息,那 么k i m b a l l 的方法会更好。而一旦满足了迫切的信息需求后,就应该考虑包含 独立数据仓库的数据体系结构的转换计划。数据仓库将使数据集市与遗留系统和 o l t p 系统隔离,并且支持更快地创建将来的数据集市,由于数据仓库在整个发 l o 第二章e t l 相关技术研究 展中直承担了重任,所以它将支持极力关注数据集。 图2 2 b i l lh l m o n 的设计图解 图2 3r a l p hk i m b a l l 的设计图解 2 2 2 区别 数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段,是 历史数据的适当存储场合,但数据库并不能回答所有的决策支持系统的处理问 题;而数据集市则是一种满足特定部门的决策支持系统处理需求而专门定制的数 据的集合,是部门级的,一般经常为某个局部范围内的管理人员服务。数据集市 也可以为多个部门共享的资源。 数据集市是数据仓库的重要扩充,当数据仓库的数据量不断增长时,数据集 市的必要性也在不断地凸现。数据集市的精髓就是它的灵活性和可访问性。因为 数据集市中的数据比数据仓库少得多,数据集市几乎可以在日常得任何时间内承 受许多大小和类型不同的查询和请求。 数据仓库和数据集市的区别表现在以下几个方面: ( 1 ) 数据仓库的数据来源与操作型业务库、外部数据、不同系统与平台;而数 据集市可来源于数据仓库。 ( 2 ) 数据仓库的范围和主题是面向企业级的;数据集市的范围是面向部门和工 作组级的。 ( 3 ) 数据仓库优化便于处理海量数据,数据集市与之相较更便于访问和分析。 第二章e t l 相关技术研究 ( 4 ) 数据仓库和集i 订的不同还表现在数据粒度上,数据仓库的数据粒度为最细 的粒度,而数据集市则根据需要会较粗些。 ( 5 ) 数据仓库的数据结构采用规范化模式,数据集市则常采用星型模式、雪花 模式,两者的数据结构和内容特征区别如图2 4 所示f 2 2 】。 数据仓| l 孳的数烬结构数据集市的数铡结构 :子 :,t - i 耪 2 4 数据仓库和数据集市的数据结构和内容特征区别 2 3c c p 的数据集市 综合上述可以看出,有关决策支持型数据库的数据集市是面向企业中的某个 部门或是项目小组的。数据集市的建立可以并不需要首先建立一个数据仓库,在 k i m b a l l 的模型中,数据直接由事务型数据库转入数据集市中,一个公司可能建立 有多个数据集市,而彼此之间直至可以毫无联系。这种不在建立数据仓库的基础 上创建数据集市的方式会更便宜快速,但缺点在于无法实现最初创建数据仓库的 最主要的目的将企业所有的数据统一为一致的格式,很难做到对数据的一致 的储存,那么电信系统的数据必然更加难以管理,所以在客户关怀项目中考虑省 电信公司的客观因素,采用建立从属型数据集市,即建立从已经建立的储存省电 信公司企业全部详细信息的数据仓库中,经过e t l 得到满足客户关怀系统功能所 需要展现和分析的那部分特定数据信息的数据集市。 1 2 第二嚣e t l 相关技术研究 2 4e t l 技术研究 2 4 1e t l 的概念 e t l ,e x t r a c t i o n - t r a n s f o r m a t i o n l o a d i n g 的缩写,中文名称为数据抽取、转换 和加载,现在通常还加上清洗这一步骤,是构建数据仓库或数据集市的重要一环, 用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓 库或数据集市模型,将数据加载到目标库中去。e t l 负责将分布的、异构数据源 中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集 成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 e t l 规则设计和实施则是工作量最大的,约占整个项目的6 0 - - 8 0 【2 3 1 。e t l 也 是一个长期的过程,只有不断的发现问题并解决问题,才能使e t l 运行效率更 高,为项目后期开发提供准确的数据。 e t l 通常可分三部分:数据抽取、数据的清洗转换、数据的加载。在设计 e t l 的时候一般也是从这三部分出发。数据的抽取是数据源抽取到操作型数据存 储,这个过程也可以做一些数据的清洗和转换,在抽取的过程中需要挑选不同的 抽取方法,尽可能的提高e t l 的运行效率。e t l 三个部分中,花费时间最长的是 t ,即转换的部分,一般情况下这部分工作量是整个e t l 的2 3 还多【2 4 1 。数据的 加载一般在数据清洗完了之后直接写入目标库中去。 电信公司的数据仓库系统与电信客户关怀项目的数据集市也有个数据转化的 过程,我们称之为数据集市e t l ,数据集市e t l 的模式或许比数据仓库e t l 稍容易, 但数据转换的复杂度却要高出很多。 2 4 2e t l 的相关实现方法 e t l 是一个概念,应该根据实际的情况选择合适的e t l i 具或不使用工具选择 适合的方法。 目前现有的e t l i 具都是价格昂贵,大致可以分成4 种,针对不同的需求, 主要是从转换规则的复杂度和数据量大小来看。它们包括【2 5 】: ( 1 ) 交互式运行环境,指定数据源、目标数据和规则,进行e t l 。这种交互式 13 第二章e t l 相关技术研究 的操作较方便,但只适合小数据量和复杂度不高的e t l 过程,因为规则复杂时可 能需要语言级的描述,大数据量的问题,并且这种交互式必然建立在解释型语言 基础上,灵活性也会牺牲一定的性能为代价。 ( 2 ) 专门编码型的,提供一个基于某种语言的程序框架,可以不必将编程精力 放在周边功能上,例如读文件、写数据库功能,而主要放在规则的实现上。优点 是性能较高,对于处理大数据量和复杂的转换逻辑处理比较直观。 ( 3 ) 代码生成器型的,类似e t l 代码生成器,提供简单的图形化界面操作,设 定好转换规则,其实后台生成基于某种语言的程序,要运行时必须要先编译。如 d a t as t a g e ,设计好j o b 必须要编译,避免了每次转换的解释执行。这类工具特点除 了界面友善,还有提供面向专家应用的功能,这是因为它不可能考虑到所有的转 换规则和读写方式,所以提供插件接口来让第三方编写特定的插件和特定语言来 实现高级功能。 ( 4 ) 数据集线器型的,工作方式和h u b 类似,上面几种多指e t l 实现的方法, 此类主要从数据处理角度。数据集成主要是一种准实时性,就像h u b 一样,不断接 收各种异构数据源来的数据,经过处理在实施发送到不同的目标数据中去。 上面介绍了几种工具的大致分类,这些工具各有优缺点,在选择过程中,必 须要考虑到开发效率、维护方面、性能、学习曲线等各方面因素,但很多e t l i 具的功能显得过于简单,如m s d t s ,有的e t l 工具配置复杂费力,也有的e t l 工 具则显得依附性太强、通用性不够,譬j t l l o r a c l ew a r e h o u s eb u i l d e r 等。而在信息分 析产业刚刚形成的时候是不存在e t l 工具的,数据的抽取、转换和装载都是通过 手工编程实现的,对比e t l i 具,传统的e t l 手工编码有以下几个特点: ( 1 ) e t l 手工编码在抽取、转换、装载的灵活程度上是最高的,提高运行效率, 这点要明显优于e t l 工具。 ( 2 ) e t l 手工编码的成本投入比起工具要相对较低。 ( 3 ) e t l 手工编码对技术要求较高,而e t l 工具相对降低难度。 电信客户关怀项目( 以下都简称为c c p ) 的数据处理比较复杂,且数据量非 常庞大,所以对系统的运行效率、可监控性和代码维护难易程度要求较高。鉴于 客户关怀项目的数据处理比较复杂,且各种业务对效率以及灵活性的要求较高的 情况,并且综合开发周期以及成本开销等各种因素,基于灵活性、实用化和运行 1 4 第二章e t l 相关技术研究 效率等多方面考虑,在很多次预言与实验的基础上,c c p 项目的数据集市e t l 采 用手工编码的方式实现。因为客户关怀项目是爪j a v a 项目,所以主要使用s q l 干t j a v a - i , 吾言来实现和编写和调用e t l 过程,确保系统的运行效率。 2 4 3e t l 特点 e t l 是数据同步的,就是说不是一次将数据转换完成,加载到目标库中过程 就结束了,e t l 过程通常是按照固定周期间隔运行的,是与数据同步的。e t l 还有 一个特点就是处理的数据量很大,所以人们一般经常讲e t l 拆分成来讨论【2 6 】,主 要包括下面这些子过程。 数据抽取:数据抽取采用统一接口,是将电信企业分析功能需要的数据按一 定格式从数据源中提取的过程,是所有工作的前提。对于不同数据平台、源数据 形式性能要求的业务系统,以及不同数据量的源数据,可能采用的接口方式有所 不同。 电信客户关怀项目是从省公司数据仓库里直接抽取,为保证效率,减少对运 营分析的影响,对于海量数据的抽取,通常在新数据进入仓库,而仓库系统又相 对空闲的时期譬如晚上等时间定期抽取数据。 数据转换和数据清洗:根据已建立好的仓库或集市数据模型,制定相应的规 则,将数据通过数据格式转换、数据类型转换、数据拆分、数据汇总计算、数据 拼接等转化,和对重复数据、不完整数据及不规则数据等无效数据的清洗等手段 进行同一集成合规范化,来实现数据的一致性和完整性要求。 我们设计的e t l j 遣_ 程是针对电信客户关怀项目的,因为数据集市e t l 的模式要 比数据仓库e t i _ 稍简单,但数据变换的复杂度却高出了很多,所以我们的重点在 于数据的集成与转换处理上。 数据加载:数据加载是将经过转换处理后的数据加载到数据仓库中,加载过 程可以与转换过程同时进行,边转换边装载;也可以将转换处理后的数据先存入 数据缓存池,再利用特定的工具来完成加载过程。 不同的业务系统的数据采用不同的加载周期,考虑到客户关怀项目的需求和 系统加载代价,应针对其需求设计相应的加载周期,但必须保持同一时间数据的 第二章e t l 相关技术研究 完整性和一致性。 2 5 本章小结 本章先对数据仓库的概念,对数据集市的概念、特点、分类等进行了介绍,并 分析了数据集市与数据仓库的联系与区别,在此基础上确定y c c p 应该建立的数 据集市类型;再结合c c p 研究- e t l 技术的概念、实现分类和e t l 过程的特点。 1 6 第三章c c p 数据分析 3 1c c p 业务分析 第三章c c p 数据分析 目前电信各个地市公司都很重视客户的关怀工作,大部分工作是通过客户经 理和1 0 0 0 0 号外呼来完成关怀活动的。而对于关怀活动的任务来源都多又是通过 派单;客户经理主要工作集中在催费、假拆、零次、话费下降等派单任务上;而 1 0 0 0 0 号营销组承担的工作有业务发展,如增量销售的超级无绳,宣传的针对长话 话量低的客户推荐1 1 8 0 8 等;上面两种渠道工作合起来就是存量客户的营销工作; 客户关怀系统所设计的关怀活动应该包含所有的这些业务并且应该有所突破;在 派单的数据支撑问题上应该远远强于现在数据分析力度,如应该纳入事前的论证 以及事后的评估等。 市场格局的变化,需要从管理客户数量转变为管理客户质量与关系,即从大 众营销转为定向营销。而这种转换需以识别客户的价值和流失趋势两方面的特征 为基础,电信客户关怀项目正是以此为建设宗旨,为目前电信存量客户的管理提 供强有力的业务支撑和数据支撑。 电信客户关怀系统旨在管理陕西电信存量客户,基于客户细分并依据不同情 况对客户实施增量销售、流失挽回和主动关怀等三种活动,从而延长客户在网时 长,提升客户终身价值,以此提高利润和竞争力,使企业在激烈的市场竞争中取 得优势,推动陕西电信的综合竞争力。 电信客户关怀系统系统采用三层b s 结构,客户端基于浏览器,服务端运 行于w e b s p h e r e 6 0 服务器中,数据库服务器使用d b 2u d bv 8 x 。该项目旨在管 理电信存量客户,支撑客户关怀策略设计、论证、执行和评估的整个业务过程, 强大的客

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论