




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)电信企业数据仓库经营分析系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
工程硕卜学位论文 摘要 当前通信市场及其相关技术正处于高速发展的阶段,电信运营企业需要不断 提升科学决策能力和精细化运营管理能力。商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 系统在新的市场竞争环境下能发挥重要作用。电信企业的经营分析系统直接反映 企业经营管理状况,帮助企业进行经营决策和市场营销,是企业决策支撑系统。 运用数据仓库、数据分析和挖掘技术,构建经营分析系统,对信息进行智能化加 工处理,发现海量通信数据中蕴涵的知识,为市场决策管理者提供及时、准确、 科学的决策依据,是提升电信企业竞争力的有效手段。 本文分析电信企业经营分析系统中基于数据仓库( d a t aw a r e h o u s e d w ) 和 数据挖掘( d a t am i n i n g ,d m ) 的相关技术,结合电信企业海量数据的特点,提出 一种分级式数据仓库构建方法,并在该方法的基础上设计和实现分级式数据仓库 经营分析系统原型并实现其中的营销管理功能。 本文主要围绕三个方面展开研究工作。一是分析电信企业海量数据的异构特 点,提出一种分级式数据仓库构建方法,实现分级式经营分析系统。该方法通过 统一数据仓库的数据结构、统一数据逻辑模型、统一业务指标口径定义,从而实 现异构数据的集成与共享。该方法解决海量数据仓库内数据的统一存储和标准化 问题,为数据质量管理及统一业务应用打下坚实的数据基础。二是研究数据挖掘 技术在市场营销中的应用,利用大量数据信息资源,进行智能化加工和处理,提 出一个精准营销预测模型,实现精细分析和精确营销。三是在构建的分级式数据 仓库经营分析系统的基础上,利用营销模型,实现系统营销管理功能,为市场营 销和决策管理者提供准确及时的数据依据。 关键词:电信企业;分级式数据仓库;经营分析系统;精准营销模型;营销管理 电信企业数据仓库经营分析系统的设计与实现 a b s t r a c t t h ec u r r e n tt e l e c o mm a r k e ta n di t sr e l a t e dt e c h n o l o g i e sa r ea tt h es t a g eo fr a p i d d e v e l o p m e n t t e l e c o m o p e r a t o r s n e e dt o c o n t i n u o u s l yu p g r a d e s c i e n t i f i c d e c i s i o n - m a k i n ga b i l i t y a n d p r e c i s i o n o f o p e r a t i o n sm a n a g e m e n tc a p a b i l i t i e s b u s i n e s si n t e l l i g e n c e ( b i ) s y s t e m sp l a ya ni m p o r t a n tr o l ei nt h en e we n v i r o n m e n to f m a r k e tc o m p e t i t i o n b u s i n e s s a n a l y s i ss y s t e m ( b a ss ) o ft e l e c o m r e f l e c tt h e s i t u a t i o no fb u s i n e s sm a n a g e m e n t ,a n di t su s e f u li nm a k i n gb u s i n e s sd e c i s i o na n d m a r k e t i n g s oi ti sad e c i s i o ns u p p o r ts y s t e mo ft h et e l e c o mc o m p a n i e s b u i l d i n g b a s su s i n gd a t aw a r e h o u s e ( d w ) ,d a t aa n a l y s i sd a t am i n i n g ( d m ) t e c h n o l o g i e s , a n d i n t e l l i g e n t i n f o r m a t i o np r o c e s s i n g ,t h ek n o w l e d g ew i l lb ef o u n di nm a s s c o m m u n i c a t i o n sd a t a m a r k e tm a n a g e r sc a nm a k ead e c i s i o nt i m e l y , a c c u r a t e ,a n d s c i e n t i f i c i ti sa ne f f e c t i v em e a n st oe n h a n c eb u s i n e s sc o m p e t i t i v e n e s s t h i sp a p e ra n a l y z e st h et e c h n o l o g i e so fb a s sb a s e do nt h ed wa n dd m c o m b i n e dw i t ht h ec h a r a c t e r i s t i c so ft e l e c o mc o m p a n i e s m a s sd a t a ,am e t h o do f c l a s s i f i c a t i o nd w p r o p o s e d ,a n db a s e do nw h i c hac l a s s i f i c a t i o nd w ,ab a s sa n dt h e m a r k e t i n gm a n a g e m e n tf u n c t i o n sd e s i g n e da n di m p l e m e n t e d i nt h i sp a p e r , t h r e em a i na r e a so fr e s e a r c hw o r kc a r r i e do u t f i r s t ,t e l e c o m e n t e r p r i s ed a t ac o m ef r o md i s p a r a t es y s t e m so fh e t e r o g e n e o u sd a t a i nv i e wo ft h i s c h a r a c t e r i s t i c ,t h i sp a p e rp r e s e n t sau n i f i e de n t e r p r i s ed a t ac o m m u n i c a t i o nl o g i c m o d e lo fm a s s i v ed a t ai n t e g r a t i o nm e t h o d s w i t ht h i sm e t h o d ,t h ed a t as t r u c t u r eo f d wu n i f o r m e d ,t h eh e t e r o g e n e o u sd a t ai n t e g r a t e da n ds h a r e d ,t h ed e f i n i t i o no f o p e r a t i o n a li n d i c a t o r sc a l i b e ru n i f o r m e d ,t h ed a t as t o r a g e da n ds t a n d a r d i z e di nd w i t l a i das o l i df o u n d a t i o nf o rd a t aq u a l i t ym a n a g e m e n ta n db u s i n e s sa p p l i c a t i o n s b a ss b u i l do nc l a s s i f i c a t i o nd w s e c o n d ,t h i sa r t i c l es t u d i e dd mi nt h em a r k e t i n g a p p l i c a t i o n ,d e v e l o p e dap r e d i c t i o nm o d e lf o ra c c u r a t em a r k e t i n ga n da n a l y s i st o a c h i e v eap r e c i s ea n da c c u r a t em a r k e t i n g t h ed a t aa n di n f o r m a t i o na r eu s e f u lt o m a k ea na c c u r a t ea n dt i m e l yd e c i s i o n t h i r d ,t h i sa r t i c l ei m p l e m e n t e dt h em a r k e t i n g m a n a g e m e n tf u n c t i o n si nb a s so nc l a s s i f i c a t i o nd w i ti si m p o r t a n tf o re f f i c i e n t m a r k e t i n ga n ds c i e n t i f i cm a n a g e m e n ti nt h ei n c r e a s i n g l yf i e r c em a r k e tc o m p e t i t i o n e n v i r o n m e n t k e yw o r d s :t e l e c o mc o m p a n i e s ;c l a s s i f i c a t i o nd w ;b a s s ;p r e c i s i o nm a r k e t i n g m o d e l ;m a r k e t i n gm a n a g e m e n t l l l - t 程硕1 :学位论文 插图索引 图2 1 数据挖掘过程8 图3 1 分级式数据仓库1 4 图3 2 分级式统一数据模型1 5 图3 3 分级式数据联动接口1 6 图3 4 分级式数据质量管理1 7 图3 5 分级式数据仓库中应用举例1 8 图3 6 经营分析两级系统网络结构2 1 图3 7 省级经营分析系统网络拓扑2 2 图3 8 经营分析系统体系结构2 3 图3 9e t l 实现过程的简单流程2 7 图3 1 0 即席查询结构2 9 图3 1 1 数据挖掘3 0 图3 1 2 元数据管理系统架构3 2 图4 1 样本选择3 5 图4 2 模型研究方法3 6 图4 3 选择重要变量3 6 图4 4 模型实现技术架构3 8 图4 5 数据挖掘专用层3 8 图4 6 模型训练3 9 图4 7 效果验证3 9 图4 8 模型实现和推广应用4 l 图5 1 营销功能在经营分析系统中的定位4 3 图5 2 营销功能功能架构图4 4 图5 3 营销功能技术架构图4 5 图5 4 营销活动流程图4 6 图5 5 服务调用模式图4 9 图5 6 营销应用功能实现图5 l v i t 程顾l j 学位论义 第1 章绪论 本章分析电信企业经营分析系统的现状和数据管理存在的问题,介绍了国内 外电信企业数据仓库的研究现状,在此基础上对论文主要工作进行了说明,并展 现了论文的整体结构。 1 1 研究背景 当前通信市场及其相关技术正处于高速发展的阶段,现代通信企业之间的竞 争已经不再是单一地扩大网络覆盖规模,而是综合实力的竞争,这就需要电信运 营企业不断提升科学决策能力,提升企业精细化运营和管理能力,以及精细化客 户服务能力。随着信息技术的发展,电信企业为提升企业信息的运营能力,商业 智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 系统在新的市场竞争环境下所能发挥的重 要支撑作用,运用数据仓库、数据分析和挖掘技术,构建经营分析系统,从而对 信息进行智能化加工处理,发现海量通信数据中蕴涵的规律和知识,并为最终各 级市场决策管理者提供及时、准确、科学的辅助决策依据,是提升企业竞争力的 有效手段【l l 。 国内某电信企业的网络规模及用户数量不断壮大,该企业在建设数据仓库时, 面临国际、国内其它行业同类系统均没有遇见过的技术难题,这些难题主要包括: 1 数据量非常大,对硬件资源的处理能力及系统架构有特殊的要求【2 】 电信企业的数亿多用户资料及服务使用等信息每同均需及时加载到数据仓库 系统中,以便为市场营销、客户服务等业务分析提供数据支撑。每只处理的数据 量可达几个t b ,如果按照常规的方式建设集中化的数据仓库系统,则目前i t 市 场还不能提供处理能力能够达到要求的硬件设备及相关系统平台资源。 2 多系统异构数据源的整合非常复杂,数据质量管控难度大【3 】 由于各省企业均需要从业务支撑系统( b o s s ) 、网管系统、客服系统等数据 源中抽取数据,而这些业务系统的数据库存在异构问题。大大小小的异构数据源 系统达1 0 0 多个,如果从这些异构的系统中抽取数据,并在数据仓库系统中形成 数据的统一视图,不仅要解决业务规则上的整合问题,同时对数据仓库技术上的 运用也提出很高的要求。 由于异构数据源的存在,数据在抽取、传输、转换、加载、加工时均有可能 出现数据质量问题,而多系统异构情况的复杂程度,加大数据质量管控的难度, 这也是系统建设中的关键点之一。 3 各省企业的地域分散,数据传输成本高【4 】 u 信企q k 数据仓席经7 i 分析系统的设计j 实现 由于电信企业各省企业地域分散,且都有各自的数据源,同时还有一些全国 统一集中建设的业务系统需要抽取数据,这些系统也分布在不同的地域罩,如果 全国只建设一套集中的数据仓库,则全国各省的业务系统均把源数据传输到同一 个地域,整体传输时间非常长,传输成本也非常大。 4 业务支撑能力要求高,市场需要快速的信息响应【5 】 电信企业建设的数据仓库系统需要既服务省企业的信息运营,也要服务于总 部的决策分析。因此,数据仓库建设需要考虑到从宏观分析到一线运营、市场营 销的不同需求,而这种需求和应用上的区别,会加大对系统架构特殊性的要求, 也对软硬件资源的处理能力、数据处理方式等方面提出挑战。 另外,为满足对市场竞争的快速反应、快速分析、快速决策的需要,数据分 析结果必须在t + i ( 即数据发生的次日内) 形成,面对来源众多的海量数据,对 于系统的处理能力和快速响应能力都有很高的要求。 鉴于电信企业数据仓库系统建设在业务模式、数据规模等方面的特殊性,同 时国内外其它行业又没有类似的可参考案例,因此,电信企业只能在体系架构、 应用模式等各方面进行自主创新。 1 2 国内外电信企业经营分析现状 1 1 中国电信企业的数据仓库建设情况 中国移动目前约有5 亿用户,年营业额约为3 0 0 0 亿人民币,拥有4 0 万名员 工。建设的数据仓库容量为2 0 0 0 t b ,数据容量为1 0 0 0 t b 。有2 0 0 0 0 个用户在使 用数据仓库系统,年访问量约为1 0 0 0 万人次【4 】。 中国联通提供了统一信息平台,对信息进行了基本的整合,构建了基本的数 据仓库系统,全国数据仓库容量小于中国移动。 此外,中国电信也已经开始数据仓库系统建设。 2 1 美国a t & t 公司数据仓库建设情况 a t & tw i r e l e s s 是美国第三大无线运营商,拥有近3 1 ,0 0 0 名员工,在全美有 超过5 0 0 家分支机构。2 0 0 6 年,a t & tw i r e l e s s 的营业额超过2 0 0 亿美元。在 美国,a t & tw i r e l e s s 的竞争对手包括全美第一大无线运营商v e r i z o nw i r e l e s s 和 全美第二大无线运营商c i n g u l a rw i r e l e s s 。其数据仓库磁盘容量3 1 2t b 。数据仓 库使用情况:用户有2 7 3 0 个,平均每天提交2 7 0 6 次查询,每年使用9 8 7 ,6 9 0 人 次【6 1 。 3 1 美国v e r i z o n 移动通信数据仓库建设情况 2 t 程顾i j 学位论义 v e r i z o n 移动通信是v e r i z o n 通信公司和v o d a f o n e 公司的合资公司,是美 国最大的移动运营商,目前拥有4 , 0 4 0 力移动用户,4 6 ,0 0 0 名员工,2 0 0 5 年的年 收入为2 2 5 亿美金,a r p u 约为4 8 美元,覆盖美国9 0 以上的人口。数据仓库 容量情况:7 6 t b 数据容量。有3 万多用户使用数据仓库1 7 】。 4 1 法国电信公司的数据仓库建设情况 法国电信公司是欧洲第三大电信运营商,2 0 0 6 年营业额为4 9 0 亿欧元。在五 大洲2 0 0 多个国家和地区拥有上亿客户。下属o r a n g e 是第二大移动运营商。数据 库容量为6 5 t b ,其中原始数据为2 5 t b 8 l 。 通过对世界著名电信公司经营分析系统的建设情况的了解,从数据仓库建设 模式、数据仓库容量、e t l 、数据质量管理和数据挖掘五个技术层面进行调研总 结如下: 1 ) 电信企业数据仓库都是采用单点数据仓库的建设模式,即全网用户访问一 个单点数据仓库系统; 2 ) 在数据仓库建设模式方面,大型电信企业都遇到了海量数据的存储及应用 问题;在数据仓库容量方面,达到了p b 级( 1 p b = 10 2 4 t b ) ,需要建立大型的数据 仓库系统; 3 ) 大型电信企业都遇到了海量数据的异构性,e t l 很难完成复杂环境中的数 据高效集成; 4 ) 在数据质量管理方面,没有电信企业建立基于c w m 模型的数据仓库元数 据管理系统和基于元数据的数据仓库数据质量管理系统,无法有效地保障数据质 量。 5 ) 经营分析系统在数据挖掘方面很弱,都仅限于业务指标展现和报表展现, 没有开展智能化决策支撑,也没有实现决策和营销的互动。 1 3 本文主要工作 本文以电信企业数据仓库经营分析系统为研究对象,分析了电信企业经营分 析系统中基于数据仓库和数据挖掘的相关技术。结合电信企业海量数据的特点, 对分级式数据仓库经营分析系统进行探讨和研究,提出一种分级式数据仓库构建 方法,并在此基础之上设计和实现分级式数据仓库经营分析系统,建立起全国统 一的电信企业通信数掘集成平台。 电信领域数据包含来自计费、客服、网管等各类异构数据资源的复杂数据, 这些复杂数据之间还包含着繁琐的业务逻辑关系,因此数据异构情况非常严重。 针对这些特点,本文提出了一种面向通信企业统的海量数掳1 1 集成方法一一分级式 数据仓库系统。该方法统一数据仓库的数据结构,实现异构数据的集成与其享, l l 信企业数据仓库纤营分析系统的设汁j 艾脱 统一业务指标口径定义。统一逻辑模型解决海量数据仓库内数据的统一存储和标 准化问题,为数据质量管理及统一业务应用打下坚实的数据基础。作为逻辑模型 的一部分,通过业务指标口径的统一定义,解决数据仓库业务指标标准化的问题, 提供稳定的数据分析环境。通过该方法设计和实现分级式数据仓库经营分析系统, 建立起全国统一的电信企业通信数据集成平台。 本文结合数据挖掘相关知识,研究了市场精准营销模型、算法和实现方法。 为市场营销管理和分析提供理论和实践基础。通过实现经营分析营销管理功能更 好地充分利用业务支撑系统产生的大量宝贵的信息资源,进行智能化加工、处理, 为市场营销和决策管理者等提供准确及时的数据依据,在日趋激烈的市场竞争环 境中实现高效营销和科学管理。 1 4 论文组织结构 本论文共分为五章: 第l 章:介绍了本文的研究背景、主要研究工作和论文组织结构。 第2 章:介绍了当前数据仓库经营分析相关的技术知识,包括数据仓库技术、 数据仓库逻辑建模、联机分析处理o l a p 技术、数据挖掘技术以及业务流程分析 技术等。这些技术为经营分析系统的设计和实现提供了技术基础。 第3 章:结合电信企业海量数据的特点,对分级式数据仓库经营分析系统进行 探讨和研究,提出一种分级式数据仓库构建方法,并在该方法的基础之上设计和 实现分级式数据仓库系统,建立起全国统一的电信企业通信数据集成平台。本章 详细分析了经营分析系统的设计方法和过程,包括设计目标、设计原则、网络设 计、软件结构设计和功能设计等。 第4 章:研究基于数据挖掘的营销模型。依托数据仓库和数据挖掘技术,通过 研究现有产品客户在呼叫通话、业务使用等各方面的行为特征,利用主成分分析 找到关键影响因子,采用数据挖掘逻辑回归方法,训练得到预测模型,用于预测 将会选择该类产品的潜在用户群,并以概率量化,将高概率产品群推荐给合适的 目标客户,从而实现精准营销。 第5 章:实现经营分析营销管理功能。营销管理功能为电信企业语音、数据等 业务的市场营销过程的各个环节提供i t 支撑,服务于省级和地市级的市场营销部 门,为其市场营销活动的策划、制定及反馈提供业务功能支撑。设计业务营销管 理信息流程,形成与营销体系相对应的业务闭环管理,结合各业务营销的实际活 动,实现具有业务特色的营销过程和方法。 最后对全文的研究内容做出总结。肯定分级式数据仓库系统是适合电信企业 海量数据经营分析系统的;分析研究中存在的不足,并提出进一步的研究期望。 4 t 程顾l j 学位论文 第2 章相关技术分析 随着近年来数据库技术应用的不断推广和深入。其技术发展方向正从以事务 处理为中心向以分析处理为中心转换。并逐渐诞生了以数据仓库为基础,以联机 分析系统( 0 l a p ) 币0 数据挖掘技术为核心的一系列新技术。数据仓库、联机分析和 数据挖掘技术都是从传统的数据库技术中发展而来的,其研究方法和研究手段有 很多相通之处,这三项技术也是紧密结合在一起的。目前这些技术在实际系统中 已逐步开始应用。 2 1 数据仓库技术 目前,数据仓库系统主要以现有的商用数据库管理系统作为数据的存储体, 与传统的数据库系统不同。数据仓库系统是以面向主题的、集成的、时变的和稳 定的为特点,因此在数据仓库系统的建设中。其主要内容为数据抽取与数据集成。 在数据集成过程中,由于各数据源的类型多样。包括各种类型的关系数据库管理 系统、文件系统,甚至还包括来自w e b 上的数据,这些数据在模式设计上也是 多种多样 9 - 1 2 】。数据质量也千差万别,数据内容的来源也不统一,因此在数据集 成过程中数据模式的设计、数据清洗和数据的转换、导入和更新方法是主要难点。 在数据清沈中一个重要的问题是重复数据的发现与删除。由于数据来自不同 的数据源,所以相同的数据经常会在数据仓库中出现多个复本,但由于各个数据 源的数据质量有较大差别。同样的数据在录入时由于拼写错误、不一致的习惯会 出现小的差别,从而被认为是不同的数据。为了提高数据仓库中的数据的可靠性, 需要将这些可能的重复数据找出来,并进行删除。目前在重复数据的寻找方面主 要采用一些标准文本相似性匹配方法,如编辑距离、c o s i n em e t r i c 等。但这些方 法无法解决语义上的相似性判定问题。r o h i t 等人【1 3 】针对数据仓库中的维表提出 了一种新的重复数据寻找方法,这种方法不仅利用数据| b j 字符串的相似程度判断 两个元组是否相同,还参考了维表中的数据所固有的层次关系,从语义上发现数 据的相似程度。 在数据集成中,不同数据源的数据访问方式往往是不同的,有的是关系数据 库,有的是x m l 等半结构化数据,还有的是应用系统接口,同时数据的模式设 计也互不相同。因此目前常用的方式是将各个数据源的数据转换成某种中f b j 形式, 如统一模式的x m l 文本【1 4 。2 0 1 ,然后再将数据装入数据仓库。因此如何在这个过 程中保证数据中所蕴含的信息不丢失成为数掘集成技术中的一个研究目标。信息 的无损包括两部分的内容:一是模式的匹配;二是模式中语义的一致。在模式匹 f 【i 信企业数据仓库绎t ¥分析系统的设计j 实现 配方面近年来出现了一些模式匹配的方法,它们有的使用名字匹配和结构匹配的 方法进行模式闯的匹配,如c u p i d 、s f 等;有的使用机器学习的方法进行模式 匹配,如l s d 、g l u e 等方法。现在模式的自动匹配j 下向着把各种方法集成使用 方面发展,h o n ghd 等提出了一种系统框架:c o m a t 2 ,在这个框架中各种模 式匹配方法和用户的反馈结合在一起,通过多次迭代产生最终的匹配结果。 m i c h a e l 针对基于给定的d t d 实现多个关系数据库数据源集成的方法,给出了一 个定义语言a i g ,其利用x m lk e y 等,可以实现在数据集成中对数据类型和约 束的保持1 2 引。 随着数据仓库技术应用的推广,集成的数据源类型逐渐增多,包括w e b 在 内的各种数据源成为数据集成的目标,而这些数据源在集成时的语义保持是一个 非常难的问题,因为在不同的数据描述形式下语义的表达方式是不同的。a r v i n da 提出了对w e b 网页中结构进行抽取的方法【2 3 1 ,通过对现有网页模板的分析,可 以推出从新网页上分解并抽取数据的方法。 2 2 数据仓库逻辑模型 数据存储模型灵活的扩展能力是成功实施数据仓库系统的关键保障。在数据 仓库建模方面,数据仓库的成功与否取决于是否有一个统一全面的数据模型做支 撑。数据模型是连结和集成各种数据源的手段,也是存放业务规则和过程的场所。 而数据仓库模型建设成功与否,在很大程度上取决于是否有一个稳固的、全面的、 灵活的逻辑数据模型。逻辑建模是数据仓库实施中的重要一环,因为它能够直接 反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。 电信企业经营分析系统一般采用第三范式( 3 n f ) 设计的电信业逻辑数据模 型,按照主题的方式组织数据,从详细数据出发,从企业的业务规则出发,而不 只是从现有的应用需求出发设计逻辑数掘模型,因此可以较好地满足数据模型的 扩展性要求。电信业逻辑数据模型的核心是通用的,它包括独立于任何特定解决 方案的实体和数据结构。核心实体代表电信企业的业务规则而不管它们如何被使 用。核心实体通常具有交叉功能的价值,所有解决方案可以使用不同的核心组件 【2 4 】 o 在考虑数据存储模型的扩展性时,有以下三个层次的扩展要求【2 5 】: 1 主题的扩展 在设计一个大型的、复杂的数据仓库系统时,数据模型按主题划分是非常必 要的。主题是一个抽象的概念,是在较高层次上将企业数据的整合、归类并进行 分析利用的抽象。每个主题对应企业中的某一宏观分析领域所涉及的分析对象, 它聚焦在一个特定的业务分析领域。数据仓库的逻辑数据模型是主题的逻辑实现, 它是基于关系数据库的。经营分析系统的多维分析主题,j 下是全面考虑电信行业 6 t 程坝| j 学位论文 业务分析的需要,进行整体设计,并在较高层次上抽象,不仅全面覆盖电信行业 的业务范围,而且具有广泛的前瞻性。 设计基于主题的逻辑数据模型时是从对电信行业进行全面考虑的角度上设计 的,全面覆盖电信行业的业务分析需求。在具体的物理实施根据现阶段业务分析 需求,先选择对一个或几个主题进行物理模型设计和建设,随着企业业务需求的 发展,再逐步完善其它主题的物理实施。当有新的主题加入时,可以充分考虑它 与现有主题之间的联系,平滑地扩展逻辑模型。 2 实体的扩展 在逻辑数据模型中增加新的实体对于基于3 n f 的设计的逻辑数据模型的影 响非常小。通常在建设初期,对于主题域中的某些实体暂且不需要或无数据源, 则在建立物理存储模型时可以暂不建立存储,根据需要逐步扩展。 3 属性的扩展 在数据的物理存储模型中增加新的属性的情况也是非常多见的,增加新的属 性在关系型数据库中非常方便,一般不会发生表需要重新建立的情况。 目前较常用的两种建模方法是第三范式( 3 n f ,即t h i r dn o r m a lf o r m ) 和星型 模式( s t a r s c h e m a ) 2 6 , 2 7 j 。 在星型模式设计的数据仓库中,作报表的速度相对较快,但由于存在大量的预 处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要 求时,需要增加新的维。由于事实表的主键由所有维表的主键组成,这种维的变动 将是非常复杂、非常耗时的,因此采用星型模式建立数据存储模型的扩展性能很 难保障。星型模式另一个显著的缺点是数据的冗余量很大。综上所述,星型模式比 较适合于预先定义好的问题,如需要产生大量报表的场合:而不适合于动态查询 多、系统可扩展能力要求高或者数据量很大的中央数据存储。因此,星型模式在 一些要求大量报表的部门数据集市中有较多的应用。 而采用3 n f 的设计思想,可以比较好的解决星型结构所面对的设计上的瓶 颈。基于第三范式( 3 n f ) 的模型设计,对于现有的预定义报表以及动态查询和 数据挖掘等无法预知的应用具有非常灵活的支持能力,并且随着企业的不断发展 导致新的应用新的需求以及新的业务的增加,对于现有的数据模型和开发应用的 改动最小,而从逻辑数据模型到物理数据模型的设计,应本着尽量少做非舰范化 处理,因为任何的非规范化的设计都会造成应用编写的复杂性和增加维护的工作 量。由于中央数据仓库的数据模型反映整个企业的业务运行规律,如果在进行数 据存储的物理模型的设计进行过多的不规范处理容易影响整个系统原本的整体考 虑,不利于今后的扩展。而且不规范处理产生的数据冗余将使整个系统的数据量 迅速增加,这将增加数据库管理工作量和系统投资。而根据实际的业务需求和对 系统性能的要求,可以考虑在设计部门级数据集市时进行合理的适当的不规范处 u 信企业数据仓库绛? f 分析系统的设计o j 实现 理,这样既能有效地改善系统性能和满足业务需求,又不至于影响整个系统对数据 存储的扩展性要求。 2 3 数据挖掘技术 数据挖掘,也可以称为数据库中的知识发现( k d d ,k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) ,是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级 处理过程。数据挖掘是一种决策支持过程,它从大量的数据中提取隐含的、潜在 的、以前未知的有用信息或模式。它主要基于人工智能、机器学习、统计学、数 据库等技术,通过分析大量的原始的数据,作出归纳性的推理,挖掘出潜在的模 式并预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确决 策。 数据挖掘是按照企业既定的业务目标,对大量的企业数据进行探索、揭示隐 藏其中的规律性并进一步将之模型化的先进、有效的方法。如通过对客户各种数 据深入分析,了解客户的行为,建立模型,并对客户未来的行为进行预测。多年 来,统计人员采用手工方式“挖掘”数据库,寻找统计学上的重要模式。现在,数 据挖掘技术被很好地用于为预测客户行为进行建模。预测建模可以对客户进行分 类,同时对客户的行为进行打分,这些信息可以被整合到数据仓库和其他市场营 销应用中【28 1 。 数据挖掘的分析方法主要有关联分析、序列模式分析、分类分析和聚类分析 等【2 9 引】。数据挖掘利用人工智能领域中一些已经成熟的算法和技术如:人工神经 网络、遗传算法、决策树方法、邻近搜索算法、规则推理、模糊逻辑、公式发现 等来进行数据的挖掘。数据挖掘是人工智能中的成熟技术在决策支持系统中的具 体应用。 数据挖掘是一个循环往复的过程,通常涉及数据的选择、数据的变换,建立 模型,评估、解释模型,运用和巩固模型等步骤。 图2 1 数据挖掘过程 下程硕i j 学位论文 1 数据准备 数据准备的好坏将影响到数据挖掘的效率和准确度以及最终模型的有效性。 数据准备工作包括数据的选择( 选择相关和合适的数据) 、探索( 尽可能了解数据, 如了解分布情况和异常数据等) 、修正( 包括缺失数据的插值等) 、变换( 离散值 数据与连续值数据之问的相互转换,数据的分组分类,数据项之间的计算组合等) 。 2 建立模型 该步骤为最关键的步骤,选取数据挖掘工具提供的算法应用于以上已准备好的 数据,选取相应参数,生成模型。 3 评估、解释模型 对生成的模型进行比较和评估,直到生成一个相对最佳模型。再对此模型用业 务的语言加以解释。如果没有问题,可以对模型加以试验型的应用。如果有问题, 再重复上面的数据准备和建立模型的过程,直到建立满意的模型为止。 4 运用和巩固模型 对使用人员理解的、并被认为是符合实际和有价值的模型进一步监控其在实 际应用中的表现,如果发现模型表现不好的情况,应对模型作进一步的考察,以 反映业务运作规律的变化。 数据挖掘已经在多个应用领域产生巨大的效益。将数据挖掘和数据仓库协同 工作,可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。 由于数据仓库中的数据是来源于整个企业的统一的、集成的数据,保证数据挖掘 中数据来源的广泛性和完整性。数据挖掘技术是数据仓库中应用比较重要也是相 对独立的部分。目前,数据挖掘技术证处在发展当中。数据挖掘涉及到数理统计、 模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。 此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合, 丰富数据挖掘技术及工具的功能与性能。 目前对数据挖掘中关联规则、聚类、分类等基本算法的研究已经同趋成熟, 目前人们的研究重点逐渐转移到数据挖掘技术在新的数据类型、应用环境中使用 时所出现的新问题的解决上。任何一项计算机技术要发展下去一定要有广阔的应 用背景,目前数据挖掘的研究就处于同各种应用领域和新的要求相结合,发现并 解决在应用中出现的新问题阶段【3 2 3 7 】。 在数据挖掘和数据分析研究领域中,出现了一个新的研究方向,即流数据的 挖掘与分析。流数据是指那些数据量非常巨大的,无法全部存放在存储介质上进 行分析和计算的数据。流数据具有较为广泛的实际应用背景,主要用于电信、传 感器等产生数据量非常快的应用中。由于只能对数据作1 2 遍的扫描,并只能临 时存储少量的数据,因此原来很多成熟的数据挖掘、数据分析和数据杏询技术在 流数据上变得不适用了,需要提出新的解决方法。因此,流数据的问题一出现马 9 u 信企业数据仓库终7 i 分析系统的设计j 实现 上引起了研究界的重视,对流数据从管理、查询、分析与挖掘等多个方面进行了 研究。s i r i s hc 基于u cb e r k e i c y 的t e l e g r a p h 项目实现了一个流数据的查询系 统p s o u p p 8 】,该系统通过对称的对待数据和查询。将用户的查询同连续的查询结 合在一起,实现了基于旧数据回答用户的新查询和用新数据回答旧的查询。d o n a l d g a r n e y 等提出了a u r o r a 系统【3 9 1 ,该系统针对监控连续数据流的应用。提供了一 个比较系统的框架,支持连续查询、特定查询和视图三种查询,并对查询的调度 进行了研究。除此以外还有一些其它的流数据管理系统如a t & t 实验室开发了 h a n - c o c k 系统【4 0 1 ,该系统主要处理电信数据流,分析电话呼叫记录;b e l l 通信 研究所的t r i b e c a 系统【4 ,是一个用于网络监控的系统;俄勒冈研究机构和威斯 康星一麦迪逊大学f l 【勺n i a g a r a 系纠4 2 】是一个i n t e r n e t 查询处理系统,分析 i n t e r n e t 上的x m l 数据库。斯坦福大学的a r v i n da r a s u 和b r i a l lb a b c o c k 开发了一 个流数据管理系统s t r e a m ,并对流数据管理系统中的操作调度进行了研究,主要 解决当数据快速流入时如何能实时、准确地回答用户的查询,提出了一种新的调 度策略:c h a i n ,它可以在较少的系统资源下对快速流数据的查询进行相应调度 【4 3 1 。基于流数据的各种查询与处理技术也是近年数据库界研究的热点。b r i a n b a b c o c k 对在分布式环境下对快速流数据执行的t o p k 查询进行了研究【4 4 1 ,其方法 可以有效地减少查询执行中的网络通讯量。 2 4 联机分析处理技术 o l a p 代表联机分析处理,是一种用于对大容量数据汇总与分析的技术,它 使用户能够以更快、更易于使用的交互方式从数据中获得信息。o l a p 的关键是 能够以用户想得到的方式来表示数据。o l a p 主要通过多维的方式来对数据进行 查询、分析和报告。它不同于传统的o l t p 应用。o l t p 应用主要是用来完成用 户的事务处理,通常要进行大量的更新操作,同时对响应时问要求比较高。而 o l a p 应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应 用有对银行信用卡风险的分析与预测、企业市场营销策略的制定等。主要是进行 大量的查询操作,对时问的要求不太严格。 目前,常见的o l a p 技术主要有基于多维数据库的m o l a p 及基于关系数据 库的r o l a p 。在数据仓库应用中,联机分析处理应用一般是数据仓库应用的前端 工具,同时,联机分析处理工具还可以同数据挖掘工具、统计分析工具配合使用, 增强综合决策分析的能力。 此外,o l a p 的一个重要特点是多维数据分析,这与数据仓库的多维数据组 织正好形成相互结合、相互补充的关系。o l a p 技术中比较典型的应用是对多维 数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取并观测有关数 据,o l a p 技术还能够利用分析过程对数据进行深入分析和加工。 l o t 狸顺f j 学位论义 o l a p 主要的应用技术是“旋转和切片”,o l a p 让晟终用户能够对整理过的 信息进行切片和旋转操作,以便从不同角度考察数据。用户可以沿着任一轴“切割” 或“转动”一片特定的集成数据。 1 切片和切块 通过切片、切块功能,用户可以对数掘进行过滤,专注于某一方面的问题, 例如,用户通过拖拽的方式很容易的得到诸如“华东地区2 0 0 8 年的销售情况”这样 的数据。 2 钻取 钻取包含向下钻取和向上钻取操作,钻取的深度与维所划分的层次相对应。 向下钻取是通过对某一行汇总数据进行细分来分析数据。例如,用户分析“各 地区、城市的销售情况”时,可以对某一个城市的销售额细分为各个年度的销售额, 对某一年度的销售额,可以继续细分为各个季度的销售额。通过钻取的功能,使 用户对数据能更深入了解,更容易发现问题,做出正确的决策。 向上钻取是指自动生成汇总行的分析方法。通过向导的方式,用户可以定义 分析因素的汇总行,例如对于各地区各年度的销售情况,可以生成地区与年度的 合计行,也可以生成地区或者年度的合计行。 3 旋转 为方便用户更直观的查看分析数据,支持数据的旋转功能,从不同的视角来 查看数据,对于一些数据,通过旋转功能,看起来可以更加直观,例如时间序列 分析中,各地区各年度的增长量情况,把年份作为旋转维度,则同一地区不同年 度的数据以及增长量将在一行显示,看起来更容易理解。 联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的一 种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库 系统实现的联机分析系统,简称r o l a p 。其基本思想是对数据仓库中的数据模式 进行合理组织,直接通过关系查询实现联机分析系统支持的下钻、上翻、分片、 分块等操作。目前各个关系数据库厂商均在它们的关系数据库管理系统的产品中 提供了相应的查询手段,同时为了提高查询的性能,它们还增加了相应的索引机 制;另一种基于多维模型实现联机分析,简称m o l a p 。这种方法基于多维数组 实现联机分析系统,其主要研究问题如何减少存储空间,提高查询性能。 r o l a p 实现技术方面的研究开展了一段时间,目前提高r o l a p 的执行效率 的方法主要包括两个方面,一方面是采用物化视图的思想,其方法是将用户可能 的查询事先计算出来。当用户提交查询的时候,从已经计算出来的视图出发,可 以较快地计算出查询结果。这里面的主要问题是物化视图的选择和查询的实现。 另一方面是针对o l a p 查询的索引结构,比较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度绩效考核培训课件
- 年度汽车安全培训总结课件
- 年度安全培训课件安排
- 年底安全培训报告总结课件
- 威猛安全培训课件
- 虎林事业单位笔试真题2025
- 威尼斯小艇课件教学
- 工业安全知识培训资料课件
- 平面向量分解定理课件
- Flurbiprofen-CoA-Flurbiprofen-coenzyme-A-生命科学试剂-MCE
- 煤炭供应方案投标文件(技术方案)
- 公司收取管理费协议书范本
- JTS-165-6-2008滚装码头设计规范-PDF解密
- 设备维修与保养(课件)
- 《电力行业数字化审计平台功能构件与技术要求》
- 医院培训课件:《和谐医患关系的建构与医疗纠纷的应对》
- 《肺癌基础知识课件》
- 水泥行业发展的现状分析
- 会计继续教育《政府会计准则制度》专题题库及答案
- 安全生产应急处置卡模板(常见事故)
- 学校食堂食材配送服务方案(肉类、粮油米面、蔬菜水果类)
评论
0/150
提交评论