硕士论文-OLAP技术在辽宁移动经营分析系统的应用.pdf_第1页
硕士论文-OLAP技术在辽宁移动经营分析系统的应用.pdf_第2页
硕士论文-OLAP技术在辽宁移动经营分析系统的应用.pdf_第3页
硕士论文-OLAP技术在辽宁移动经营分析系统的应用.pdf_第4页
硕士论文-OLAP技术在辽宁移动经营分析系统的应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

硕士论文-OLAP技术在辽宁移动经营分析系统的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学 硕士学位论文 OLAP技术在辽宁移动经营分析系统的应用 姓名 闫路 申请学位级别 硕士 专业 电子与通信工程 指导教师 马晓红 20051217 大连理工大学专业学位硕士学位论文 摘要 为了适应日趋激烈的市场竞争环境 提升中国移动的企业核心竞争力 中国移动集 团公司提出了建设中国移动经营分析系统的任务 该系统围绕为市场经营工作提供及 时 准确 科学的决策依据展开 重点对客户 业务 收益 竞争对手 服务质量 营 销管理 大客户 新业务和数据业务 合作服务方九大主题进行分析 并以专题分析作 为补充 第一阶段技术实现以O L A P 分析为主 辅以数据挖掘 在一定程度上实现对数 据信息的提取 辽宁移动经营分析系统是建立的一个统一的数据信息平台 它采用先进的数据仓库 技术 O L A P 分析技术和挖掘工具 提取企业数据中的有价值信息 为企业的客户服务 市场营销等工作提供科学有效的支撑 提升企业的运营水平和竞争能力 体现以客户为 中心的经营理念 系统前台主要基于O L A P 技术 其中运用E s s b a s e 等工具进行C U B E 的生成和优化 用B R I O 提供用户操作界面的支持 后台主要使用O R A C L E9 i 数据仓库进行数据的存 储 聚合和钻取 使用D a t a S t a g e 进行数据的抽取 清洗 转换和加载 使用C l i m e n t i n e 进行数据挖掘模型的相关处理 在技术方面 系统采用先进的O L A P 在线联机分析思想 首先利用数据仓库的空间 和性能对数据源系统数据进行抽取 清洗 转换和加载 并通过三层聚合使数据达到生 成C U B E 的要求 其次 通过H y p e r i o nE s s b a s e 生成C U B E 放在O L A P 服务器中 最 后 通过前端展现工具B R I O 进行报表展示 多维分析 饼图 柱图的展现等多种展现 方式 在业务方面 系统分为客户 业务 收益等九大主题进行分析 并配合以K P I 关键 指标展示和专题分析 报表等多方式展示 本文主要阐述了基于O L A P 技术在辽宁移动经营分析系统的设计和实现 并重点对 其中O L A P 技术实现的分析模型进行了分析和实施 并重点阐述了针对辽宁移动经营分 析系统中如何处理海量数据 缩短查询时间 提高性能方面所作的优化工作 目前 本文设计实现的辽宁移动经营分析系统O L A P 多维分析系统已通过测试并运 行良好 关键词 O L A P 联机分析处理 C U B E 立方体 D i m e n s i o n 维 B O S S 业务支撑系统 大连理工大学专业学位硕士学位论文 O L A P T e c h n i q u eA p p l i c a t i o ni nL i a o n i n gM o b i l eB u s i n e s sA n 由s i sS y s t e m A b s t r a c t I no r d e rt oa d a p tt od a yb yd a yt h ei n t e n s em a r k e tc o m p e t i t i o nc i r c u m s t a n c e s g o m o t e d C h i n am o b i l et h ee n t e r p r i s ec o 把c o m p e t i t i v ep o w e r C h i n am o b i l et op r o p o s ec o n s t r u c t e dt h e C h i n am o b i l eb u s i n e s sa n a l y s i ss y s t e mt h ed u t y T h i ss y s t e mr e v o l v e sf o rt h em a r k e t m a n a g e m e n tw o r k t op r 0 d ep r o m p t l y i sa c c u r a t e t h es c i e n c ep o l i c y m a k i n gb a s i sl a u n c h e s k e yt ot h ec u s t o m e r t h es e r v i c e t h ei n c o m e t h ec o m p e t i t o r t h eg r a d eo fs e r v i c e t h e m a r k e t i n gm a n a g e m e n t t h eb i gc u s t o m e r t h eI l e ws e r v i c ea n dt h e d a t as e r v i c e t h e c o o p e r a t i o nS e r v i c es i d en i n eb i gs u b j e c t sc a r r i e so nt h ea n a l y s i s a n dt a k e st h es u p p l e m e n tb y t h es p e c i a la n a l y s i s F i r s ts t a g et e c h n o l o g yr e a l i z a t i o nb yO L A Pa n a l y s i sp r i m a r i l y a u x i l i a r y b yd a t am i n i n g l e a l i z c 8i nt h ec e r t a i nd e g r e et od a t am e s s a g ew i t h d r a w i n g 1 1 1 eL i a o n i n gm o b i l eb u s i n e s sa n a l y s i ss y s t e mb u i l d sau n i f i e dd a t am e s s a g o p l a t f o r m u s e st h ea d v a n c e dd a t aw a r e h o u s et e c h n o l o g y t h eO L A P a n a l y s i st e c h n o l o g ya n dt h ed i g g i n g t o o l w i t h d r a w si nt h eb u s i n e s sd a t at oh a v et h ev a l u ei n f o r m a t i o n s e r v e s f o re n t e r p r i s e s c u s t o m e rw o r ka n ds oO l lm a r k e tm a r k e t i n gp r o v i d e st h es c i e n c ee f f e c t i v es t r u t t h ep r o m o t i o n e n t e r p r i s e so p e r a t i o nl e v e la n dt h ec o m p e t i t i v ea b i l i t y m a n i f e s t st a k et h ec u s t o m e r 船t h e c e n t r a lm a n a g e m e n ti d e a n 圯s y s t e mo r s t a g em a i n l yb a s e do nt h eO L A Pt e c h n o l o g y i n w h i c hu t i l i z e dt o o la n ds oo nE s s b a s eh a sc a r r i e d0 1 1C U B Et h ep r o d u c t i o na n dt h e o p t i m i z a t i o n p r o v i d e dt h eu s e fw i t hB R I Ot h eo p e r a t i o nc o n t a c ts u r f a c et h es u p p o r t 1 1 b a c k s t a g em a i n l yu s e dO R A C L E t h e9 id a t aw a r e h o u s et oc a n yo i lt h ed a t at h em e m o r y t h e p o l y m e r i z a t i o na n dd l i i l st a k e s u s e sD a t a S t a g et oc a r r yo nt h ed a t at oe x t r a c t t h ec l e a n t h e t r a n s f o r m a t i o na n dt h ei n c r e a s e u s e dC l i m e n t i u et 0c a r r yo i ld a t am i n i n gm o d e lc o r r e l a t i o n p r o c e s s i n g I nt h et e c h n i c a la s p e c t t h es y s t e mu s e st h ea d v a n c e dO L A Po n l i n ea n a l y s i st h o u g h t f i r s tc a r r i e so nu s i n gt h ed a t aw a r e h o u s es p a c ea n dt h ep e r f o r m a n c et ot h ed a t ap o o ls y s t e m d a t ae x t r a c t s t h ec l e a n t h et r a n s f o r m a t i o na n dt h ei n c r e a s e a n de n a b l e st h ed a t at h r o u g h t h r e ep o l y m e r i z a t i o n st oa c h i e v ep r o d u c e sC U B Et h er e q u e s t N e x t p r o d u c e sC U B Et h r o u g h H y p e r i o nE s s b a s e p l a c c si nt h e0 L A Ps e r v e r F i n a l l y u n f o l d st o o lB R I Ot h r o u g hf r o n te n d t oc a r r yo nt h er e p o r tf o r mt od e m o n s t r a t e 血a t t h em u l t i d i m e n s i o n a la n a l y s i s t h ec a k ec h a r t c o l u m nc h a r tm a n yk i n d so fu n f o l d sa n dS OO nt Ou n f o l dt h ew a y h lt h es e r v i c ea s p e c t t h es y s t e md i v i d e si n t ot h ec u s t o m e r t h es e r v i c e t h ei n c o m ea n dS O o nn i n eb i gs u b j e c t sc a r r i e so nt h ea n a l y s i s a n dc o o r d i n a t i o nb yK P Ik e yi n d i c a t o r d e m o n s t r a t i o na n ds p e c i a la n a l y s i s r e p o r tf o r ma n dS Oo nm u l t i w a y sd e m o n s t r a t i o n 一I I I 闫路 O L A P 技术在辽宁移动经营分析系统的应用 T h i sa r t i c l em a i n l ye l a b o r a t e db a s e d0 1 1t h e0 L A Pt e c h n o l o g yi nt h eL i a o n i n gm o b i l e b u s i n e s sa n a l y s i ss y s t e md e s i g na n dt h er e a l i z a t i o n a n dk e yh a sc a r r i e do nt h ea n a l y s i sa n d t h ei m p l e m e n t a t i o nt oO L A Pt e c h n o l o g yr e a l i z a t i o na n a l y s i sm o d e l a n de l a b o r a t e dw i t h e m p h a s i sh o wp r o c e s s e st h em a g n a n i m o u sd a t ai nv i e wo ft h eL i a o n i n gm o b i l eb u s i n e s s a n a l y s i ss y s t e mi n r e d u c e st h ei n q u i r yt i m e e n h a n c e so p t i m i z e dw o r kw h i c h t h ep e r f o r m a n c e a s p e c td o e s A tp r e s e n t t h i sa r t i c l ed e s i g n st h er e a l i z a t i o nt h eL i a o n i n gm o b i l eb u s i n e s sa n a l y s i s s y s t e m0 蟑m u l t i d i r n e n s i o n a la n a l y s i ss y s t e ma l r e a d yi sg o o dt h r o u g ht h et e S ta n dt h e m o v e m e n t K e yW o r d s O L A P C U B EC u b e D i m e n s i o nU y g u r B O S SS e r v i c eS t r u tS y s t e m I V 独创性说明 作者郑重声明 本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发表或撰写的研究成果 也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料 与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意 1 7 作者签名 2 三监日期 2 垫 大连理工大学专业学位硕士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解 大连理工大学硕士 博士学位论文舨权使用 规定 同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版 允许论文被查阅和借阅 本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索 也可采用影印 缩印或扫描等复制手段保存和汇编学位论 文 作者签名 兰竖 导师签名 蔓盘逝 导师签名 各曼塑兰塾兰 旦查年必 I 大连理工大学专业学位硕士学位论文 1 绪论 1 1 问题的提出 在当今的知识经济时代 在中国这样一个经济高速增长的国家 企业如不迅速发展 就会面临淘汰 企业如果想要成为市场赢家 想成为公认的业界领袖 就必须努力获取任 何可能的竞争优势 中国移动通信原来是中国唯 家经营移动通信的运营商 但随着中 国联合通信有限公司的成立以及中国网通公司将小灵通推向市场 中国移动通信领域进入 了竞争时代 在移动市场竞争愈演愈烈的背景下 各个运营商赖以竞争的手段大多是价格 战 促销策略等 而缺乏对客户群体特征 产品消费特点 号线及网络资源的调配进行科 学 系统的分析 决策往往依据经验而缺乏科学性 随着客户需求的不断增长 业务复杂 度的不断提高 技术不断更新以及市场竞争的愈加激烈和中国加入W T O 和市场的国际化 国内移动通信市场的竞争将日益加剧 中国移动通信公司自成立以来一直是业界的代表 通过近几年的发展 用户数量增 长飞速 为了快速 灵活 准确地开展各项业务 给用户提供更好的服务 从2 0 0 0 年 以来 集团公司要求各省建设集中的业务支撑系统 综合业务管理系统 B O S S o 刁 辽宁 移动由于公司成立比较早 2 0 0 0 年在全国第一个完成了B O S S 系统的集中化改造 B O S S 系统的使用提高了公司开展各项业务的支撑能力 同时又收集到关于移动用户的大量信 息 但随着业务的发展 B O S S 系统在分析统计方面的不足就显现出来 在B O S S 系统 中只能按照现有的业务形成固定的 单一性的报表 每张报表只能反映局部的情况 一 旦需要综合性的数据时 就很难满足要求 经常是做报表的工作人员 手工从不同的报 表中取出相关的数据再手工形成表格 这样做使从事报表工作的人员工作量急剧增加 由于人工统计的报表准确性 灵活性较差 不能提供高质量的数据用于决策分析 所以 如何利用现有的有价值的海量数据 利用合适的工具 快速地形成各类分析报表 利用 直观的展现方式 更好地为管理者的决策提供支持是急需解决的问题 应用联机分析处 理 O n L i n e A n 蝴i c a l P r o c e s s i n g O L A P 技术可以使以上问题迎刃而解删 1 2 国内外现状 目前关于海量数据的O u 蟑分析和应用在国内一些核心行业的 排头兵 均开始了 相关的尝试 譬如电力行业的国电集团公司已经建立了关于电网指标数据的0 蟑分析 系统 在国内的电信行业中 中国移动通信公司又一次走在了运营商的最前沿 闫路 0 L A P 技术在辽宁移动经营分析系统的应用 国际上前5 0 0 强的公司有8 5 以上都建立了核心数据仓库和O L A P 分析系统 一些 世界级的电信运营商 如英国电信 A T T 德国电信 M C I S P R I N T T E L I A 等 无不把客户关系管理系统 C u s t o m e rR e l a t i o n s h i pM a n a g e m e n t C R M 作为企业竞争的利 器 1 3 研究背景 为适应日趋激烈的市场竞争环境 提升中国移动的企业核心竞争力 中国移动集团公 司提出了建设中国移动经营分析系统 集团公司的目标是建立一个统一的数据信息平台 采用先进的数据仓库技术和分析挖掘工具 以B O S S 系统中的生产数据为主要数据源 辅 以其它企业信息系统和外部数据源 建立统一的经营分析数据视图 形成经营分析的专业 数据仓库 提取有价值信息 为企业的客户服务 市场营销等工作提供科学有效的支撑 提升企业的运营水平和竞争能力 体现以客户为中心的经营理念 系统围绕为市场经营工 作提供及时 准确 科学的决策依据展开 重点对客户 业务 收益 竞争对手 服务质 量 营销管理 大客户 新业务和数据业务 合作服务方九大主题进行分析 并以专题分 析作为补充 第一阶段技术拟实现以O L A P 分析为主 辅以数据挖掘 在一定程度上实现 对数据信息的提取的任务 2 0 o a 辽宁移动通信公司的数据量情况 话单每个月大约1 5 亿条 全省的用户数达到八百多 万 每月用户以5 0 万以上的数量增加 账单每月达到1 6 0 0 多万条 每日的业务量达到4 0 万笔以上 根据集团的要求 对通话详单在线保留6 个月 用户资料永远保留 所以辽宁 移动从1 9 9 6 年成立公司以来 B O S S 系统存储了大量的资料 如果在B O S S 系统上做分析 主要有三大方面的影响 1 影响B O S S 系统的性能 B O S S 系统是 个面向用户的生产系 统 对业务办理速度要求很严格 它的性能一旦降低 马上会影响对用户的服务 引起用 户投诉 2 分析所用的数据要求8 个月以上的通话详单 但B O S S 系统在线保留6 个月的 通话详单 不能满足分析的需求 3 L 存储空间不够 4 X 分析结果只能以固定报表格式展 现 不能实现灵活的分析 因此 基于O L A P 分析的辽宁移动经营分析系统的开发与实现迫在眉睫 1 4 本文研究目标 辽宁移动通信公司在中国移动通信集团公司的统一部署和领导下 结合辽宁省的数据 特点和需求 对基于O L A P 分折的目标系统 辽宁移动经营分析系统进行了细致的调研和 设计 并从技术和业务两个方面进行深入的设计和分析 大连理工大学专业学位硕士学位论文 技术方面 目标系统将采用先进的O L A P 在线联机分析思想 首先利用数据仓库的空 间和性能对数据源系统数据进行抽取 清洗 转换和加载 并通过三层聚合使数据达到生 成C U B E 的要求 协1 7 1 其次 通过H y p e r i o nE s s b a s e 生成C U B E 放在O L A P 服务器中 最 后 通过前端展现工具B R I O 进行报表展示 多维分析 饼图 柱图的展现等多种展现方式 业务方面 目标系统将分为客户 业务 收益等九大主题进行分析 鲫 并配合以K P I 关键指标展示和专题分析 报表等多方式展示 1 0 1 1 1 5 目标系统拟采用的技术 目标系统前台主要基于O L A P 技术 其中运用了E s s b a s e 等工具进行C U B E 的生成和 优化 用B R I O 提供用户操作界面的支持 后台主要使用了O R A C L E9 i 数据仓库进行数据 的存储 聚合和钻取 使用D a t a S t a g e 进行了数据的抽取 清洗 转换和加载 使用C l i m e n t i n e 进行了数据挖掘模型的相关处型1 8 研 1 6 论文内容的安排 论文内容安排如下 第l 章介绍的是在国内外O L A P 技术应用的简要情况及辽宁移动采用此技术拟达到的 目标 第2 章介绍的重点是O L A P 技术描述并简要介绍了数据仓库 数据挖掘等技术 第3 章介绍的重点是O L A P 模块的分析与设计 同时简要介绍了本系统主要使用的软 件开发工具 第4 章是本论文的重点 主要介绍的是O L A P 模块的实现与性能优化 第5 章是总结与展望 闰路 0 L A P 技术在辽宁移动经营分析系统的应用 2 目标系统及O L A F 相关技术 辽宁移动经营分析系统是建立在一个统一的数据信息平台上 采用先进的数据仓库技 术 O L A P 分析技术和挖掘工具 通过提取企业数据中的有价值信息 为企业的客户服务 市场营销等工作提供科学有效的信息支撑 达到提升企业运营水平 竞争能力及体现以客 户为中心的经营理念的目的 2 1 目标系统简介 中国移动经营分析系统规划和建设的原则和目标主要包含以下几个方面 1 中国移动经营分析系统按照两级系统 三层结构的原则进行建设 其中 两级系统 是按经营分析系统数据存储进行划分的 具体是指集团公司级经营分析系统 全国中心 和省 级经营分析系统 省中心 两级 而 三层结构 是指经营分析系统在逻辑结构上包含数据获 取层 数据存储层和数据访问层 2 经营分析系统的建设是遵循 整合业务数据 面向经营分析 的原则进行设计的 整合业务数据 是指经营分析系统必须构造面向主题的 集成的 稳定的 随时间而变 化的数据仓库系统 而 面向经营分析 是指系统必须智能地从数据中提取与企业经营相 关的信息和知识 为市场经营和决策人员制定客户服务 业务发展和市场竞争等策略提供 科学 准确 及时的依据 3 经营分析系统应能通过即席查询 预定义报表 联机分析处理 数据挖掘等手段 实现面向主题的业务智能功能 能根据需要进行主题内部要素的扩充 主题的新增以及跨 主题的重构 能成为业务决策者专业的咨询顾问 2 1 1 中国移动经营分析系统的组织结构 中国移动经营分析系统分为集团公司经营分析系统和省公司经营分析系统两级 各省 直辖市 自治区 只设置一级统一组织且集中存储的经营分析系统数据中心 地市级分公司 不设置单独的经营分析系统数据中心 其中 省公司经营分析系统主要完成本省客户发展 情况 业务发展情况 收益情况 市场竞争 服务质量 营销管理 大客户 新业务及数 据业务 合作服务方等方面的主题分析工作 经营分析系统两级结构示意图如图2 1 所示 大连理工大学专业学位硕士学位论文 图2 1 经营分析系统两级结构示意图 脚2 1T w o l e v e l ss U u c l m eo f b u s i n e s sa u a l y s i ss y s t e m 集团公司经营分析系统与省公司经营分析系统之间的联接主要是实现相关分析主题数 据的抽取和交互 2 1 2 辽宁移动经营分析系统的体系结构 辽宁移动经营分析系统分为三层 数据获取层 数据存储层和数据访问层 其中数据 获取层又分为数据来源 抽取 清洗 转挽伽载三个子层 数据访问层又分为展示方式和分 析人员两个子层 经营分析系统 三层体系结构示意图 如图2 2 所示 数据访目层 数据存储层 数据获取层 图2 2 经营分析系统 三层体系结构示意图 F g 2 2B u s i n e s sa n a l y s i ss y s t e m s 仉1 c u a e 鲥M n 疵o f t h r e el a y e r ss y s t e m 闰路 O L A P 技术在辽宁移动经营分析系统的应用 数据获取层 将B O S S 管理信息系统O d a n a g 锄e mi n f o r m a t i o ns y s t e m M I S 网管和 其它外部数据源中的数据进行抽取 清洗 转换 并加载到数据仓库 数据存储层 实现对数据仓库中数据和源数据的集中存储与管理 并可根据需求建立 面向部门和主题的数据集市 数据访问层 通过多样化的前端分析展示工具 实现对数据仓库中数据的分析和处理 形成市场经营和决策工作所需要的科学 准确 及时的业务信息和知识 2 1 3 辽宁移动经营分析系统信息流图 经营分析系统的使用者包括分析人员 决策人员 执行人员 并与生产系统保持一定 程度的互动 其信息流图如图2 3 所示 抽 图2 3 经营分析系统信息流图 n g 2 3T h e i n f o m t i o nf l o wg r a p ho f b u s i n e s s 锄蛐s y s t e m 大连理工大学专业学位硕士学位论文 该系统包括三条闭环信息流 分析人员 决策人员通过经营分析系统获得市场营销和客户服务信息 制定营销计 划和客服方案 营销人员和客服人员进行市场经营和客户服务活动 并将相应活动信息反 馈 分析人员 决策人员通过经营分析系统获得市场和客户信息 制定新业务受理计划 和方案 B O S S 系统管理员进行应用开发和参数调配 经营分析系统向B O S S 系统提供分析结果的调用接口 供业务系统使用 2 2 0 心技术 2 2 1o L A P 发展背景 在过去的二十年中 大量的企业利用关系型数据库来存储和管理业务数据 并建立了 相应的应用系统来支持日常业务运作 以支持业务处理为主要且的这种应用 被称为联机 事务处理 O n l i n eT r a n s a c t i o nP r o c e s s i n g O L T P 应用 它所存储的数据被称为操作数据或者 称为业务数据 随着市场竞争的日趋激烈 近年来企业更加强调决策的及时性和准确性 这使得以支 持决策管理分析为主要目的的应用迅速崛起 这类应用被称为O L A P 它所存储的数据被称 为信息数据 O L A P 的概念最早是由关系数据库之父C o d d E F 于1 9 9 3 年提出的 当时 C o d d 认为联 机事务处理已不能满足终端用户对数据库查询分析的需要 S Q L 对大数据库进行的简单查 询也不能满足用户分析的需求 用户的决策分析需要对关系数据库进行大量计算才能得到 结果 而查询的结果并不能满足决策者提出的需求 因此C o d d 提出了多维数据库和多维分 析的概念 即o IA P 撸1 7 1 O L T P 和O L A P 数据对比情况如表2 1 所示 表2 I O L T P 和o U 小数据对比 T a b 2 1T h ec o 蜘p m l 画o no f O L T Pa n dO L A Pd a t a O L T P 数据O L A P 数据 原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用 事务驱动 面向操作人员 支持日常操作 导出数据 综合性和提炼性数据 历史数据 不可更新 但周期性刷新 一次处理的数据量大 面向分析 分析驱动 面向决策人员 支持管理需要 7 一 闫路 0 L A P 技术在辽宁移动经营分析系统的应用 联机分析处理的用户是企业中的专业分析人员及管理决策人员 他们在分析业务经营 的数据时 从不同的角度以一种很自然的思考模式来审视业务的衡量指标 例如分析移动 用户数据 可能会综合入网时间 套餐类别 放号渠道 用户归属分布等多种因素来考量 这些分析角度虽然可以通过报表来反映 但每一个分析的角度可以生成一张报表 各个分 析角度的不同组合又可以生成不同的报表 使得r r 人员的工作量相当大 而且往往难以跟 上管理决策人员思考的步伐 2 2 2O L A P 的定义和目标 定义1 O L A P 是针对特定问题的联机数据访问和分析 通过对信息 维数据 的多种可 能的观察形式进行快速 稳定一致和交互性的存取 允许管理决策人员对数据进行深入观 察 定义2 O L A P 委员会的定义 O L A P 是使分析人员 管理人员或执行人员能够从多种 角度对从原始数据中转化出来的 能够真正为用户所理解的 并真实反映企业维特性的信 息进行快速 一致 交互地存取 从而获得对数据的更深入了解的 类软件技术 O L A P 的目标是满足决策支持或多维环境特定的查询和报表需求 它的技术核心是 垂昆 这个概念 因此O L A P 也可以说是多维数据分析工具的集合 2 2 3o U 心的多维数据概念 多维结构是决策支持的支柱 也是O L A P 的核心 O L A P 展现在用户面前的是一幅幅 多维视图 1 维 中国移动是通信运营商 有一些因素会影响他的业务发展 如业务种类 时间 营业 厅性质或代销渠道等 更具体一点 如套餐类型 月份 用户归属地区等 对某一给定的 业务 如开户业务 管理者也许他想知道哪个营业厅或哪个代销点在哪段时间的放号情况 对某 营业厅或代销点 也许他想知道哪个套餐品牌在哪段时间的放号情况 在某一时间 也许他想知道哪个营业厅或代销点哪种套餐品牌的放号情况 因此 他需要决策支持来帮 助制定营销政策 这里 营业厅 代销点 时间和套餐品牌都是维 各个渠道的集合是一维 时间的集 合是一维 套餐品牌的集合是一维 维就是相同类数据的集合 也可以理解为变量 而每 个渠道 每段时间 每种业务套餐品牌都是某一维的一个成员 每个号码开户由一个特定 的渠道商店 特定的时间和特定的套餐品牌组成 大连理工大学专业学位硕士学位论文 维有自己固有的属性 如层次结构 对数据进行聚合分析时要用到 排序淀义变量时 要用到 计算逻辑 是基于矩阵的算法 可有效地指定规则 这些属性对进行决策支持是 非常有用的 2 多维性 人们很容易理解一个二维表 如通常的电子表格 对于三维立方体同样也容易理解 O L A P 通常将三维立方体的数据进行切片 显示三维的某一平面 如一个立方体有时问维 套餐品牌维 收入维 其图形很容易在屏幕上显示出来并进行切片 但是要加一维 如加入 渠道维 则图形很难想象 也不容易在屏幕上画出来 要突破三维的障碍 就必须理解逻 辑维和物理维的差异 O L A P 的多维分析视图就是冲破了物理的三维概念 采用了旋转 嵌 套 切片 钻取和高维可视化技术 在屏幕上展示多维视图的结构 使用户能直观地理解 对数据进行分析 及提供决策支持 2 2 4 0 L A P 特性 1 快速性 用户对O L A P 的快速反应能力有很高的要求 系统应能在5 秒钟内对用户的大部分分 析要求做出反应 如果终端用户在3 0 秒钟内没有得到系统响应就会变得不耐烦 因而可能 失去分析主线索 影响分析质量 对于大量的数据分析要达到这个速度并不容易 因此就 更需要 些技术上的支持 如专门的数据存储格式 大量的事先运算 特别的硬件设计等 2 可分析性 O L A P 系统能处理与应用有关的任何逻辑分析和统计分析 尽管系统需要事先编程 但 并不意味着系统已定义好了所有的应用 用户无需编程就可以定义新的专门计算 将其作 为分析的一部分 并以用户理想的方式给出报告 用户可以在O L A P 平台上进行数据分析 也可以连接到其他外部分析工具上 如时间序列分析工具 成本分配工具 意外报警 数 据开采等 3 多维性 多维性是O L A P 的关键属性 系统能够提供对数据分析的多维视图及分析 包括对层 次维和多重层次维的完全支持 事实上 多维分析是分析企业数据最有效的方法 是O L A P 的灵魂 维指的是用户的分析角度 例如移动用户数据 入网时间是一个维度 套餐类别 放号渠道 用户归属也分别是一个维度 一旦多维数据模型建立完成 用户可以快速地从 各个分析角度获取数据 也能动态的在各个角度之间切换或者进行多角度综合分析 因此 具有极大的分析灵活性 这也是联机分析处理在近年来被广泛关注的根本原因 它从设计 理念和真正实现上都与旧有的管理信息系统有着本质的区别 闰路 o L A P 技术在辽宁移动经营分析系统的应用 4 信息性 不论数据量有多大 也不管数据存储在何处 O L A P 系统能及时获得信息 并且能够管 理大容量信息 这里有许多因素需要考虑 如数据的可复制性 可利用的磁盘空间 O L A P 产品的性能及与数据仓库的结合度等 2 2 50 L A P 的多维数据结构 数据在多维空间中的分布总是稀疏的 不均匀的 在事件发生的位置 数据聚合在一 起 其密度很大 因此 O L A P 系统的开发者要设法解决多维数据空间的数据稀疏和数据聚 合问题 事实上 有许多方法可以构造多维数据 1 超立方结构 超立方结构饵y p e r c u b e 指用三维或更多的维数来描述一个对象 每个维彼此垂直 数 据的测量值发生在维的交叉点上 数据空间的各个部分都有相同的维属性 这种结构可应用在多维数据库和面向关系数据库的O L A P 系统中 其主要特点是简化 终端用户的操作 超立方结构有一种变形 即收缩超立方结构 这种结构的数据密度更大 数据的维数 更少 并可加入额外的分析维 2 多立方结构 在多立方结构 M u l t i c u b e 中 将大的数据结构分成多个多维结构 这些多维结构是大数 据维数的子集 面向某 特定应用对维进行分割 即将超立方结构变为子立方结构 它具 有很强的灵活性 提高了数据 特别是稀疏数据 的分析效率 一般来说 多立方结构灵活性较大 但超立方结构更易于理解 终端用户更容易接近 超立方结构 它可以提供高水平的报告和多维视图 但具有多维分析经验的M I s 专家更喜 欢多立方结构 因为它具有良好的视图翻转性和灵活性 多立方结构是存储稀疏矩阵的一 个更有效方法 并能减少计算量 因此 复杂的系统及预先建立的通用应用倾向于使用多 立方结构 以使数据结构能够更好地得到调整 满足常用的应用需求 许多产品结合了上述两种结构 它们的数据物理结构是多立方结构 但却利用超立方 结构来进行计算 结合了超立方结构的简化性和多立方结构的旋转存储特性伫g 铡 2 2 60 匕诤的分类 O L A P 分为多维O L A P 关系O L A P 和混合O L A P 三种 1 多维O L A P M u l t i d i m e n s i o n a lO n L i n eA n a l y t i c a lP r o c e s s i n g M O L A P 数据以多维方式存储 每一个数据单元 c e u 都可以通过维度的定位直接访问 实际数 据的稀疏分布以及预计算是导致M O L A P 空间急剧膨胀的主要因素 大连理工大学专业学位硕士学位论文 优势 性能好 响应速度快 专为O L A P 所设计 支持高性能的决策支持计算 缺点 增加系统复杂度 增加系统培训与维护费用 需要进行预计算 可能导致数据 急剧膨胀 支持维的动态变化比较困难 2 关系O L A Pa R e l a t i o n a lO n L i n e 虹a l y t i c a lP r o c e s s i n g R O L n P 数据存放于关系型数据库中 用户的多维查询请求由R O L A P 引擎处理为S Q L 查询 结果以多维方式呈现 R O L A P 中的数据以星型模式 S t a rS c h e m a 或雪花型模式 S n o w S c h e m a 存储 优势 没有大小限制 因为S t a rS c h e m a 本身不需要额外的存储空间 现有的关系数 据库的技术可以沿用 可以通过S Q L 实现详细数据与概要数据的存储 现有关系型数据库 已经对O L A P 做了很多优化 包括并行存储 并行查询 并行数据管理 基于成本的查询 优化 位图索引 S Q L 的O L A P 扩展 c u b e r o U u p 等大大提高R O A L P 的速度 缺点 比M O L A P 响应速度相差极远 不支持有关预计算的读写操作 S Q L 无法完成 部分计算 3 混合O L A P H y b d d o n l n ea n a 如明Ip r o c e s s i n g H O L A P 图2 4M O L A P 的逻辑存储模型 瑰 2 4 l 删m 唧m o l o f M O L A P 为M O L A P 与R O L A P 的结合形式 兼具M O L A P 的查询效率高和R O L A P 的存储效率 高的优点 M O L A P 的逻辑存储模型如图2 4 所示 以多维立方体和预计算来存储 实际数据的稀 疏分布以及预计算是导致l V O L A P 空间急剧膨胀的主要因素 闫路 0 L A P 技术在辽宁移动经营分析系统的应用 R O L A P 数据以星型模式或雪花型模式存储 事实表用来存储事实的度量值和各个维的 码值 维表用来存放维的源数据 维的层次 成员类别等描述信息 2 2 7O L A P 的多维数据分析方法 O L A P 采用如下三种基本分析手段 切片和切t A S l i c ea n dD i c e 在确定某些维数据的确定情况下对其他维进行观察 在多 维数据结构中 按二维进行切片 按三维进行切块 可得到所需要的数据 如在 城市 时间 漫游 三维立方体中进行切块和切片 可得到各城市 各漫游类型的费用情况眇4 1 钻取 D r i l l 在一个维内沿着从高到低或者从低到高的方向考察数据 钻取包含向下钻 取 D 晡u d o w n 和向上钻取叫u 1 上卷 R o l l u p 操作 钻取的深度与维所划分的层次相对 应 例如 考察一个特定的时间维 包括每一个地区漫游业务量 钻取到下面的层次来考 察详细情况 通过旋转 R o t m 转轴 P i v o t 可以得到不同视角的数据 可以按不同的顺序组 织维 对结果进行考察 穿透 是指从多维数据库向关系型数据库读取明细数据 2 2 8O L A P 与数据挖掘 O L A F 和数据挖掘是完全不同的工具 基于的技术也大相径庭 O L A P 是决策支持领域 的 部分 传统的查询和报表工具是展示数据库中都有什么 W h a th a p 删 O L A P 则更 进 步说明下一步会怎么样 W h a tn e x t 和如果采取这样的措施又会怎么样 W h a ti f 用户首 先建立一个假设 然后用O L A P 检索数据库来验证这个假设是否正确 比如 一个分析师 想找到什么原因导致了贷款拖欠 他可能先做一个初始的假定 认为低收入的人信用度也 低 然后用O I A P 来验证他这个假设 如果这个假设没有被证实 他可能去察看那些高负 债的账户 如果还不能证实 则需要把收入和负债一起考虑 一直进行下去 直到找到他 想要的结果或放弃 由此可见 O L A P 分析师是建立在一系列的假设上 然后通过O L A P 来证实或推翻这 些假设 以达到最终得到自己结论的目的 O L A P 分析过程在本质上是 个演绎推理的过程 但是如果分析的变量达到几十或上百个 那么再用O L A P 手动分析验证这些假设将是一件 非常困难的事情 数据挖掘与O L A P 不同的地方是 数据挖掘不是用于验证某个假定的模式 模型 的正确 性 而是在数据库中自己寻找模型 其在本质上是一个归纳的过程 比如 一个用数据挖 掘工具的分析师想找到引起贷款拖欠的风险因素 数据挖掘工具可能帮他找到高负债和低 收入是引起这个问题的因素 甚至还可能发现一些分析师从来没有想过或试过的其他因素 比如年龄 大连理工大学专业学位硕士学位论文 O L A P 和数据挖掘具有一定的互补性 在利用数据挖掘出来的结论采取行动之前 也许 要验证一下如果采取这样的行动会给公司带来什么样的影响 那么O L A PT 具能回答的这 些问题 可以帮助探索数据 找到哪些是对一个问题比较重要的变量 发现异常数据和互 相影响的变量 这都能够帮助更好的理解数据 加快知识发现的过程降蜘 2 3 数据仓库 2 3 1 数据仓库的产生 整个8 0 年代直到9 0 年代初 联机事务处理一直是数据库应用的主流 然而 应用在 不断地迸步 当联机事务处理系统应用到一定阶段后 用户便会发现单靠拥有联机事务处 理已经不足以获得市场竞争的优势需求 他们需要对其自身业务的运作以及整个市场相关 行业的情况进行分析 而做出有利的决策 这种决策需要对大量的业务数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论