




已阅读5页,还剩57页未读, 继续免费阅读
(企业管理专业论文)商业智能在移动通信业的应用与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士研究生学位论文 摘要 摘要 b i 技术作为一项数据管理领域的新技术,弥补了原有的数据展现的缺点, 将原来的以单一数据展现的报表方式发展为数据展现多样化、综合的,面向分析 的环境。它利用先进的技术构建数据仓库或集市,为各层次用户服务,使他们可 以随心所欲、方便快捷地根据自己的需求进行数据的各种分析。支持企业决策分 析,给企业带来了全新的管理思想以及难以预计的工作效率与经济效益,它为企 业提供的不仅仅是产品、功能,更重要的是向企业交付了一套解决问题的方案, 即真正意义上的管理思想 本文讲述了商业智能b i 的技术基础,包括数据仓库、数据集市、数据挖掘、 联机分析处理等,重点介绍了b i 在移动通信中的应用与实现过程。 关键词:商业智能,数据仓库,联机分析处理,数据挖掘,e t l ! ! 室堡皇查兰堡主里塞圭兰竺丝苎! ! 墨 a b s t r a c t a san e wt e c h n o l o g yo fb u s i n e s si n t e l l i g e n c ei nd a t am a n a g e m e n t f i e l d ,t h et e c h n i q u eh a v er e m e d i e dt h es h o r t c o m i n go fo r i g i n a ld a t a b a s e a n dh a v ed e v e l o p e dt h eo r i g i n a ld a t ae n v i r o n m e n tw h i c h i sw i t hu n i t a r y d a t a b a s ea sc e n t e rd e v e l o p si n t od i v e r s i f i e d ,c o m p r e h e n s i v ea c c o r d i n g a n df a c i n gt h ee n v i r o n m e n to fa n a l y s i s b ib a s e do nt h ed a t aw a r e h o u s e o rt h ed a t am a r ts e r v e r sf o ra l lg r a d e si nt h ee n t e r p r i s e i te n a b l e st h e u s e rt od ow h a tt h e yw a n t a tt h es a m et i m e ,i tp r o v i d e sap o w e r f u l m e a s u r et os u p p o r tt h ed a t aa n a l y z i n g i tg i v e st h ee n t e r p r i s et h en e w i d e ao fm a n a g e m e n ta n dl e a d st ou n c o u n t a b l eb e n e f i t n o to n l yt h e t e c h n o l o g yd o e si tg i v et ot h ee n t e r p r i s e ,b u t a l s ot h ei d e a w ea l lb e l i e v e t h a ti tc a l lm a k et h ec o m p a n ys u c c e s s f u li nt h ef u t u r e i nt h i sp a p e r , y o uc a l lg e tt ok n o wt h eb a s i st e c h n o l o g yo fb i , i n c l u d i n gd a t aw a r e h o u s e ,d a t am a r t ,d a t am i n i n g a n do l a pe t c t h e a p p l i c a t i o na n di m p l e m e n t a t i o n i nm o b u ec o m m u n i c a t i o nf i e l di s r e c o m m e n d e di nd e t a i l k e yw o r d s :b i ,d w ,o l a p ,d m ,e t l 北京邮电大学硕士研究生学位论文 缩略语列表 缩写英文描述中文描述 b ib u s i n e s si n t e l l i g e n c e 商业智能 d wd a t aw a r e h o u s e 数据仓库 d md a t am i n i n g 数据挖掘 e t l e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d i n g抽取、转换和加载 ( 是数据获取过程) o l a po n l i n ea n a l y s i sp r o c e s s 在线分析处理 b o s s b u s i n e s s & o p e r a t i o ns u p p o r ts y s t e m 业务运营支撑系统 d s m pd a t as e r v i c em a n a g m e n tp l a t f o r m 数据业务管理平台 k p i k e yp e r f o r m a n c ei n d i c a t o r关键绩效指标 i m e ii n t e r n a t i o n a lm o b i l e e q u i p m e n t国际移动设备身分码 i d e n t i t y 独创性说明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机 构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 毒。冬托 日期: 壹咀: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学 校可以公布学位论文的全部或部分内容,可以允许采用影印,缩印或其它复制手段 保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文 注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 也聚径j 日期: 皇2 z :墨 导师签名:_ = ;誓准日期:号击- 1 卜 北京邮电大学硕士研究生学位论文第一章概述 第一章概述 1 1 商业智能b i 的基本概念 商业智能不是一个新名词。多年来,企业一直在寻找对商业智能的理解和实 现的方式,以增强企业的竞争力早在8 0 年代,当时。商业智能”的标准是能 容易地获得想要的数据和信息。9 0 年代是商业智能真正起步的阶段。到目前为 止。关于b i 还没有统一的定义,不同的人只是从不同的方面表达了对b i 的理解。 早在9 0 年代初,g a r t e rg r o u p 的h o w a r do r e s n e r 把e u o r ( 终端查询和报表) 、 d s s ,o l a f 称为商业智能。企业使用这些工具使企业获得的优势也被称为商业智 能后来,出现了数据仓库、数据集市技术,以及与之相关的e t l ( 抽取,转换, 上载) 、数据清洗、数据挖掘、商业建模等,人们也将这些技术统归为商业智能 的领域目前,存在将商业智能与数据仓库和基于数据仓库的分析方法等同起来 的认识趋势。 其实,商业智能代表为提高企业运营性能而采用的一系列方法、技术和软件 的总和商业智能,是帮助企业提高决策能力和运营能力的概念、方法、过程以 及软件的集合。对该定义的正确解释,从四个层面展开: 信息系统层面:称为商业智能系统( b is y s t e m ) 的物理基础。表现为具有 强大决策分析功能的单独的软件工具和面向特定应用领域的信息系统平台,如s 例、c 脚、e r p 。与事务型的m i s 不同,商业智能系统能提供分析、趋势预测等决 策分析功能 数据分析层面:是一系列算法、工具或模型首先获取与所关心主题有关的 高质量的数据或信息,然后自动或人工参与使用具有分析功能的算法、工具或模 型,帮助人们分析信息、得出结论、形成假设、验证假设 知识发现层面:与数据分析层面一样,是一系列算法、工具或模型。将数据 转变成信息。而后通过发现,将信息转变成知识;或者直接将信息转变成知识 北京邮电大学硕士研究生学位论文第一章概述 战略层面:将信息或知识应用在提高决策能力和运营能力上:企业建模等。 商业智能的战略层面是利用多个数据源的信息以及应用经验和假设来提高企业 决策能力的一组概念、方法和过程的集合。它通过对数据的获取、管理和分析, 为贯穿企业组织的各种人员提供信息,以提高企业战略决策和战术决策能力。 总之,商业智能的目标是将企业所掌握的信息转换成竞争优势,提高企业决 策能力、决策效率、决策准确性。为完成这一目标,商业智能必须具有实现数据 分析到知识发现的算法、模型和过程,决策的主题具有广泛的普遍性。这个特点 是本文定义商业智能时应特别强调的。 基于以上定义的商业智能应具有以下功能: 数据管理功能:从多个数据源e t l ( 抽取、转换、转贮) 数据、清洗数据、 数据集成能力;大量数据高效存储与维护能力。 数据分析功能:具备o l a p ,l e g a c y 等多种数据分析功能;终端信息查询和 报表生成能力;数据可视化能力。 知识发现功能:从大型数据库中的数据中提取人们感兴趣的知识的能力。这 些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念( c o n c e p t s ) ,规则( r u l e s ) ,规律( r e g u l a t i o n s ) ,模式( p a t t e r n s ) 等形式 企业优化功能:辅助企业建模的能力 1 2 商业智能b i 产生的背景 随着全球性竞争的加剧,越来越多的企业认识到正确及时的决策是企业生存 和发展的关键所在 但是面对着1 8 个月就翻一番的庞大信息量,怎样才能把大量的数据转换成 可靠的、有用的信息以帮助企业增加利润和市场份额,这已成为企业界和i t 界 关注的问题。传统的数据库系统和决策支持系统都无法满足对海量数据的即席查 北京邮电大学硕士研究生学位论文 第一章概述 询分析的要求,由此,综合了数据仓库、数据挖掘和联机分析处理的商业智能技 术应运而生 首先,随着经济的发展,经济的全球化进程,企业的规模不断扩大,同时, 互联网正在引起一场变革,电子商务正在改变着全球商务活动的方式。这些都导 致全球竞争的加剧。面对着日益激烈的竞争,越来越多的企业认识到及时正确的 决策是企业生存和发展的关键所在。但是,如何提高企业的分析决策能力,提高 市场响应速度,这是摆在每个企业面前的一个急待解决的问题。 其次。我们所处信息时代一个突出的特点是数据爆炸。信息技术的发展使企 业获取信息的手段和渠道也在不断增加,企业所面对的信息浩如烟海,e r p ,c r m 、销售p o s 终端、市场调查、供应商、客户、w e b 、政府等都在不断地往我们的 桌面添加信息。实际上,平均1 8 个月信息量就翻一番,但是我们能分析的数据 究竟有多少呢? 有些项目专家估计只有7 ,并且我们能分析的数据来源仅限于 数据库。那么怎样才能把大量的数据转换成可靠的、有用的信息以增加利润和市 场份额,这己成为i t 界关注的问题。 第三,随着信息化的不断推进,很多企业已经实现了其业务系统的计算机处 理。这些业务系统的运行积累了大量的历史数据,但各系统的建立主要针对不同 的业务目标。系统间相对独立具有各自的体系结构,数据格式不统一,不利于 信息的集中共享及分析。如何有效地利用业务系统积累的大量的历史数据提炼出 面向分析的、有利于决策支持的信息,以把握业务发展的趋势,发掘隐藏在业务 数据中的一些深层次的内在规律,对业务发展进行分析及预测,获得竞争优势, 是当前企业信息化面临的极大挑战 第四,传统的管理信息系统系统和决策支持系统无法满足对海量数据的即席 查询分析的要求 m i s 系统是针对分离的事务处理设计的,不便于进行多层次的分析和统计, 输出格式比较固定,不够灵活、交互能力差,不能为管理人员提供个性化的分析 服务;d s s 系统使用的数据库只能对原始数据进行一般的加工和汇总,致使决策 所需信息不足,而且模型库提供的分析能力有限,人机接口开发困难,开发周期 - 3 北京邮电大学硕士研究生学位论文 第一章概述 长,无法满足对业务变化的快速反应,业务人员无法直接使用,而i t 人员与业 务人员之间又很难默契。 最后,经过几十年的发展,相关计算机技术已经成熟。如硬件上的大容量存 储技术、并行处理器技术,软件上的数据库技术、数据仓库技术、人工智能技术、 新的数据挖掘算法、神经网络技术等等,使企业能以更低的成本投资,取得更高 的i t 投资回报率。此外,互联网技术的发展使得企业内部以及各个企业之间的 数据访问和共享成为可能。 电信业商业智能解决方案具有以下特点: 复杂数据的整合与统一计算机处理系统在电信行业的应用极为广泛,但由 于各业务系统在电信企业内部长期处于相对独立的运作模式,数据分散在各业务 系统之中,不能很好地进行集成分析作为企业的经营分析系统,必须是一个统 一的、综合各类数据信息的大型数据仓库平台,才能形成全面的、一致的企业信 息视图 另一方面,电信企业各业务系统的数据流程及其关系越来越复杂,这也导致 了复杂、多样的数据分析需要因此,经营分析系统必须以完善的、具有良好逻 辑关系和可扩展的、专业的电信行业数据模型设计为基础,并拥有一支经验丰富 的实施队伍,才能保证经营分析系统的成功实施。同时系统的分析应用功能还需 要不断的更新和优化,以满足企业经营的需要。 庞大的数据需要高效的处理平台对于电信企业来说,需要保存每个客户的通 话详单、账单等详细记录,因此其数据量往往比其他行业大很多。面对海量的数 据,要建设集成的、完善的商业智能系统,并要在变化的、竞争激烈的市场环境 下满足复杂的综合分析需求,这对商业智能的基础数据平台来说是极大的挑战。 因此电信企业的经营分析系统不能是一个简易的数据库应用系统,而应该是 一个能够存储庞大数据信息并有能力对大数据量进行复杂、高效分析的高端数据 仓库应用系统在系统的性能和容量方面应当具备良好的可扩展能力,同时具备 很高的系统可用性 北京邮电大学硕士研究生学位论文 第一章概述 过去十年里,为了提供对商务和运营的支持,电信服务提供商们花费了大量 的精力和财力安装运营管理和商务流程自动化的系统。但是,他们面临的复杂问 题往往超过他们安装的任何系统。举个例子,现在他们知道谁是他们的用户,谁 对新的服务会感兴趣。但是,如果他们要回答谁是给他们带来利润的用户,用户 使用的哪些服务带来主要利润以及哪些市场应该被主要关注等类似问题,他们就 发现自己不得不从很多复杂系统中收集数据,处理繁重复杂的各种图表。这样的 工作耗时并且结果延时。如果中间一些因素有些变化,就会使他们有力所不及的 感觉,完全没有预测能力和对变化市场情况的及时反应。所以分析必须更加细化, 使他们可以正确认识带来主要利润的用户和服务。因为商务流程要通过很多部 门,所以他们面临的绝大多数问题会来自很多不同的系统。 同样的问题也存在于很多其它范围内,例如网络付款,网络运营和管理,启 动和推广新服务,评估不同产品收益率,服务价格计划等。绝大多数运营商的系 统只是为了统计而建,不能提供跨越整个流程和职能部门的足够信息来支持使用 者在信息基础上清晰决策。 通过什么方案可以帮助运营商们跨越这些烦恼呢? 商业智能可以连接杂乱 的系统钻取数据,使使用者和决策者可以信息化决策。一般来说运营商的i t 部门负责将不同数据源的数据转化成大的数据仓库或小的数据集市。而商务使用 者则可以用分析性软件和报表工具来查询数据库并生成常规的计划报表。解决方 案中的用户界面十分友好,使用者也可以轻松创建个性化报表和根据商务情况制 定特殊查询。 对运营商来说,细分用户市场比过去更为重要不是所有服务都适合所有的 用户,举办定位不准反映平平的活动将会得不偿失那样不仅给本来已经不堪重 负的呼叫中心雪上加霜,还会导致用户不满或者多次重复对增值服务没有兴趣用 户的打扰。现在使用商务智能工具的运营商则可以对他们的用户市场有更好的理 解。谁是大客户,如何区分对待? 这种策略已经在其它行业,比如航空和信用卡, 使用了多年。理解整合服务的影响,理解使用率不同用户购买服务带来的不同连 锁效应,理解即将举办的市场活动的未来效应并采取正确的方法。没有商务智能 工具。运营商只能在三四个月后才知道市场活动的效果七月的产品促销,八月 北京邮电大学硕士研究生学位论文第一章概述 有用户,九月才能在收入表上体现出来。这样3 0 到6 0 天的延迟使产品经理完全 丧失了在市场活动中采取正确行动的能力。如果有了商务智能工具,产品经理可 以每天都看到用户开通和使用情况,而不是得等到3 月后的收入纪录。这可以使 他们及时调整策略和产品,如果活动没有达到他们的预期。 市场竞争中没有捷径。对运营商来说,利用他们自己丰富的数据,确实可行 地分析运营和财务指标是势在必行的。为了达到想要的利润增长,他们将不得不 实行对服务成本,用户收益率和产品利润等的细化分析,这样才能生存和发展。 1 3 商业智能b i 的现状及三大瓶颈 近几年,国内b i 系统一直保持较快的发展速度,根据计世资讯( c c wr e s e a r c h ) 相关数据显示,2 0 0 4 年国内b i 的销售额为4 2 亿,2 0 0 5 年则达到6 1 亿,增长率为4 5 ,预计2 0 0 6 年国内b i 市场将继续保持较快发展速度,销售额 将达到8 6 亿。c c i d 甚至预计到2 0 11 年整体市场规模将有望超过4 5 亿元人民 币 随着近年来信息化建设的不断完善,从全球范围来看,商业智能( b i ) 系统已 经成为继企业资源计划( e r p ) 之后最重要的信息系统。在中国,商业智能也已经 被越来越多的企业管理者所认识,而在电信、金融、零售,流通等行业,商业智 能已经成为信息化建设的重点。 随着中国商业智能市场逐步走向成熟,用户日趋理性,传统行业中精通b i 技术的人越来越多,因此b i 发展更加务实。根据c h i n a b i 掌握的需求情况,各 行业的b i 发展水平参差不齐 北京邮电大学硕士研究生学位论文 第一章概述 图i - i2 0 0 6 年中田町市场各行业所占比例 目前金融、保险领域的国有企业,大部分已经建立了部门级的数据集市,以 及简单的前端展示系统今后,这些企业中企业级的b i 系统将会逐步建立。在 中小型企业,业务发展比较迅速,数据基础比较薄弱,大部分企业尚未建设b i 系统。有些发达省份的企业,已经初步建立b i 系统,或者正在考虑建设b i 系统。 电信行业8 i 系统建设,前凡年大潮过后陷入低谷。由于屯信公司更关注3 g 和国家政策的影响。商业智能系统建设陷于停顿。c h i n a b i 预计,随着国家政策 的成熟,企业业务的稳定,电信业b i 建设最近将会有起色。 最近在能源,电力行业中b i 项目较多、投入资金大由于业务系统比较复 杂,既有自己开发的系统,也有传统供应商的e r p 软件等,因此这些行业中的 b i 系统。与e r p 等业务系统绐合更紧密,建设需要依狡e r p 供应商,建设过程 比较复杂今后能源、电力行业的b i 发展仍然比较迅速 制造、零售行业的信息化水平参差不齐,有些公司的业务系统非成熟,数据 基础比较好。具有实施b i 项目的条件和实力有些公司的基础条件薄弱,无法 大范围应用8 i 系统。但是这些领域大部分业务系统是e l l p 软件,b i 项目要求能 与e r p 紧密结合很多传统的e r p 厂商没有实施b i 项目的能力,而掌握新技术 的b i 厂商离开e r p 厂商的技术支持则会困难重重。因此这些公司要想成功实施 b i 项目,仍然需要各方面的基础准备预计2 0 0 7 年。传统软件厂商b i 技术力 北京邮电大学硕士研究生学位论文第一章概述 量的提成,新兴b i 公司的项目积累,将会引导制造业逐渐开展b i 项目。制造业 将成为b i 领域新的增长点。分析型的电子政务也越来越流行,但是政府部门的 b i 建设,立项过程比较长,更多受到行政命令的影响,建设高峰时刻尚未到来。 随着b i 系统在国内市场的不断普及,制约b i 系统在中国市场快速发展的三 大瓶颈逐渐显露出来。 首先、国内用户对b i 的理解存在较大差别,基础数据没有引起重视。部分 企业用户认为b i 系统只是提供一些更加详细的财务报表,缺乏b i 系统在司业务 发展所起到的辅助决策所起到的作用。而另一部分客户认为,b i 系统非常高深 莫测,它的应用也将非常复杂,不但不能给企业的决策提供辅助支持,相反会给 企业高层的决策者增加障碍;还有少数企业高层管理者认为,使用b i 系统将会 影响高层管理者的地位。 其次,国内企业信息化基础薄弱,水平普遍偏低也是制约中国b i 系统发展 的主要原因。 计世资讯( c 凹r e s e a r c h ) 的调研结果表明,我国企业的信息化水平普遍偏 低,目前仍处于初级阶段,其中,在大型企业中信息化水平处于业务整合的比例 为1 7 ,达到成熟阶段水平的比例仅为1 ,而在中小企业中,业务整合、系统整 合和成熟阶段三个阶段之和占总体信息化水平的比例不足l 。b i 系统是企业信 息化进入成熟阶段后的企业的应用需求,因此如果不能快速提高国内信息化水 平,未来几年b i 系统在国内市场的将很难得到快速发展。 而制约中国b i 系统发展的第三个瓶颈就是行业应用范围狭窄目前国内应 用b i 产品的行业主要集中在电信、金融领域,而零售、能源、流通、制造行业 中部分企业也在应用或者是将要使用b i 系统,但总体来看,行业应用范围还比 较狭窄。狭窄的行业市场空问也极大的制约了b i 系统的快速发展。 以上问题的存在形成了制约中国b i 系统发展的三个主要瓶颈问题。如果不 能有效的解决以上的市场瓶颈,那么b i 系统就很难在中国得到快速的发展。当 前所存在的问题: 北京邮电大学硕士研究生学位论文第一章概述 数据问题。由于经营分析系统的数据来源于计费、营账、客服、网管等多种 业务系统,在各种源数据的整合过程中经常发现不同系统中的数据不致,同时 源数据的质量问题也比较突出。在经营分析系统建设初期数据质量不高是在所难 免的,这需要在系统建设和使用过程中不断进行修正和补充,从而逐步完善并最 终解决系统的数据质量问题。 业务问题。现阶段,由于用户对经营分析系统的建设目标、规划等还比较模 糊,提出的业务需求和想法比较杂乱,在系统的建设过程中出现了进度拖延、资 源浪费以及系统与企业经营脱节等诸多问题,严重的甚至导致系统建设的失败。 因此,需要有丰富系统实施经验的团队协助企业明确目标,制定合理的业务需求, 进行合理的系统规划,在系统的建设过程中还需要能够及时发现和解决隐患,有 效预测和规避实施风险,引导系统沿着正确的方向发展 使用问题。在经营分析系统应用初期,使用者对于新的数据分析工具、方法 还比较飚生,加之系统建设初期出现的数据和业务阀题,导致使用者对经营分析 系统的信任度不高因此在合理解决系统数据和业务问题的同时,企业也应采取 有效的方式提高经营分析系统的使用率,并通过系统使用者的反馈,促进系统数 据和业务问题的解决 北京椰电大学硕士研究生学位论文 第二章实现商业智能的技术介绍 第二章实现商业智能的技术介绍 旱些年。人们的认识当中建设商业智能的成果就是复杂的报表系统,更进一 步的认知是o l a p 多维分析系统。现在人们越来越重视数据仓库基础建设。在2 0 0 6 年,人们使用的最常见的展现方式,除了复杂报表和o l a p 外,k p i 越来越受 欢迎。在大型集团企业中,高层管理者使用k p i ( 关键绩效指标) 能够非常直观 的了解当前企业的运营状况。c h i n a b i 预计,在未来几年,k p i 将成为b i 系统必 备的前端展示工具。2 0 0 6 年人们对数据挖掘的了解有了进展,数据挖掘越来越 多的出现在i t 媒体上,c h i n a b i 预计2 0 0 7 年数据挖掘会有一定程度的发展,但 是数据挖掘应用的高峰还会推迟一些时候。根据c h i n a b i 调查,2 0 0 6 年在商业 智能项目中采取技术的情况如下图所示 圈2 - 12 0 0 6 年b i 项日中采用各技术的比倒 北京邮电大学硕士研究生学位论文第二章实现商业智能的技术介绍 2 1 数据仓库( d a t a w a r e h o u s e ) 2 1 1 数据仓库的定义和特点 目前广泛应用的数据库系统通常是为某一部门的具体业务服务,它的设计和 实现都是以尽可能满足某一具体业务为目标;同时它也要最优化查询、插入和更 新等事务处理,因此这些数据库也称为事务型或业务型数据库。而数据挖掘是一 种知识发现过程,它通常不局限于一种业务部门,常常要把几个数据库的数据合 起来进行分析。但是不同数据库的数据在表示和格式上常常存在不一致性,这就 大大增加了数据挖掘的成本和困难,因此需要一种将数据集中起来并加以统一的 机制。数据仓库就提供了这样一种的机制 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合。 用来支持管理人员的决策。数据仓库是体系结构设计环境的核心,是决策支持系 统( d s s ) 处理的基础。 数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历 史数据,这些数据在传统的操作型数据库中很难或不能得到数据仓库技术是为 了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术 和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供 决策支持。 z 1 2 数据仓库的组成 一个完整的数据仓库结构一般由6 个基本层次组成,如下图: 北京邮电大学硕士研究生学位论文 第二章实现商业智能的技术介绍 各层次基本功能如下: 圈2 - 2 敦据仓库的系统结构图 1 ) 数据源:为数据仓库提供数据来源。一个数据仓库可以有多个数据源,而 且这些数据源可以有多种不同的数据结构类型,可以是关系数据库如d b 2 、o r a c l e 等,也可以是各种数据文件如e x c e l 、w o r d 、l o t u s 以及h r m l 、x m l 等文件格 式。数据源一般是分布在网络中,通过网络中的数据接口与数据仓库连接。 2 ) 数据后端处理:是数据源与数据仓库间的数据接口层,也叫抽取层。它的 功能是将数据源的数据进行提取、清洗、转换,最终构建成数据仓库所需的数据。 所谓的e t l 就是在这一层 3 ) 数据仓库及其管理:包括数据仓库、数据仓库管理和元数据管理。数据仓 库负责存储分析、决策数据;而数据仓库管理则负责管理数据仓库:元数据管理 负责对元数据进行管理。元数据描述了数据仓库的数据和存储环境,数据仓库设 计运行、维护与使用的基本参数,是整个数据仓库的核心 北京邮电大学硕士研究生学位论文 第二章实现商业智能的技术介绍 4 ) 数据集市;是面向特定应用的决策数据集合,它与数据仓库的关系有点类 似于视图与表的关系。 5 ) 基于数据仓库的应用:包括分析、决策应用,如o l a p 、数据挖掘等。 6 ) 数据展示:将应用结果,特别是分析、决策结果以多种媒体形式表示。目 前市场上有多种数据展示工具,如b r i o 、1 3 0 等。 2 2 数据抽取转换装载( e t l ) 2 z 1e t l 概述 e t l 层位于数据仓库体系结构中的后端处理层。e t l 的过程就是数据流动的 过程,从不同异构数据源流向统一的目标数据。 后端处理是数据源与数据仓库间的数据接口层,有时也被称为抽取层。它将 散布于网络中的不同数据源( 不同平台、不同结构以及不同语法语义) 的数据 构建成数据仓库所需的数据,并根据需要及时更新这些数据 一个完整的后端处理包括以下5 方面; 1 ) 数据提取( d a t ae x t r a c t i o n ) 2 ) 数据清洗( d a t ac l e a n ) 3 ) 数据转换( d a t at r a n s f o r m a t i o n ) 4 ) 数据加载( d a t al o a d i n g ) 5 ) 数据更新( d a t ar e f r e s h ) 这5 方面的关系如下: 北京邮电大学硕士研究生学位论文第二章实现商业智能的技术介绍 啬缸啬 国 图2 - 3e t l 的五个过程 第一次从数据源获取数据时,采用上图中左边的流程,即数据源专数据提取 专数据清洗专数据转换专数据加载专数据仓库,以后只须获取数据源新增或修改 过的数据,采用上图中右边的流程,即数据源专数据提取专数据清洗专数据转换 专数据更新专数据库 所谓的e t l 就是一种后端处理工具,它是e x t r a c t i o nt r a n s f o r m a t i o nl o a d i n g 的缩写,提供了上述五方面的功能。 2 2 2e t l 的五个过程 ( 1 ) 数据抽取( d a t ae x t r a c t i o n ) 根据数据仓库要求收集并提取外界数据源中的数据 ( 2 ) 数据清洗( d a t ac l e a n ) 来自数据源的数据由于源头多、关系复杂因此数据质量参差不齐,数据阃的 标准又不一致,结果造成数据质量普遍不高。 北京邮电大学硬士研究生学位论文第二章实现商业智能的技术介绍 所谓数据清洗是清除进入数据仓库的数据中的脏数据或噪音。脏数据可以包 括错误的、不一致的和没有用的数据,有以下几类: a 单数据源的结构级脏数据:违反数据模式及完整性约束要求的那些数据, 例如不同的订单具有相同的订单号,一个1 9 7 0 年出生的员工年龄为2 2 岁等。 b 单数据源的实例级脏数据:结构级上是正确的,但却是错误或矛盾的数据, 如将c i t y 字段填入。c h i n a ”值: c 多数据源的结构级脏数据:多数据源间常常会出现数据结构不一致,最常 见的是命名的不一致,如相同数据存放的表名字段名不一样,或相同表名字段 名表示不同的意义,又如数据表示形式不一致( 以姓名为例,有的是姓在前,有 的是名在前) 等。 d 多数据源间的实例级脏数据:如重复数据、矛盾数据等。 脏数据的清洗分结构级与实例级两级进行。结构级清洗首先必须建立一个统 一的数据仓库结构要求,而实例级要建立一个数据有效值检验机制和重复值核查 机制。为了实现数据清洗,需要以下4 个步骤: 丸分析脏数据 b 定义清洗转换规则:从结构级到实例级分两级进行 c 评估与验证:对上面定义的规则做出评估,并进行试验。这个步骤可能进 行多次 d 执行转换 ( 3 ) 数据转换( d a t at r a n s f o r m a t i o n ) 数据转换就是将数据源中的数据根据转换规则转换成数据仓库中的数据,分 为两个步骤: 北京邮电大学硕士研究生学位论文第二章实现商业智能的技术介绍 a 形成转换规则:转换规则一般包括以下内容 a ) 数据类型转换:将数据源中不同数据类型转换成数据仓库中的类型。 b ) 数据表示方法转换:将数据源中不同表示方法转换成数据仓库中统一的表 示方法,如命名代码统一、汉字编码统一、度量衡表示的统一以及其它数据表示 方法的统一等。 , c ) 命名转换:将数据模式、表名、属性名转换成数据仓库中的统一命名方式。 d ) 数据综合:按粒度要求对动态属性数据进行统计、汇总形成综合性数据。 e ) 数据筛选:根据数据仓库的分析、决策需要从数据源中作纵向的属性选择 及横向的实例选择 法 b 实施转换:一般使用相应的软件工具或编程方法实现。 ( 4 ) 数据加载( d a t al o a d i n g ) 将上述过程处理后的数据装入到数据仓库中,可由软件工具协助完成。 ( 5 ) 数据更新( d a t ar e f r e s h ) 一般采用增量式更新,增量的判定方法有时标法、d a l t a 文件法、日志文件 2 3 联机分析处理( o l a p ) 联机分析处理( o l p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的,他同时提出了关于o i a p 的1 2 条准则。o l a p 的提出引起t i p 大的反 响,0 l a p 作为一类产品同联机事务处理( 0 l t p ) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理o l t p ( o n l i n et r a n s a c t i o np r o c e s s i n g ) 、联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 。 北京邮电大学硕士研究生学位论文第二章实现商业智能的技术介绍 o l t p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例 如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观易懂的查询结果。下表列出了o l t p 与o l a p 之间的比较。 o l a p 是使分析人员、管理人员或执行人员能够从多角度对信息迸行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。o l a p 的目标 是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是 。维这个概念。 z3 io l a p 基本概念 。维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般 包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的 属性定义为多个维( d i m e n s i o n ) ,使用户能对不同维上的数据进行比较。因此o l a p 也可以说是多维数据分析工具的集合 o l a p 的基本多维分析操作有钻取( r o l lu p 和d r i l ld o w n ) ,切片( s l i c e ) 和切块( d i c e ) 、以及旋转( p i v o t ) 、d r i l la c r o s s 、d r i l lt h r o u g h 等。 钻取是改变维的层次,变换分析的粒度。它包括向上钻取( r o l lu p ) 和向 下钻取( d r i l ld o w n ) 。r o l lu p 是在某一维上将低层次的细节数据概括到高层 次的汇总数据,或者减少维数;而d r i l ld o w n 则相反,它从汇总数据深入到细 节数据进行观察或增加新维。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如 果剩余的维只有两个,则是切片:如果有三个,则是切块 旋转是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 幺3 2 喱 p 分析方法 o l a p 常用的分析方法有以下几种: 北京邮电大学硕士研究生学位论文第二章实现商业智能的技术介绍 上钻和下钻( d r i i l i n g ui ) d r i l l i n g do w n ) 向上钻取和向下钻取可以迅速从一层转移到另一层,以探察业务的不同详细 程度。查看各层信息的关系。下钻取得更详细的类别,上钻可观察上层更综合的 信息。例如查询全省和各地市的业务收人时,可针对某市局下钻到该市局的各县 局,甚至下钻到各乡镇支局。不管是在市局层面还是在县局或乡镇支局层面,都 可以按时问、业务种类等维度展示信息。 切片( s l i c e ) 选择某一维度中的参数,从整体、各横切面或某一横切面观察业务信息。例 如把客户类型作为一个维度,你可选择某一类型的客户如住宅电话查看其月租、 新业务使用等情况,也可列出所有客户类别的情况。 旋转( p i v o t i n g ) 通过插入或移动数据的行或列或其任意组合来从各个角度观察业务信息。可 以通过转换纵向和横向的维度,如当把时间作为横向维度,我们可看到分析对象 的变化趋势,但当把时间作为纵向维度,我们可看到分析对象的对比变化。 z3 3o l a p 实现方法 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、m o l a p 、h 0 l p 。 r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。以关系数据 库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多 维结构划分为两类表:一类是事实表。用来存储数据和维关键字:另一类是维表, 即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和 事实表通过主关键字和外关键字联系在一起,形成了星型模式对于层次复杂 的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述这种星型模 式的扩展称为雪花模式。 北京邮电大学硕士研究生学位论文 第二章实现商业智能的技术介绍 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。以 多维数据组织方式为核心,也就是说。m o l a p 使用多维数组存储数据。多维数据在 存储中将形成立方块( c u b e ) 的结构,在m o l a p 中对”立方块。的。旋转、切 块、切片是产生多维数据报表的主要技术 h o l a p 表示基于混合数据组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系 型的,高层是多维矩阵型的。这种方式具有更好的灵活性 还有其他的一些实现o l a p 的方法,如提供一个专用的s o ls e r v e r ,对某些 存储模式( 如星型、雪片型) 提供对s o l 查询的特殊支持 o l a p 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数 据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考 虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销 售情况这里的时间、地区和产品就是维而这些维的不同组合和所考察的度量 指标构成的多维数组则是o l a p 分析的基础,可形式化表示为( 维1 ,维2 , 维n ,度量指标) ,如( 地区、时问、产品、销售额) 多维分析是指对以多维 形式组织起来的数据采取切片( s l i c e ) 、切块( d i c e ) 、钻取( d r i l l d o w n 和 r o l l - u p ) 、旋转( p i v o t ) 等各种分析动作,以求剖析数据,使用户能从多个角 度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。 根据综合性数据的组织方式的不同,目前常见的o l a p 主要有基于多维数据 库的m o l a p 及基于关系数据库的r o l a p 两种m o l a p 是以多维的方式组织和存储 数据,r o l a p 则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中, o l a p 应用一般是数据仓库应用的前端工具,同时o l a p 工具还可以同数据挖掘工 具、统计分析工具配合使用,增强决策分析功能。 2 4 数据挖掘( i ) a t a m i n i n g ) 数据挖掘( d a t am i n i n g ) ,也叫数据开采,数据采掘等,就是从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人 们事先不知道的,但又是潜在有用的信息和知识的过程 北京邮电大学硕士研究生学位论文第二章实现商业智能的技术介绍 企业里的数据量非常大,而其中真正有价值的信息却很少,因此从大量的数 据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘 金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既 定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的,未知的或验证已 知的规律性,并进一步将其模型化。 在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与 多维分析、统计分析方法相结合,进行联机分析处理( o l a p ) ,从而得出可供决策 参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。 o l a p 的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策 支持的需要而言两者是相辅相成的。o l a p 可以看作一种广义的数据挖掘方法, 它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务 数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、 遗留数据库、异质数据库、文本型、i n t e r n e t 信息库以及新兴的数据仓库( d a t aw a r e h o u s e ) 等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、 分类规贝i j 、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提 升到从数据中挖掘知识,提供决策支持 z4 1 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析o l a p ) 的本质 区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所 得到的信息应具有先前未知,有效和可实用三
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院工作人员转正工作总结
- 夫妻出轨情感修复协议离婚及财产分配方案
- 办公室租赁合同附加办公环境优化及维护协议
- 离婚协议中关于子女抚养费支付及调整协议书
- 针对家暴事件的离婚协议书及子女抚养权分配范本
- 离婚股权分割及婚姻财产分割执行监督细则协议
- 离婚后财产分割、子女抚养费变更及债务承担协议书
- 企业员工劳动合同变更及工作时间及福利待遇协议
- 智能住宅小区物业管理合同终止及升级协议
- 乌鲁木齐商住两用公寓租赁及商业合作协议
- 护理专业全面解析
- 除颤护理课件
- 【化学 云南卷】2025年云南省高考招生统一考试真题化学试卷(含答案)
- 创伤性硬膜下出血查房
- 2025年廉政法规知识试题及答案
- 拔罐适应症研究-洞察及研究
- 2025《政务数据共享条例》法律法规课件
- Q-SY 02045-2024 柔性压裂管汇使用技术规范
- T/CACEM 31.5-2023高速公路经营管理第5部分:服务区服务要求
- 劳动技术-七年级上册-全册教案-湖南教育出版社
- 外贸矿产代理协议书
评论
0/150
提交评论