(计算机应用技术专业论文)基于渠道系统的bi技术研究.pdf_第1页
(计算机应用技术专业论文)基于渠道系统的bi技术研究.pdf_第2页
(计算机应用技术专业论文)基于渠道系统的bi技术研究.pdf_第3页
(计算机应用技术专业论文)基于渠道系统的bi技术研究.pdf_第4页
(计算机应用技术专业论文)基于渠道系统的bi技术研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)基于渠道系统的bi技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文的应用背景是一个渠道营销支撑系统,它包括客户经理工作平台、统一 数据平台和b i ( 业务智能) 等几个部分。 渠道系统是电信企业中最重要的支撑系统之一,具有很强的业务管理功能。 然而渠道系统主要还是一个事务处理系统,它在决策支持方面的功能很弱。b i 是对信息的收集、存储、分析和应用的技术,它主要由数据仓库、o l a p 、和数据 挖掘等技术组成。渠道系统和b i 之间有很强的互补性,在渠道系统之上建立b i 系统具有很大的优越性,也具有很高的实际应用价值。 本文从数据源、系统结构、技术平台、数据仓库构建、基于数据仓库的信息 处理、多维建模及o l a p 应用、数据挖掘等几个方面解决了建立基于渠道系统的 b i 系统的一系列问题,并建立了一个基于渠道系统的b i 系统。该系统已经于2 0 0 5 年1 月初开发完成并交付使用。 本文的重点是关于b i 的系统结构和技术平台的研究以及多维建模技术。本 文的主要特色是: ( 1 ) 在渠道系统的基础之上建立b i 系统 ( 2 ) 设计了一个切实可行的b i 系统结构方案 ( 3 ) 设计并组建了一个完整的b i 技术平台 ( 4 ) 设计并实现了若干个基于渠道系统的o l a p 模型 关键字:渠道系统、b i 、数据仓库、o l a p 、数据挖掘 a b s t r a c t t h eb a c k g r o u n do ft h i sp a p e ri sa nc ss y s t e m ,w h i c hc o n s i s t so fa n c s ( e n t e r p r i s er e s o u r c ep l a n n i n g ) ,a ne - b u s i n e s s ,ac r m ( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ) ,a n i n t e r n a t i o n a lt r a d e ,a no a ( o f f i c e a u t o m a t i o n ) a n dab i ( b u s i n e s si n t e l l i g e n c e ) s y s t e m c si so n eo ft h em o s ti m p o r t a n ti n f o r m a t i o ns y s t e m si nm o d e r n e n t e r p r i s e sa n di t i sv e r yg o o da tb u s i n e s sm a n a g i n g h o w e v e r c si s m a t e r i a l l ya no l t p ( o n l i n et r a n s a c t i o n a lp r o c e s s i n g ) s y s t e m ,w h i c hg i v e s v e r y l i t t l ed e c i s i o n m a k i n gs u p p o r t i n g b ii st h ea p p l i c a t i o n sa n d t e c h n o l o g i e sf o rg a t h e r i n g ,s t o r i n g ,a n a l y z i n g ,a n dp r o v i d i n ga c c e s st o d a t at oh e l pe n t e r p r i s eu s e r sm a k eb e t t e rb u s i u e s sd e c i s i o n s b ii sm a i n l y c o n s i s t so f t h ed a t aw a r e h o u s i n g ,o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) a n dd a t am i n i n gt e c h n o l o g i e s i ti sv a l u a b l et os t u d yt h et e c h n i q u eo f b u i i d i n gb is y s t e mo nc s 。w h i c hc a nm a k ec sa n db ir e i n f o r c ee a c ho t h e r i nf u n c t i o n t h i sp a p e rs e t t l e das e r i a lo fp r o b l e m si nd e v e l o p i n gb i s y s t e mo nc s ,i n c l u d i n gt h ep r o b l e m si nd a t as o u r c e ,s y s t e ma r c h i t e c t u r e , t e c h n i c a lp l a t f o r m ,b u i l d i n go fd a t aw a r e h o u s e ,d i m e n s i o n a lm o d e l i n g , o l a p ,d a t am i n i n ge t c ,a n db u ii tab is y s t e mb a s eo n a nc ss y s t e m t h e s y s t e mh a sb e e nc o m p l e t e da n dd e l i v e r dt ou s ei ne a r l ym a y2 0 0 3 t h i sp a p e rf o c u s e so nt h es y s t e ma r c h i t e c t u r ea n dt e c h n i c a lp l a t f o r m o fb ia n dt h ed i m e n s i o n a lm o d e l i n gt e c h n i q u e i tm a k e ss o m ec o n t r i b u t i o n s i n c l u d i n g : b u i l db is y s t e mb a s eo nc s d e s i g naf e a s i b l ea r c h i t e c t u r ef o rb i d e s i g na n d b u i l du pa ni n t e g r a t et e c h n i c a lp l a t f o r mf o rb i d o s i g na n di m p l e m e n taf e wo l a pa n a l y s i sm o d e l s k e y w o r d :c s ,b i ,d a t aw a r e h o u s e ,o l a p ,d a t am i n i n g i i 南京邮电学院学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:丑碴刍期:型呲 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:碰导师签名;日期: 翌兰: 南京邮电学院硕士学位论文 第一章引言 第一章引言 1 1 为什么要在渠道系统上建立b i 系统 现代企业的发展离不开信息技术的综合运用。企业的信息系统应该是一个集 成化的系统,它不仅要能够迅速处理日常事务活动,也应该能提供相应的决策支 持功能。 渠道系统是一个融合了多种先进管理思想的信息系统,其核心管理思想就 是对企业的客户营销工作进行管理。渠道系统的基本思想是对电信企业内部客户 经理从营销策划、营销跟踪、营销评估等进行有效的管理。 渠道系统的实施,能够改善电信企业的客户经理服务流程,实现对企业资 源的有效管理,为企业带来巨大的效益,然而渠道系统本身也有很大的局限性。 渠道系统主要是一个面向操作流程的信息系统,从技术角度来说,是一种联机事 务处理( o n l i n et r a n s a c t i o n a lp r o c e s s i n g ,o l t p ) ,它在辅助决策方面有着 很大的缺陷。首先,渠道系统中的查询和报表功能都是由程序开发人员预先定义 好的,决策人员无法根据需要自主的进行查询和报表制作。其次,渠道系统致力 于为管理人员提供一个准确的企业资源的当前状态,如目前有多少收入等,而管 理人员却可能需要根据一些历史数据去发现未来的趋势,这样的要求往往无法得 到满足。 渠道系统的这些局限性可以通过建立一个以数据仓库为中心的b i ( b u s i n e s si n t e lli g e n c e ,业务智能) 系统来克服。b i 是一种能够帮助企业进 行信息集成与分析的技术,它包含了决策过程中所有的信息集成、查询报告、分 析处理以及预测技术。b i 的技术体系主要由数据仓库( d a t aw a r e h o u s e ) 、o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 以及数据挖掘( d a t a m i n i n g ) 三部分组成。数据仓库进行信息集成,为整个决策过程提供一个稳定的数据基础, 南京邮电学院硕士学位论文第一章引言 o l a p 以灵活的方式进行数据展示,而数据挖掘则提供更深层次的预测功能。 在渠道系统的基础上建立b i 系统具有很大的优越性,研究渠道系统基础之 上的b i 技术具有很高的实用价值。首先,渠道系统正在为越来越多的本地网客 户经理所使用,客户经理在使用渠道系统的过程中会不断加深对整个企业业务的 认识,这时就会有更加迫切的决策要求。其次,渠道系统的实施必将在企业中形 成一个庞大的数据集合,这些数据是企业的宝贵资源,在这个基础上进行b i 系 统的建设是将数据转化成信息的最有效手段。再次,渠道系统为b i 指明了方向, 渠道系统数据基础决定了b i 的范围,渠道系统的缺陷就是b i 所要重点发挥作用 的地方。 1 2 目前国内外相关技术及应用情况 1 2 1b l 的相关研究及应用 ( 1 ) b i 相关理论的研究 b i 是近年才被广泛重视的概念,但是b i 相关技术的已经经历了长时间的发 展。数据仓库、o l a p 和数据挖掘是b i 的基本组成部分。数据仓库的概念是在2 0 世纪8 0 年代由b i l li n m o n 提出的,o l a p 技术则以1 9 9 3 年c o d d 提出o l a p 的1 2 条准则为标志,数据挖掘的内容十分广泛,可以追溯到更长的历史。 当前数据仓库领域内还存在着很多争论,其中最突出的就是关于数据仓库系 统结构和建摸方法的争论。以b i l l i n m o n 为代表的研究人员认为,数据仓库的 结构应该是“数据仓库一数据集市”这样一个自顶向下的结构,不建立数据仓库 而直接建立数据集市的方法是一个极坏的主意( v e r yb a di d e a ) 。以r a l p h k i m b a l l 为代表的另外一群研究人员则认为,数据仓库的建设应该从数据集市开 始,建立一个规范化的企业级数据仓库是没有必要的。与数据仓库的系统结构相 对应,数据仓库的建模方法上也存在着采用第三范式还是采用星型模型的争论。 南京邮屯学院硕士学位论文 第一章引言 两种数据仓库系统结构和两种数据仓库的建模方法都有各自的优缺点。在实 践中,采用哪种结构和建模方法是工程技术人员必须面对的首要问题。 ( 2 ) b i 相关产品 与理论相对应的是工具和产品的研究和开发。当前市场上b i 的相关产品纷 纷涌现出来。传统的数据库厂商如o r a c l e 、i b m 、微软、s y b a s e 等纷纷推出了自 己的数据仓库解决方案,而b o 、b r i o 等专业软件公司也在o l a p 市场上占有了一 席之地。 b i 相关产品的一个重要特点是,绝大多数产品只专注于b i 的某一个方面, 或者说,在某一方面做的特别好。例如,i b m 公司的产品在数据仓库和o l a p 服 务器方面都有很强的功能,但是它却没有好的前端展示工具:b o 、b r i o 等公司 的产品在数据展示方面做得很好,却没有数据存储工具。这种情况下,工具和产 品的选择是b i 系统实现者要面对的又一个重大问题。 ( 3 ) b i 系统实现 欧美发达国家在b i 系统的实践方面已有较长的历史,形成了自己的一套理 论和方法。而在我国,b i 相关的应用还出于初步发展阶段,还有很多问题需要 在实践中去发现和解决。 1 3 本文的工作 本文概括介绍了渠道系统和b i 的基本原理,在此基础上设计并实现了一个 基于渠道系统的b i 系统。 本文的重点是关于b i 的系统结构和技术平台的研究以及多维建模技术。本 文的主要特色是: ( 1 ) 在渠道系统的基础之上建立b i 系统 渠道系统和b i 都是当前企业信息化的重要工具,将它们放在一起进行的研 究却比较少,本文的工作就是将这两者有机的结合起来。渠道系统为b i 提供了 3 南京邮电学院硕士学位论文第一章引言 完备的数据源,b i 则弥补了渠道系统在决策分析方面的不足,两者相辅相成, 形成了完整的企业信息化解决方案。 ( 2 ) 设计了一个切实可行的b i 系统结构方案 b i 系统的核心是数据仓库,当前数据仓库在系统结构等方面还存在许多争 论。如何选取合适的系统结构是b i 系统建设者必须面对的首要问题。本文在比 较研究了当前流行的多种数据仓库结构的基础上,提出了一个b i 系统结构,该 结构具有“自顶向下结构”和“总线结构”两种方法的优点。本文利用该系统结 构进行了系统开发,实践证明这种系统结构是切实可行的。 ( 3 ) 设计并组建了一个完整的b i 技术平台 当前的b i 的相关工具有很多,如何选择工具构成一个b i 技术平台是一个重 大的问题。本文在比较研究了市场上的多种b i 产品的基础上,采用已有产品和 自主设计相结合的办法,设计并实现了一个完整的b i 技术平台。该技术平台具 有功能齐全、价格适中、使用方便等多个特点,本文的b i 系统就是在该技术平 台上实现的。 ( 4 ) 设计并实现了若干个基于c s 的o l a p 模型 当前b i 技术的重点是o l a p ,o l a p 分析是基于多维模型的,为此,本文对多 维建模技术进行了较深入的研究。本文在研究了多维建模的基本原理和基本方法 的基础上,针对渠道系统数据源的特点以及企业决策过程的迫切需要,建立了多 个o l a p 模型。这些模型虽然不能含盖渠道系统的所有决策需求,但是它们一方 面满足了渠道系统最迫切的一部分决策需求,一方面也可作为进一步建立更多的 o l a p 模型的重要参考。 本文所讨论的b i 系统已经于2 0 0 5 年1 月初开发完成并交付使用。 j 南京邮电学院硕士学位论文第一章引言 1 4 本文的组织 第一章主要介绍b i 在国内外的相关研究和应用情况,并对本文的主要研究 工作及文章的组织框架做了简单介绍。 第二章简单介绍了渠道系统的基本原理。以及作为本文b i 系统的数据源的 渠道系统的总体情况。 第三章主要介绍b i 的基本原理,概括介绍了数据仓库、o l a p 和数据挖掘等 相关技术。 第四章在介绍了多个流行的数据仓库系统结构的基础上,设计了一个b i 系 统结构。接下来介绍了b i 相关的一些主要工具,并选择一组工具为b i 系统构建 了一个技术平台。 第五章介绍了建立基于渠道系统的数据仓库的方法和过程,并且介绍了在数 据仓库上的进行信息处理的原则和方法,最后根据实际分析需求,建立了几个在 数据仓库上进行信息处理的典型应用。 第六章是本文的重点所在,这一章详细描述了建立o l a p 应用的具体过程, 解决了建立o l a p 应用的常见的一些问题。在此基础上,根据渠道系统的一些迫 切的决策需求,设计并实现了多个o l a p 模型。 第七章简单介绍了数据挖掘的基本方法,并建立了一个渠道系统数据仓库基 础上的数据挖掘应用。 - 5 南京邮电学院硕士学位论文 第二章渠道系统简介 第二章渠道系统简介 2 1 江苏渠道系统的发展历程 i 、试点阶段:2 0 0 3 年4 月启动南京试点,5 月启动苏州试点; 2 、软件开发:2 0 0 3 年6 月完成第一版的渠道营销支撑系统软件开发,在 全省进行推广旋工。 3 、硬件配套设施:2 0 0 3 年8 月中旬所有本地网的服务器设备到位,9 月 底前完成软件系统移植到新设备上。 4 、工程实施:6 月工程全面开始实施,截止7 月3 1 日己完成十个本地网: 南京、苏州、无锡、常州、镇江、南通、扬州、泰州、徐州、盐城。8 月1 5 日 前完成连云港、准安、宿迁三个本地网后,全省推广工程结束。 5 、版本升级:全省本地网开通后,根据系统运行中发现的新问题和各地 反映的新需求,持续进行软件改进升级,以适应渠道营销业务工作发展的需要。 2 2 渠道系统的核心管理思想 做为营销管理系统,虽核心的问题应该是解决好三个方面的问题:收入、 服务和责任。 第一是解决好收入问题,即每个营销人员应该很清楚其管辖范围的客户所 带给中国电信的各类收入情况,并能为营销人员各种提高收入的努力提供支撑, 也就是说:系统支撑的目的是为了营销人员可以在系统的支撑下,进行各种旨在 提高企业收入的营销行为。 第二是可以支撑营销人员为客户提供各种服务,尤其是社区经理渠道制度 的确立,更是要求系统提供营维合一的支撑。因此,营销人员在系统上随时掌握 服务状态( 包括有哪些障碍、哪些投诉等) ,并使营销人员可以在系统的支撑下, - 6 南京邮电学院硕士学位论文第二章渠道系统简介 为用户提供各种类型的服务。 第三是使营销人员的工作可以进行定量的评估和考核,以使营销人员明确 自己的责任,从而更好地调动营销人员的工作积极性,为企业改革管理办法,建 立激励机制奠定良好的基础。 2 3 渠道系统的组成 渠道系统按照功能可以划分为客户经理工作平台、本地网经营分析平台 和统一数据平台。 1 客户经理工作平台:主要是满足客户经理日常的工作需要,是客户经理 进行营销工作的支撑平台。 - 客户资料管理:包括客户认领、客户细分、资料维护等。 - 客户消费行为分析:包括收入、话务量、竞争等。 - 营销活动的执行和评估:包括目标客户锁定、营销过程记录、营销 效果评估。 客户经理绩效考核:指标指定、指标下发、指标计算。 2 本地网经营分析平台:主要是满足本地网各级管理人员的经营分析需 要。 - 数据挖掘和抽取:充分利用本地网的数据优势,进行多种维度的数 据挖掘和抽取。 - 数据分析:k p l 分析、多维分析和固定报表。 - 营销分析:各种对营销活动进行策划、分析的手段。 3 统一数据平台:包括数据收集、数据分类、数据提供。 - 数据收集:完善各个专业系统的数据收集。 - 数据分类:对数据分层次存放,分主题生成,分阶段备份。 - 数据提供:保证与经营分析等系统的数据接口和数据共享。 南京邮电学院硕士学位论文第三章b i 的基本原理 第三章b i 的基本原理 3 1b i 的概念和层次 b i 是通过对信息采集、分析来辅助企业决策过程的技术。应用角度看,b i 能帮助企业对业务数据进行收集、分析和处理,并协助预测业务的发展趋势。从 技术角度来看,b i 是数据仓库、o l a p 和数据挖掘等技术的综合应用。从工具角 度来看,b i 是查询报表工具、数据仓库工具、o l a p 工具、和数据挖掘工具等工 具组成的一个有机整体。 b i 按其所面对的数据和使用的技术可以分为四个层次,它们是:基于数据库 的查询统计、基于数据仓库的信息处理、o l a p 和数据挖掘。 3 1 1 基于数据库的查询统计 现代企业中的绝大多数业务系统都具有的查询、统计和报表功能,这些基于 数据库的查询统计功能是b i 的原始形态。随着企业的发展和技术的进步,这些 基于数据库的查询统计功能在决策支持方面越来约显得力不从心了。一方面决策 支持所需要的大量的查询处理需要占用大量的系统资源,严重影响了业务系统的 正常运行。另一方面,基于局部数据库的查询和统计只能获得部门内部的短期的 数据,无法从整体上把握企业的信息,无法满足企业的长期决策需求,这些就是 高级的b i 技术所要解决的问题。 随着信息化过程的深入,企业中会逐渐建立起数据仓库、o l a p 、数据挖掘等 高级的决策支持应用,这是不是意味着业务系统中的查询统计功能就不再需要了 呢? 完全不是,业务系统中的原始的业务智能是高级b i 的重要补充。首先,业 务系统中的查询统计功能是和业务处理紧密相关的,离开了它,业务处理逻辑本 身可能就会有问题。其次,部门的管理人员在进行日常决策过程中可能会有很多 8 南京邮电学院硕士学位论文第三章b i 的基本原理 局部的信息需求,只需要用到本部门或本系统的数据,如果将这种决策分析放在 数据仓库环境中来做,反而会受到其他数据的干扰。最后,也是最重要的是,数 据仓库中的数据是落后于系统当前状态的,它无法满足一些及时性很高的信息要 求,这就必须通过业务系统中的查询和统计功能来完成。 值得注意的是,基于数据库的查询和处理一般都是集成在业务处理系统中 的,决策支持系统的建设人员一般无法对其进行控制。因此,在大多数情况下人 们都不把基于数据库的查询处理作为决策支持系统的一个部分。本文出于完赘性 考虑,在此一笔带过,下文将不再叙述基于数据库的查询处理技术,但正如前文 所述,这并不意味着基于数据库的查询和处理就不再重要了。 3 1 2 基于数据仓库的信息处理 基于数据仓库的信息处理是指应用关系数据库的相关技术,在数据仓库上进 行的查询和统计分析,并使用交叉表、表、图表等工具进行报告。这种查询和统 计分析直接反映数据仓库中的信息,或通过聚集函数可以计算得到的信息。它不 反映复杂的信息模式也不反跌隐藏在数据库中的规律。广义上说,o l a p 也是基 于数据仓库的信息处理,但是由于o l a p 同其它的基于数据仓库的信息处理具有 很大的不同,一般把它单独列出。 基于数据仓库的信息处理具有很大的优越性。首先,数据仓库中的数据是企 业中的各个部门数据的集成,在数据仓库上进行的查询统计分析可以从整体上把 握整个企业的状况。其次,数据仓库在数据集成的同时也进行了数据转换、清理 等工作,这就使数据仓库中的数据更为准确,有利于获得准确的信息。再次,数 据仓库存放着长期的历史数据,在数据仓库上进行的信息处理能够获得完整的历 史信息。 基于数据仓库的信息处理具有许多优点但它本身也有很大的缺陷。由于数 据仓库中的数据量十分巨大,在数据仓库中的查询和统计是极为耗时的,如果一 9 南京邮电学院硕士学位论文第三章b i 的基本原理 个查询或统计需要一个小时或更多的时间,那将是无法忍受的。以此同时,多次 在数据仓库进行的即兴查询统计很难共享计算结果,造成大量的重复计算,严重 浪费了计算资源。 3 1 3o l a p 分析 o l a p 是一种基于多维数据模型的分析技术,它的功能基本上是用户指挥的汇 总和比较( 通过上钻、下钻、旋转、切片、切块等操作) 。o l a p 已经成为当前数 据仓库的最主要的应用,甚至有相当一部分人认为数据仓库就是用来进行o l a p 分析的。o l a p 之所以取得这样的成功是和它的特点分不开的。o l a p 的最大特点 就是它的响应及时性,o l a p 通过对多维模型的大量的预计算,使得一些很复杂 的查询也可以做到及时响应,从而大大方便了管理人员的决策工作。同时,o l a p 也具有较大的自主性,用户可以自己定义感兴趣的主题,在一个主题下面也可以 自主定义观察的角度,有利于各个领域的专家使用最佳的分析角度来分析问题。 o l a p 优越性已经为人们所公认,但是它本身也有一定的局限性,不能解决决 策支持中的所有问题,还需要其它工具来配合。首先,o l a p 的响应及时性是通 过大量预计算来实现的,本质上并没有减少实际计算量,反而是在事先进行了更 多的计算,同时大量的计算结果也必须被储存起来,占用了大量的系统空间,o l a p 的这个特点必然导致只能在一定的范围内建立o l a p 应用,而无法含盖整个企业 的决策需求。其次,虽然o l a p 分析具有一定的自主性,但本质上来说这个自主 性是有限的,它取决于o l a p 立方体的构造者,决策分析人员一般无法跨越o l a p 立方体这一个相对狭小的数据范围去获得信息。再次,用于o l a p 的o l a p 立方体 存储的数据般来说历史较短,数量也较少,决策范围受到限制。最后,o l a p 侧重于知识的验证,一般不能用来发现埋藏在数据当中的潜在的知识。因此,在 b i 系统中除了o l a p 外,还需要一般的信息处理和数据挖掘等技术的应用。 1 0 南京邮电学院硕士学位论文第三章b i 的基本原理 3 1 4 数据挖掘 数据挖掘是从大量的数据中发现隐含的有用的信息或知识的技术。b i 需要从 数据中发现各种隐含的规律性的信息,作为决策的依据,这就需要进行数据挖掘。 数据挖掘可以在局部的操作型数据库上进行,也可以在数据仓库上进行。由 于数据挖掘一般都是非常复杂耗时的操作,在操作型数据库上进行数据挖掘必然 严重影响日常的事务处理。并且,数据挖掘要求对数据进行严格的筛选与预处理, 操作型数据库也很难提供这样的环境。数据仓库是企业的统一的数据视图,其中 的数据是经过清理和集成的数据,它是数据挖掘的最佳数据源。因此b i 中的数 据挖掘一般只考虑在数据仓库基础上的数据挖掘。 数据挖掘是b i 深层次上的技术,数据挖掘涉及的分析比o l a p 更复杂,更深 入。数据挖掘也是当前研究、开发和应用的最活跃的领域,它含盖了数据库技术、 人工智能、机器学习、神经网络、统计学、模式识别等许多学科。数据挖掘中蕴 涵着巨大的能量,然而数据挖掘技术的应用一般对操作人员要求都比较高,在目 前b i 应用才刚刚起步的情况下,一般只作为一个辅助的数据分析手段。 3 2 数据仓库的基本原理 3 2 1 数据仓库的定义 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合, 用束支持管理人员的决策。它的具体含义如下: ( 1 ) 面向主题的 传统的操作型系统是围绕公司的应用进行组织的。而数据仓库则是围绕一些 主题,如客户,产品和订单等进行组织的。数据仓库关注决策需要的数据建模与 分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对于 决策无用的数据,提供特定主题的简明视图。 南京邮电学院硕士学位论文第三章b i 的基本原理 ( 2 ) 集成的 集成性是数据仓库的最重要特性。一般来说,数据仓库需要对来自多个数据 源的数据进行集成,这样的集成并不是从其它数据源中直接得到数据,而是要经 过数据清理与综合,确保命名约定、编码结构、属性度量等的一致性。 ( 3 ) 非易失的 操作型数据正规地是一次访问和处理一个记录。可以对操作环境中的数据进 行更新。但数据仓库中的数据通常是一起载入与访问的,在数据仓库环境中并不 进行一般意义上的数据更新。 ( 4 ) 随时间变化 数据仓库中的数据随时间变化的特性表现在以下几个方面: i 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。 操作型系统的时间期限一般为6 0 一9 0 天,而数据仓库中数据的时间期限通常是 5 一l o 年。 i i 操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有 效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻 生成的复杂的快照。 i i i 操作型数据的键码结构可能包含也可能不包含时间因素,如年、月、 日等。而数据仓库的键码结构总是包含某时间元素。 3 2 2 为什么需要一个分离的数据仓库 数据处理操作可以大致分为两大类:操作型处理和分析型处理。操作型处理 也叫事务处理,是指对数据库联机的日常操作,所以也叫联机事务处理。这种处 理通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人 们关心的是响应时间,数据的安全性和完整性。分析型处理则用于企业管理人员 的决策分析,为制订企业的未来经营管理计划提供辅助决策信息。分析型处理经 1 2 南京邮电学院硕士学位论文 第三章b i 的基本原理 常要访问大量的历史数据,执行频率也不如操作型处理那么高,因此对响应的及 时性等方面的要求并不大。 直接利用事务处理环境来进行决策分析处理是不合适的,这是因为: ( 1 ) 事务处理环境的数据结构不适合决策分析 事务处理环境的数据库是面向事务处理的,其设计目标是保证数据在增、删、 改等操作中的完整性和安全性,同时操作数据库支持多事务的并行处理,需要加 锁和日志等并行控制和恢复机制,以确保一致性和事务的健壮性。数据仓库主要 是为查询操作而设计,其数据是批量加载的,它一般不需要并发和恢复等机制, 这些机制反而会损害数据仓库的效率。 ( 2 ) 事务处理的数据内容和数量不足以进行决策分析 事务处理环境中的数据库一般是只包含单个部门业务的细节数据,而不会考 虑和企业中其它应用的数据集成问题,同时事务处理环境的数据库保存的一般只 有当前的或近期的数据,而没有长期的历史数据。用于决策支持的数据仓库需要 集成的数据,它包括整个企业内部各个部门的相关数据,可能还要企业的外部的 相关数据。与此同时,数据仓库需要长期的历史数据以供比较分析使用。 ( 3 ) 事务处理的数据更新频率不适合进行决策分析 事务处理环境的数据是即时更新的,每个事务处理都直接影响到数据库,很 多时候一个事务过程还会反复改变同一个数据。在这种数据环境中进行决策分析 处理则会造成很大的不确定性。决策分析处理需要一个相对稳定的数据环境,其 数据是按一定的频率进行刷新的。 ( 4 ) 在事务处理环境中进行决策分析会影响事务环境的性能 决策分析过程一般需要进行复杂的查询、汇总等操作,需要大量的计算和存 储资源。直接在事务环境中进行决策分析很可能由于资源的争用而导致事务处理 的即时性收到损害,甚至导致事务处理系统的崩溃。 综上所述,在事务处理环境中直接构建决策分析处理应用是不合适的,要提 1 3 南京邮电学院硕士学位论文 第三章b i 的基本原理 高决策分析处理的效率和有效性,必须将分析型处理及其所需的综合性数据从传 统的事务型处理和细节性数据中分离出来,按照决策分析的需要重新进行组织, 建立单独的分析处理环境,也就是数据仓库环境。 3 2 3 数据集市 数据集市是和数据仓库相似的一种数据组织结构,但数据集市一般比数据仓 库小得多,并且是一般只专注于一个较小的范围。数据集市按其数据来源可以分 为相关数据集市和独立数据集市,相关数据集市从数据仓库中获得数据而独立数 据集市直接从应用系统数据源中获得数据。 数据集市和数据仓库的区别主要表现在以下几个方面 ( 1 ) 数据仓库包含长期的历史数据,例如5 一1 0 年的数据:数据集市一般 包含有限的历史数据,例如1 年或几个月的数据。 ( 2 ) 数据仓库反映的是整个企业的信息需求的;数据集市反映的是部门的 需求。 ( 3 ) 数据仓库是数据驱动的;数据集市是需求驱动的。 ( 4 ) 数据仓库是通用的,它能满足不同用户的数据需求;数据集市是为特 定的一组用户服务的。 ( 5 ) 数据仓库基于一般的d b m s ( d a t a b a s em a n a g e m e n ts y s t e m ,数据库管 理系统) 技术,这种d b m s 技术的主要目标是管理大规模的数据。数据集市一般 基于多维技术,或者是其它有利于最终用户查询和分析的技术。 3 3 4 数据仓库系统的元数据 元数据是关于数据的数据。数据仓库中元数据比在传统的数据库中更重要。 数据仓库是在一种启发式的、反复的开发生命周期上运作的。为了更加有效,数 据仓库的用户应该能够对准确和实时的元数据进行访问。没有一个好的元数据来 1 4 南京邮电学院硕士学位论文第三章b i 的基本原理 运作的话,决策分析人员的工作就很困难。典型的元数据包括: ( 1 ) 数据源的描述 数据源是数据仓库的基础,数据仓库环境的元数据应该包括所有数据源的信 息。例如,每个数据源的连接方式、表名、关键字、属性等。 ( 2 ) 数据仓库的描述 元数据应该包含数据仓库和数据集市的数据模式、表、属性、关键字、维等 相关的信息。 ( 3 ) 操作元数据 包括数据抽取的历史记录、数据库当前的状态以及错误报告等信息。 ( 4 ) 汇总用的算法 包括多维数据结构中的度量和维的定义,数据的粒度、主题领域、聚集、汇 总和预定义的查询和报表等。 ( 5 ) 从数据源到数据仓库的数据转换 描述数据源到数据仓库的数据转换过程是元数据的主要功能之一。这类元数 据的内容主要有:选择数据源中的属性、简单的属性到属性的映射、属性的转换、 物理特征的转换、名称的变换、关键字的改变、缺省值的改变、多个数据源的归 并逻辑、转换的算法等。 ( 6 ) 关于系统性能的数据 除刷新、更新和复制周期的定时和调度规则外,还包括改善数据存取和检索 性能的索引和配置。 ( 7 ) 业务元数据 包括业务术语的定义、数据拥有者信息等。 1 5 南京邮电学院硕士学位论文第三章b i 的基本原理 3 3o l a p 的基本原理 3 3 1 基本概念 ( 1 ) o l a p 根据o l a p 委员会的定义,o l a p 是一种软件技术,它使分析人员能够迅速、 一致、交互地从各方面观察信息,以达到深入理解数据地目的。这些信息是从原 始数据转化过来得,它们以用户容易理解的方式反映企业的真实情况。o l a p 的 目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维” 这个概念,因此o l a p 也可以说是多维数据分析工具的集合,是数据仓库中大容 量数据得以有效利用的重要保障。其基本思想是:企业的决策者应能灵活地操纵 企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变 化。 ( 2 ) 多维模型 多维模型又称为维度模型、维模型、o l a p 模型、星型模型等。多维模型是 o l a p 分析的结构基础。多维模型的主要形式有星型模式( s t a rs c h e m a ) 和雪花 模式( s n o w f l a k es c h e m a ) 。多维模型的基本组件是事实表和维表,事实表存放 业务活动的数量上的度量信息,事实表中最重要的就是度量,它必须是数值型的、 可叠加的量,例如销售金额、销售数量等。维表存放业务的描述性信息,其属性 一般都是文本型的。维表是多维模型查询、统计的依据。 ( 3 ) o l a p 立方体 o l a p 立方体有时候又称为多维数据集、数据立方体、c u b e 等。o l a p 立方体 和多维数据模型紧密联系,很多时候这两个概念都被混用了。多维模型由维表和 事实表组成,以此对应,o l a p 立方体由维和度量组成。维一般是由维表中一列 或多列组成。度量是一组值,这些值基于事实表中的列,通常是数值型的。两 个或多个维的交汇处被称为单元格,单元格中存放的就是度量值。 1 6 南京邮电学院硕士学位论文 第三章b i 的基本原理 ( 4 ) 维的层次结构 维的层次结构是一个映射序列,它将低层概念映射到更一般的高层概念。维 的层次结构在o l a p 分析中具有关键性的作用,它是o l a p 分析中“钻取”操作的 主要依据。考虑时间维的层次结构,时间维有日期、月、季度、年等属性。日期 可以映射到月份上、也就是说每个日期属于某一个月份。同样,月份可以映射到 季度上、季度可以映射到年份上。这样就形成 年季度月日期) 的层次结构。 一个维度上可以有多个层次结构,例如,时间维可以既有饽:季度月日期) 层 次结构,也可以具有 年周日 的层次结构。 时间维的层次结构很清晰,然而很多情况下维的层次结构并不明显,这时就 需要数据分析人员和领域专家进行研究和处理。 3 3 2 ( o d d 关于o l a p 的1 2 条准则 o l a p 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l 对 大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关 系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需 求。因此c o d d 提出了多维数据库和多维分析的概念,即o l a p 。c o d d 提出o l a p 的1 2 条准则来描述o l a p 系统。 ( 1 ) 多维概念视图 分析用户应该把企业看成是一个多维的结构。例如,利润应该从地区、产品、 时间等角度来观察。多维数据模型使得用户可以更直接而直观的操纵数据,例如 进行切片和切块操作。 ( 2 ) 透明性 当o l a p 成为用户的报表或图形结果时,它应该对用户是透明的。o l a p 应该 成为开放系统的一部分,它能够被嵌入到任何用户希望的地方而不损害宿主系统 1 7 南京邮电学院硕士学位论文 第三章b i 的基本原理 的功能。用户不应该直接面对作为o l a p 数据源的异构数据环境。 ( 3 ) 可访问性 o l a p 工具应该能够用它自己的逻辑结构来访问异构的数据源,并且根据需要 进行数据转换等任务。由o l a p 工具而不是用户来关心数据的物理来源。 ( 4 ) 稳定的报表性能 o l a p 工具的性能不应该随维度的增加而显著下降。 ( 5 ) 客户服务器体系结构 o l a p 工具的服务器部分应该具有足够的智能化,以便不同的客户端能够用最 小的代价来连接。服务器应该能够在分离的数据库系统之间进行映射和巩固数 据。 ( 6 ) 维的一致性 所有数据维应该在结构和操纵能力上相一致。 ( 7 ) 动态的稀疏矩阵处理 o l a p 服务器的物理结构上应该有优化的稀疏矩阵处理。 ( 8 ) 多用户支持能力 o l a p 工具应该提供并发的检索和更新操作,其操作应具有完整性和安全性。 ( 9 ) 非受限的跨维操作 计算工具必须允许跨维度的数据计算和操作,不能限制数据单元的任何关 联。 ( 1 0 ) 直观的数据操纵 在固定路径上的内在的数据操作,例如下钻和上钻等,应该能够在数据单元 上直接完成,而不应该需要利用菜单或者需要在用户界面上多步操作。 ( 1 1 ) 灵活的报表生成 报表工具应该能够以用户想要的任何方式展现数据。 ( 1 2 ) 不受限的维与聚集层次 1 8 南京邮电学院硕士学位论文 第三章b i 的基本原理 不管出于什么目的,维的数量应该不受限制。每一个维在固定路径上应该能 够允许无限多的用户定义的聚合层。 o l a p 首次引入了利用维来分析数据的方法,并且提出了对多用户和透明性的 支持,此外对数据的存储方式、体系结构、分析灵活性都提出了明确要求。这 1 2 条准则可以看作是数据仓库发展史上的一个重要的里程碑。 3 3 3o l a p 的基本数据模型 e r ( 实体一关系) 模型广泛用于关系数据库的设计,关系数据库中数据库 模式由实体的集合和它们之间的联系组成。e r 模型的数据结构适合联机事务处 理,但不能很好的支持o l a p 分析的需要。o l a p 需要的是多维数据模型,多维数 据模型可以一般以星型模式和雪花模式两种形态存在。 ( 1 ) 星形模式 星型模式是最常见的多维模型,星型模式中包括一个大的包含大批数据和不 含冗余的中心表( 事实表) ,以及一组小的附属表( 维表) 。星型模式的模式图很 像星星的形状,维表围绕着中心表并且处在中心表的射线上。 在星型模式中,每个维只用一个维表表示,每个表包含一组属性。例如,地 域维表包含属性集f 地域编号、国家、省份、市、地名) 。这一限制可能导致大量 的冗余。例如,苏州、无锡、常州都属于江苏省,则地域维表中的省份就会有冗 余。 ( 2 ) 雪花模式 雪花模式是星型模式的变种,其中某些维是规范化的,它把维数据进一步分 解到附加的表中。雪花模式的模式图形成类似雪花的形状。 雪花模式和星型模式的主要不同在于,雪花模式的维表可能是规范化形式, 以便减少冗余。这种维表易于维护并节省空间。然而,和巨大的事实表相比,维 表一般都是非常小,维表节省的空间是非常有限的。此外,由于采取雪花模式执 1 9 南京邮电学院硕士学位论文第三章b i 的基本原理 行查询时需要更多的连接操作,可能会影响查询的性能。因此,在多数情况下多 维模型都是采用星型模式而不是雪花模式。 3 3 4o l a p 的存储方式 o l a p 按其存储方式可以分为r o l a p ( 关系o l a p ) 、m o l a p ( 多维o l a p ) 和h o l a p ( 混合o l a p ) 。 ( 1 ) r o l a p r o l a p 是由关系数据管理系统或扩充的关系数据库管理系统来存储和管理多 维数据库的一种方式。这种方式下采用一个o l a p 中间件,将多维的分析操作转 换成对关系数据库的查询需求,并通过建立索引等方法来进行查询优化。 r o l a p 的优点在于能够充分莉用已有的关系数据库技术,能够存放大量的数 据。 ( 2 ) m o l a p m o l a p 是通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论