(运筹学与控制论专业论文)基于ods的商业智能技术的研究及其在钢铁行业中的应用.pdf_第1页
(运筹学与控制论专业论文)基于ods的商业智能技术的研究及其在钢铁行业中的应用.pdf_第2页
(运筹学与控制论专业论文)基于ods的商业智能技术的研究及其在钢铁行业中的应用.pdf_第3页
(运筹学与控制论专业论文)基于ods的商业智能技术的研究及其在钢铁行业中的应用.pdf_第4页
(运筹学与控制论专业论文)基于ods的商业智能技术的研究及其在钢铁行业中的应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(运筹学与控制论专业论文)基于ods的商业智能技术的研究及其在钢铁行业中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

辽宁科技大学硕士论文 摘要 摘要 商业智能( b u s i n e s si n t e l l i g e n c e ) 作为企业信息化的辅助平台是指将企业 的各种数据及时地转换为企业管理者可借鉴的信息( 或者知识) ,并以各种方式展 现出来。商业智能可以帮助企业管理者进行科学决策,。也可以对生产工艺进行优 化,改进管理方法,进而加强企业的竞争优势。o d s 是支持企业日常的全局应用的 数据集合,是不同于d a t a b a s e 的一种新的数据环境,是数据仓库扩展后得到的一 个混合形式,是实现商业智能的重要技术手段之一。本文首先全面地介绍了商业 智能的相关技术,然后在以下几方面做了深入的研究并且取得了创新性的成果。 ( 1 ) o d s 的分类研究。本文在着重研究o d s 技术的基础上,从一个截然不同的角 度一数据更新方式以及数据流的角度对o d $ 加以分类并且基于这种分类比较了各 类型o d s 的特点。数据流是贯穿于整个商业智能过程的主线,从这个角度加以分 类的优点在于能够清晰的认识到数据的走向,从而使整个过程更加清晰。 ( 2 ) 适用钢铁行业的四层体系架构的提出。目前商业智能在钢铁行业的应用还 尚未成熟,在开展商业智能项目时应该基于怎样的架构一直是一个悬而未决的问 题,本文在这方面加以研究并提出以o d s 为中心的四层体系架构。以o d s 为中心 的四层体系架构是对三层体系架构的扩展,是对三层体系架构中o d s 和数据仓库 功能的进一步细化。同时,本文从多个方面对四层体系结构与三层体系结构进行 比较来说明四层体系架构为何优于三层体系架构。 ( 3 ) 商业智能技术在钢铁业的应用。在四层体系架构的基础上设计系统,给出 适用钢铁业的商业智能解决方案。将本文介绍的一些技术,主要是o d s 技术、e t l 技术、分析和挖掘技术应用于某钢铁企业并给l 出了部分的分析结果。 关键词:商业智能,o d s ,e t l ,数据仓库 辽宁科技大学硕士论文 a b s t t a c t a b s t r a c t a sa na s s i s t a n tp l a t f o r m ,b ia i m sa tt r a n s f o r m i n gn u m e r o u sd a t ai n t ot h ei n f o r - m a r i o no rt h ek n o w l e d g et h a ta d m i n i s t r a t o r si n t e r e s t ,i ta l s og i v e so u tt h er e s u l tb ym a n y d i f f e r r e n tw a y s t h r o u g ht h ea p p l i c a t i o no f t h i sp l a t f o r m ,a d m i n i s t r a t o r sc a nm a k em u c h m o l ea p p r o p r i a t ed e t e r m i n a t i o n s ,t h e yc a no p t i m i z et h et e c h n i c s ,a n dt h ec o m p a n yc a n d e a lw i t hm o l ec h a l l e n g e s a sad a t a s e t ,o d ss u p p o r tc o m p a n y sd a i l ya p p l i c a t i o n s ,i t s an e wd a t ae n v i r o n m e n tt h a td i f f e r e n t sf r o md a t a b a s e ;i t san e wf r a m e w o r ko f b i t l l i s a r t i c l ef i r s ti n t r o d u c e sa l lt h eb it e c h n o l o g i e s ,t h e nf o c u s e so nt h ef o l l o w i n ga s p e c t sa n d g o tc r e a t i v er e s e a r c hr e s u l t s ( 1 ) 1 h er e s e a r c ho no d sc l a s s i f i c a t i o n t h i sa r t i c l ef o c u s e so nt h eo d st e c h n o l o g y a n dc l a s s i f i e so d sf r o man e w p o i n to f v i e w - - t h em e t h o dd a t au p d a t e s w 色a l s om a k e a d e t a i l e dc o n t r a s tb e t w e e nt h o s ek i n d so fo d s d a t af l o wi st h em a i nt h r e a dt h a tg o e s t h r o u g ht h eb ip r o c e s s ,t h ea d v a n t a g eo fm a k ec l a s s i f i c a t i o nf r o mt h i sp o i n to fv i e wi s t h a tw ec a nr e a l i z ew h e r et h ed a t ag o e s ,s ot h a tw ec a nu n d e r s t a n db ip r o c e s sb e t t e r ( 2 ) t i l i sa r t i c l eb r i n g sf o r w a r dan e wf r a m e w o r ks u i t a b l ef o rs t e e li n d u s t r y b yn o w , t h ea p p l i c a t i o ni ns t e e li n d u s t r yi su m n a t u l e ,w h i c hf i a m e w o r kt oc h o o s ew h e nw ec a r r y o nt h eb ip r o c e s si ss t i l la nu n s o l v e dp r o b l e m t 1 1 i sa r t i c l ec o n c e r n so nt h i sp r o b l e ma n d b r i n g sf o r w a r dan e wf r a m e w o r ks u i t a b l ef o rs t e e li n d u s t r y 1 h en e w f r a m e w o r kb a s e d 0 1 2o d si sa l le x t e n s i o no ft h eo l do n e m e a n w h i l e ,w ec o n t r a s tt h eo l df r a m e w o r kt o t h e n 删o n e ( 3 ) t h ea p p l i c a t i o no f b it e c h n o l o g i e si nt h es t e e li n d u s t r y w ea p p l yt h et e c h n o l o g i e s o d s ,e t l ,d a t am i n i n g , t os t e e li n d u s t r yb a s e do nt h en e w f r a m e w o r ka n dg i v e o u ts o m eo f t h er e s u l t s k e y w o r d s :b u s i n e s si n t e l l i g e n c e ,o d s ,e t l , d a t a w a r e h o u s e i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也1 i 包含为 获得辽宁科技大学或其它教育机构的学位或证书而使用过的材料,与 我同工作的同志对本研究所做的任何贡献均已在论文中作j 7 明确 的说明并表示了谓j 意。 签名:弛日期:盥1 3 :圣,! 关于论文使用授权的说明 本人完全了解辽宁科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅:学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:盘避l 翩签名:懿盎l 一日期:盟f 辽宁科技大学硕士论文 第一章前言 1 1 商业智能的产生 第一章前言 目前,随着改革开放的全面深入,我国的经济得到了迅猛的发展。企业规模 的不断扩大,加速了经济的全球化进程。在严峻的竞争形势面前,越来越多的企 业开始认识到,若想要在商业的海洋中占有一席之地就一定要获得最新的信息, 要做正确的决策。可究竟通过何种方式来得到最新的信息,获得最好的决策支持, 这是摆在所有企业面前的一个难题。商业智能就是在这样的环境下应企业的需求 而产生的,它的产生解决了如下的问题: 第一,解决了数据爆炸的问题。我国的信息技术正在迅速的发展着,而信息 技术的发展无疑为企业提供了很好的获取信息的渠道,经过十几年甚至几十年的 时间企业所累积的信息量已经非常巨大,然而现有的e r p 、c r m 等企业内部的系统 仍然在源源不断地添加进新的数据,而据有些项目专家估计,这些数据的利用率 只有百分之七。商业智能解决方案能够很好的整合数据,使数据的利用效率大大 提高。 第二,商业智能解决方案整合了企业内庞杂的系统,使其统一起来。企业以 往所建立的业务系统都基于独立的平台,各自都有独立的体系结构,而且各个业 务系统面向不同的业务目标,不利于数据的集中共享,更不利于数据的深入分析。 商业智能解决方案整合了不一致的业务平台,建立了企业范围内统一的数据仓库, 使数据在全企业范围内达到一致。 第三,商业智能解决方案能够把海量的、杂乱无章的数据转化为知识。商业 智能既能够满足企业日常的报表需求也可以满足用户深层次的分析需求。从应用 的角度来讲它可以帮助优化生产工艺、改进产品质量、进行客户评价等等。它不 仅能够满足终端用户对于海量数据的即席查询、找出业务数据中的一些内在规律 也可以根据现有的数据进行分析及预测,从而获得竞争优势。而这是传统的管理 信息系统和决策支持系统无法满足的。 当然,商业智能的产生,与相关计算机技术的成熟是密不可分的。硬件方面 的大容量存储技术、并行处理技术,软件方面的数据库技术、数据仓库技术、人 工智能技术、新的数据挖掘算法、神经网络技术等,都促进了商业智能的发展。 辽宁科技大学硕士论文 第一章前言 从而使得企业降低投资成本,提高投资回报率。 商业智能所包含的技术及其相互关系如下图所示 分 析 的 复 朵 度 和 价 值 1 2 商业智能的定义 图1 1 商业智能所包含的技术概括 的阶段 商业智能的概念最早是g a r t n e rg r o u p 的h o w a r dd r e s n e r 于1 9 9 6 年提出来 的。他将商业智能定义为一类由数据仓库( 或数据集市) 、查询报表、数据分析、 数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的的技术及其应 用。 从技术角度看,商业智能的过程是企业的决策人员以企业中的e t l 技术、o d s 技术、数据仓库技术( d a t aw a r e h o u s i n g ) 为基础,经由数据挖掘( d a t am i n i n g ) 、 联机分析处理技术( o nl i n ea n a l y t i c a lp r o c e s s i n g ) 从数据中获得有用的知识从 而使企业获取利润的过程。 从应用角度看,商业智能帮助用户整理数据、存储数据、对数据进行联机分 析处理和数据挖掘,例如预测发展趋势、对客户进行分类、挖掘潜在客户等等。 总体来讲,商业智能主要有以下四大功能: ( 1 ) 数据整理功能:把业务数据抽取到企业级数据仓库。抽取过程中进行数据 加工,比如数据清洗和数据格式化,以提高数据的质量,增加数据的可用性。 辽宁科技大学硕士论文 第一章前言 ( 2 ) 企业级数据存储功能:建立企业范围内统一的数据存储平台,可以很好的 保持数据的一致性。可以建立基于数据仓库技术的应用系统,邵面向特定领域的 应用系统,如为企业领导定制的e i s ( e x e c u t i v ei n f o r m a t i o ns y s t e m ) 。 ( 3 ) 分析功能:快速方便的从多个角度分析问题并找出答案。能够通过预先处 理的方式,针对不同的主题和模型,高效率的满足客户的分析需求。 ( 4 ) 实时报表:满足企业灵活多变的报表需求。通过灵活易用的报表系统让业 务人员自己驾驭数据,找出业务规律。 完成这些功能的主要技术有数据仓库技术、e t l 技术、o d s 技术、数据挖掘和 o l a p 技术以及数据集市技术等。 基于以上的功能,商业智能解决方案的体系结构如下: 图1 2 商业智能解决方案的体系结构 1 3 商业智能在钢铁行业的应用 随着中国加入了w t o ,钢铁企业由在国内市场的竞争转变为参与国际市场的竞 争,在这种竞争氛围中,信息成为最重要的武器,为了保持竞争的优势,企业的 管理层和业务人员必须随时了解企业的业务运营情况,根据市场情况随时调整业 辽宁科技大学硕士论文 第一章前言 务策略,而这些必须建立在足够的信息基础之上。但是由于钢铁行业的数据量尤 其是历史累积的数据量较大、业务系统较多、数据庞杂的现状,利用传统的信息 获取手段远远不能满足信息的需求。想要随时获取所需的信息,几乎是不可能的, 因此必须要实行企业信息化,满足企业对于信息的需要。 随着钢铁企业信息化的不断深入和m e s 、e r p 的不断推广,企业积累了大量的 数据,这些数据覆盖了钢铁企业的生产、技术、销售、设备、能源等各个方面。 如何充分利用企业中大量的数据,全面支持企业各个层面的经营决策,是钢铁企 业迫切需要解决的问题。实践证明,以o d s 为中心的商业智能平台在钢铁企业的 应用【l 】 2 心能有效地解决企业信息化在决策支持和生产经营方面的问题,通过对原 始数据进行科学的处理,运用一定的计算模型和工具对数据进行科学的统计分析, 从而起到对管理和决策的支持作用,进而支持钢铁企业的降本增效并且提升企业 的综合竞争力。 总结实践经验,商业智能平台在我国钢铁企业的应用大致可以分为1 4 】: ( 1 ) 定制好的分析报表。用于公司和部门层面日常报表的需要; ( 2 ) 基于数据仓库技术的应用系统。面向特定领域的应用系统,如为企业领导 定制的e i s ( e x e c u t i v ei n f o r m a t i o ns y s t e m ) ; ( 3 ) o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 分析。从多个维度进行汇总分析: ( 4 ) 个性化的统计分析。用户基于数据仓库的数据,运用一些分析工具,结合 自己的业务知识进行的统计分析; ( 5 ) 数据挖掘( d a t am i n i n g ) 。从大量数据中找出规律和规则。 纵观钢铁行业商业智能应用的现状,商业智能平台弥补了在线事务处理系统 ( 如e r p 和m e s ) 的不足,在一定程度上帮助企业实现了从数据到信息,再到知识, 并上升到智慧,最后再指导实践行动的一个循环。 1 4 目前已有商业智能解决方案比较 应市场的需求,到目前为止,i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、 m i c r o s o f t 和s h s 等有实力的公司或者通过收购或者通过研发的途径相继推出了自 己的商业智能解决方案,b o 和b r i o 等专业软件公司也推出了前端在线分析处理工 具。下面我们针对这些公司的商业智能解决方案的性能和特点做一些分析和比较。 4 辽宁科技大学硬士论文 第一章前 言 1 4 1l 咖商业智能解决方案 i b m 公司提供了一套基于可视数据仓库的商业智能解决方案,其组件主要包括 d 1 :v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d b 2o l a ps e r v e r5 0 、i b md b 2u d b ,以 及来自第三方的前端数据展现工具( 如d o ) 和数据挖掘工具( 如s a s ) 。 v w 是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可 用于数据抽取、转换、装载和调度。e s s b a s e o b 2o l a ps e r v e r 作为一个r o l a p 和 m o l a p 混合的h o l a p 服务器来支持维的定义和数据装载。 严格说来,i b m 自己并没有提供完整的商业智能解决方案,该公司采取的是合 作伙伴战略。例如,它的前端数据展现工具可以是b u s i n e s so b j e c t s 的b o 、l o t u s 的a p p r o a c h 、c o g n o s 的i m p r o m p t u 或i b m 的q u e r ym a n a g e m e n tf a c i l i t y ,多维 分析工具支持a r b o rs o f t w a r e 的e s s b a s e 和i b m 与a r b o r 联合开发的d b 2o l a p 服务器,统计分析工具采用s a s 系统。 1 4 2o r a c i e 商业智能解决方案 o r a c l e 商业智能解决方案 6 主要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 两个部分。 o r a c l ee x p r e s s 由四个工具组成:o r a c l ee x p r e s ss e r v e r 是一个m o l a p ( 多 维o l a p ) 服务器,它利用多维模型存储和管理多维数据库或多维高速缓存,同时也 能够访问多种关系数据库;o r a c lee x p r e s sw e ba g e n t 通过c g i 或w e b 插件支持 基于w e b 的动态多维数据展现;o r a c l ee x p r e s so b j e c t s 前端数据分析工具提供 了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼 容v i s u a lb a s i c 语法的语言,支持o c x 和o l e ;o r a c l ee x p r e s sa n a l y z e r 是通 用的、面向最终用户的报告和分析工具( 目前仅支持w i n d o w s 平台) 。 o r a c l ed i s c o v e r e r 即席查询工具是专门为最终用户设计的,分为最终用户版 和管理员版。在o r a c l e 商业智能解决方案的实施过程中,通常把汇总数据存储在 e x p r e s s 多维数据库中,而将详细数据存储在o r a c l e 关系数据库中,当需要详细 数据时,e x p r e s ss e r v e r 通过构造s q l 语句访问关系数据库。但目前的e x p r e s s 还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,o r a c l e8 i 和e x p r e s s 之间集成度还不够高,o r a c l e8 i 和e x p r e s s 之间需要复制元数据, 如果o r a c l ed i s c o v e r e r ( 或b o ) 需要访问汇总数据,则需要将汇总数据同时存 辽宁科技大学硕士论文第一章前言 放在o r a c l e 和e x p r e s s 中,系统维护比较困难。值得注意的是,自o r a c l e9 i 后 o r a c l e 就把o l a p 和数据挖掘作为重要特点。 1 4 3s y b a s e 商业智能解决方案 s y b a s e 提供的商业智能解决方案称为w a r e h o u s es t u d i o ,包括数据仓库的建 模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具【7 。 w a r e h o u s ea r c h i t e c t 是p o w e r d e s i g n e r 中的一个设计模块,它支持星形模型、 雪花模型和e r 模型;数据抽取与转换工具包括p o w e r s t a g e 、r e p l i c a t i o ns e r v e r 、 c a r l e t o np a s s p o r t ,p o w e r s t a g e 是s y b a s e 提供的可视化数据迁移工具。a d a p t i v e s e r v e re n t e r p r i s e 是s y b a s e 企业级关系数据库,a d a p t i v es e r v e ri q 是s y b a s e 公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建 立作了优化处理,s y b a s ei q 支持各种流行的前端展现工具( 如c o g n o si m p r o m p t u 、 b u s i n e s so b j e c t s 、b r i oq u e r y 等) ;数据分析与展现工具包括p o w e r d i m e n s i o n s 、 e n g l i s h w i z a r d 、i n f o m a k e r 、p o w e r d y n a m o 等,p o w e r d i m e n s i o n s 是图形化的o l a p 分析工具,它支持s m p 和多维缓存技术,能够集成异构韵关系型数据仓库和分布 式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包 括w a r e h o u s ec o n t r o lc e n t e r 、s y b a s ec e n t r a l 、d i s t r i b u t i o nd i r e c t o r ,其中 w a r e h o u s ec o n t r o lc e n t e r 是为数据仓库开发人员提供的元数据管理工具。 s y b a s e 提供了完整的商业智能解决方案q u i c ks t a r td a t a m a r t ,具有良好 的性能,并支持第三方数据展现工具。从q u i c ks t a r td a t a m a r t 的名称不难看出, 它尤其适合于数据集市应用。另外,s y b a s e 可以提供面向电信、金融、保险、医 疗保健这四个行业的客户关系管理( c r m ) 产品,在这四个产品中,有8 0 的功能 是共性的,有2 0 的功能需要s y b a s e 与合作伙伴针对不同需求共同开发。 1 4 4i n f o r m i x 商业智能解决方案 i n f o r m i x 于1 9 9 8 和1 9 9 9 年相继收购了国际上享有盛誉的数据仓库供应商r e d b r i c ks y s t e m 和数据管理软件供应商a r d e n t ,并提供了完整的、集成的商业智能 解决方案 8 】。该解决方案还包括一个“快速启动”咨询服务,能够帮助用户快速完 成数据仓库或数据集市的开发。 i n f o r m i x 产品能够集成m i c r o s o f ti i s 或n e t s c a p ee n t e r p r i s e 服务器,从 而支持基于w e b 的数据仓库应用。i n f o r m i x 没有提供自己的报表和数据挖掘工具, 辽宁科技大学硕士论文第一章前言 但他们与b r i o 和s a s 公司建立了战略联盟,并推出了“i n f o r m i x 商务智能联盟计 划”。该计划以i n f o r m i x 为主,结合b r i o 的前端数据分析和报表功能,以及s a s 的数据挖掘功能,形成了一个“b i 中心”打包方案。( i n f o r m i xs o f t w a r e 已被i b m 公司收购,此举将给i b m 公司数据库及商业智能产品,从技术和市场占有率上带 来极大的提升。) i a 5s a s 商业智能解决方案 s a s 公司在2 0 世纪7 0 年代以“统计分析”和“线性数学模型”而享誉业界, 9 0 年代以后,s a s 公司也加入了竞争,并提供了特点鲜明的商业智能解决方案【9 】, 包括3 0 多个专用模块。 其中,s a s w a ( w a r e h o u s ea d m i n i s t r a t o r ) 是建立数据仓库的集成管理工具, 包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现 等;s a s m d d b 是s a s 用于在线分析的多维数据库服务器;s a s a f 提供了屏幕设计 功能和用于开发的s c l ( 屏幕控制语言) ;s a s i t s v ( i ts e r v i c ev i s i o n ) 是i t 服务的性能评估和管理的软件,这些i t 服务包括计算机系统、网络系统、w e b 服 务器和电话系统等。s a s 系统的优点是功能强、性能高、特长突出,缺点是系统比 较复杂。 除了上述一些公司的商业智能解决方案外还有许多其它的公司如c a 、n c r 等 公司的相关产品可以选择,但是并没有一套完全适合国内某个行业尤其是钢铁行 业的商业智能解决方案,目前国内有很多大学和研究机构从事商业智能相关技术 的研究,但是仍然没有成熟的商业智能解决方案。 1 5 本文主要工作以及文章结构 当前,商业智能正方兴未艾,已经成为信息化应用的新热点。各大企业已经 或正在准备着手构建商业智能系统。 本文对商业智能及其相关技术进行研究与分析,介绍了数据仓库以及数据集 市技术、前端分析技术一数据挖掘技术以及o l a p 技术,着重研究数据抽取技术一 e t l 技术以及操作数据存储技术- - o d s 技术,提出以o d s 为中心的四层体系架构并 结合某钢铁企业实际情况设计系统。 本文结构如下: 第一章前言,介绍了商业智能的产生以及定义,将商业智能体系分为四大功 7 辽宁科技大学顼士论文第一章前言 能模块,分别是数据抽取功能、数据仓库功能、分析功能以及报表功能,结合四 大功能模块给出了商业智能的体系架构。简要分析了商业智能在钢铁企业中应用 的意义所在。并简要介绍了目前一些厂商的商业智能解决方案。 第二章商业智能相关技术介绍,商业智能的技术本文共分三章来介绍,本章 介绍了数据仓库、数据集市、数据挖掘和o l a p 技术。给出数据仓库的起源和基本 概念,阐述了数据仓库的螺旋式开发方法及其步骤;介绍了数据集市的概念;介 绍了数据挖掘的定义、主要算法以及数据挖掘的基本步骤,对两种主要的数据挖 掘工具进行了比较。介绍了o l a p 的定义及特点、对o l t p 以及o l a p 进行了比较、 介绍了o l a p 服务器的三种类型,最后一节说明了o l a p 以及数据挖掘的关系。 第三章e t l 技术研究,本章介绍了e t l 的基本概念以及概念的扩展,e t l 在 b i 中的位置及重要性,在设计e t l 过程中需要注意的问题,以对比的方法详细介 绍了现有的两种实现e t l 的方法一使用工具完成以及手工编码完成,简要介绍了 业界两个主流的e t l 产品。 第四章o d s 技术研究,本章着重研究了o d s 技术。分别介绍了o d s 的定义、 数据特点以及优点,从数据当前性、数据更新方式、数据粒度以及数据模型四个 方面阐述了与数据仓库的区别,从数据更新方式以及数据流的角度对o d s 加以分 类并比较了各类型o d s 的特点。给出了d b - o d s d w 三层架构在b i 架构中的位置, 从数据和模型两个方面叙述了o d s 系统建立的一些技术问题。针对钢铁行业的特 点,提出以o d s 为中心的适用于钢铁行业的四层体系架构并且将四层架构与三层 架构做了详细的比较。 第五章本章结合作者在某钢铁企业的实践,运用了文中所述的几种商业智能 的技术。以四层体系架构为框架、以产品的质量分析为主题,从应用的角度介绍 了e t l 、o d s 和数据集市的建立。基于s a s 的实验结果表明,四层体系架构在钢铁 行业能够得到较好的运用。 第六章本章对全文研究内容做总结并且提出未来研究方向。 辽宁科技大学硕士论文 第二章商业智能相关技术简介 第二章商业智能相关技术简介 商业智能的相关技术主要包括数据仓库技术、e t l 技术、o d s 技术、数据挖掘 和o l a p 技术以及数据集市技术。本章主要介绍数据仓库技术、数据集市技术、数 据挖掘和o l a p 技术。e t l 技术和o d s 技术本文将分别在第三章和第四章进行深入 的介绍。 2 1 数据仓库技术 2 1 1 数据仓库的起源 数据仓库技术是实现商业智能平台的重要技术之一,其核心是数据的存储和 管理。企业利用数据仓库整合企业内部所有分散的原始的业务数据,并通过便捷 有效的数据访问手段,支持企业内部不同部门、不同需求、不同层次的用户随时 获取自己所需的信息。 w h i n m o n 在数据仓库一书中详细阐述了数据仓库是伴随着决策支持系统 的发展而产生的,它主要经历了以下几个阶段 10 】: ( 1 ) 最早的数据存储的使用。最早的数据存储是1 9 世纪6 0 年代中期主文件和 磁带的使用。在这种存储方式中,我们访问第n + i 条数据的时候需要先访问第l , 2 ,n 条数据。但是随着数据量的增长,这种存储方式会需要越来越多的硬件 设备,维护、访问与更新都是信息处理的障碍。 ( 2 ) 1 9 世纪7 0 年代出现了直接存取存储设备,也就是磁盘存储,这种存储方式 弥补了磁带存储不能直接访问的缺陷。如果要访问第n + i 条数据,我们不必访问 该条数据之前的所有数据,只需按照该条数据的地址对该条数据直接访问即可, 节约了大量的时间。这种便捷的访问方式可以让我们更方便的在d a s d 上存储和访 问数据,它促进了数据库管理系统的产生。 ( 3 ) 在2 0 世纪7 0 年代和8 0 年代中期,产生了在线事务处理( o l t p ) 和联机事 务处理( o l a p ) 以及一些更加新颖的技术比如第四代编程语言( 4 g l ) ,这些技术 促进了单一数据库的产生。 ( 4 ) 然后是自然演化式体系结构的建立,人们发现单一数据库的非集成性不再 9 辽宁科技大学硬士论文第二章商业智能相关技术筒舟 能够满足用户的需求,需要进行体系结构的改变,于是我们迎来了体系化的数据 仓库环境,它包括数据操作层、数据仓库层、在线分析处理层( 也称做多位d b m s 层) 和个体层,在这样的体系架构下,数据仓库系统弥补了在线事务处理系统( 如 e r p 和m e s ) 的不足,统一了全企业范围内的数据。 数据仓库技术的发展促进了商业智能平台的产生。随着体系化的数据仓库环 境越来越普遍的被应用,各种前端应用例如数据挖掘、个性化的统计分析、定制 好的报表等等逐一在企业级的数据仓库平台上实现;随着各种技术例如o d s 技术、 e t l 技术的进一步发展以及功能的细化;数据仓库的概念慢慢的不能概括的描述这 些技术,这就促使了商业智能平台的产生。商业智能平台帮助企业实现了从数据 到信息,再到知识,并上升到智慧,最后再指导实践行动的一个p d c a 循环。 2 1 2 数据仓库概念 目前我国对数据仓库的研究与应用仍然处于萌芽状态,因此也出现了形形色 色的定义。在企业的实际应用中数据仓库是一个独立的、开放的数据平台,数据 仓库的数据经过重新整合,能快速有效地支持各种分析、决策的需要。 此外,在业界有巨大影响力的s a s 软件研究所认为数据仓库是一种管理技术, 旨在通过通畅、合理、全面的信息管理,达到有效的决策支持【l l 】。 对数据仓库最具权威的定义是数据仓库之父w h i n m o n 在1 9 9 6 年提出的,即 数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合。 2 1 3 数据仓库的特点 w h i n m o n 提出的数据仓库的概念很好的反映出了数据仓库的特点,即数据仓 库是面向主题的、集成的、时变的和非易失的。我们将这些特点分别详细介绍如 下: 第一,数据仓库是面向主题的。因为数据仓库是按照主题组织数据的,这样 某一个部门的用户可以在一个主题域内得到他们所关心的数据。主题与主题之间 是相互独立的,某一个部门的用户也可以访问其它的主题。例如,对于一个生产 厂商来说,他需要的信息可能是订单、产品、原料信息与货物成品信息,其中订 单和货物成品信息同属销售主题域,而产品和原料信息同属产品属性主题域。 第二,数据仓库是集成的。数据仓库的集成性主要体现在对基于不同平台的 源数据的抽取、清洗和转换等方面,对数据的这些处理消除了源数据的不一致性, 1 0 辽宁科技大学硕士论文 第二章商业智能相关技术简介 嘬终得到数据在数据仓库中的单一的物理映象,数据仓库中数据的集成性保证数 据仓库中的数据在整个企业范围内是全局一致的。 第三,数据仓库是时变的。数据仓库中的某一数据单元只是在某一时间内是 准确的,该数据单元在任何情况下都以某一时间标志来说明它在何时是准确的, 这可以通过在记录中加时间戳的方法来完成。 第四,数据仓库是非易失的。数据仓库的非易失性是指数据仓库中的数据是 只读的,仅能为管理人员决策分析使用,并不能为终端用户所修改,数据仓库中 数据的更新只能通过数据装载的方式来完成。在进行数据更新时,数据是以批量 的方式装载的,新的数据以静态快照的格式装载入数据仓库,这样也保证了数据 仓库的历史性。 2 1 4 数据仓库开发方法 根据企业级数据仓库系统的特点,数据仓库的实施过程可以参考世界著名的 质量管理专家戴明博士最先提出的p d c a 循环即“戴明环”的概念,p d c a 所代表 的含义分别如下: p ( p l a n ) 一计划,确定系统实旖的方针和目标,确定活动计划; d ( d o ) 执行,实际去做,实现计划中的内容; c ( c h e c k ) 一检查,对计划执行的结果做总结,找出问题所在; a ( a c t i o n ) 一行动,对总结检查的结果进行处理,对成功的经验加以肯定并 适当推广:对失败的教训加以总结,以免重现,未解决的问题放到下一个p d c a 循 环。 p d c a 循环体现了数据仓库实施过程的七个阶段 1 2 】,工程评估、需求收集、系 统设计、系统实现、测试与完善、部署与培训、总结复审。这些阶段对工程进行 了逻辑划分,其中工程评估、需求收集和总结复审阶段着眼于确认、理解和复审项 目目标;系统设计、系统实现、测试与完善、部署与培训阶段则着眼于设计、丌 发和部署数据仓库环境。 辽宁科技大学硕士论文 第二章商业智能相关技术筒夼 圈2 1 数据仓厍的螺旋式开发过程 基于上述七个阶段的数据仓库的螺旋式快速开发过程如图所示。各步骤所要 完成的具体任务如下: ( 1 ) 工程评估:首先根据企业的需求,进行总体任务和环境的评估即对企业的 数据资源、技术力量、业务需求和软硬件环境等方面进行可行性分析,根据评估结 果决定是否继续数据仓库项目。 ( 2 ) 需求收集:项目启动后的第一步,收集企业的业务需求,确定企业的主题域。 然后基于螺旋式的开发方法,选择企业急需的一个主题域进行设计、实现并且进 行应用。 ( 3 ) 系统设计:数据仓库系统架构的分析设计,同时确定数据仓库验收的标准。 ( 4 ) 系统实旖:对数据仓库系统进行开发。 ( 5 ) 测试与完善:对数据仓库系统进行验收测试,不足的地方继续完善。 ( 6 ) 部署与培训:投入运行环境,对用户进行必要的培训以确保他们能够正确 的使用。 ( 7 ) 总结复审:评价项目的开展,评价项目的部署并且评价系统对业务工作的 促进。总结经验教训,开发企业的其它主题域,并逐步形成企业级数据仓库。这 体现了数据仓库系统的螺旋式增量开发思想。 2 2 数据集市 数据仓库的工作所涉及的范围和成本往往是巨大的,信息技术部门必须以整 个企业的眼光对待任何一次决策分析。因此整个数据仓库项目是代价很高、花费 时间较长的项目,整个项目的完成往往需要几年的时间。因此为了缩短项目的开 发周期,使企业的i t 投资较早的获得回报,企业往往选择某个急需的主题域,以 辽宁科技大学硕士论文 第二章商业智能相关技术简介 数据集市( d a t am a r t s ) 入手进行开发。 数据集市,是企业级数据仓库的一个子集,它主要面向部门级的业务,并且 只是面向某个或几个特定的主题,是为企业提供分析商业数据的一条廉价途径。 它支持客户利用已有的数据获得重要的竞争优势,企业由数据集市入手进行开发 不仅可以较早的获得投资回报而且可在一定程度上缓解数据仓库的访问瓶颈。 数据集市的特征包括:规模小,有特定的应用,面向部门。数据集市由业务部 门定义,再由i t 部门进行设计和开发,由业务部门进行管理和维护。由于数据集 市能快速实现,且投资较小,所以能够快速获得回报,按照螺旋式开发的思想可 升级到完整的数据仓库。 2 3 数据挖掘和o l a p 2 3 1 数据挖掘 2 3 1 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 有很多与其相似的术语,如知识发现( i ( d d ) 、数据分 析、数据融合( d a t af u s i o n ) 以及决策支持等。一种比较公认的定义是u s a m am f a y y a d 、g p i a t e t s k y 、s h a p i r o 等人提出的概念【1 3 】【1 4 l 【1 5 ;数据挖掘,就是从大量 的、不完全的、有噪声的、模糊的、随机的实际数据中提取人们感兴趣的知识, 而这些知识是隐含的、事先未知的、潜在有用的信息。 数据挖掘的过程要从技术角度和商业角度两个方面来理解: 从技术角度来看,数据挖掘是从数据中发现知识的过程。所谓知识,就是概 念、规则、模式、规律等。数据是知识的源泉,数据挖掘的过程,就是从数据中 提取知识的过程。发现知识的方法可以是数学的,也可以是非数学的;可以是演 绎的,也可以是归纳的。发现的知识可以用于信息管理、查询优化、决策支持等。 数据挖掘是一门复杂的交叉学科,它把人们对数据的应用从低层次的简单查询, 提升到从数据中发现知识,为企业提供决策支持。 从商业角度来看,数据挖掘的主要特点是对数据库中的大量业务数据进行抽 取、转换、分析和其它模型化处理,从中提取关键数据。随着企业信息化的实现, 企业产生了大量的业务数据,这些数据有些不是为了分析而收集,而是由纯粹的 商业运作而产生的。分析这些数据不是为了研究,而是为商业决策支持提供真正 辽宁科技大学硕士论文第二章商业智能相关技术简介 有价值的信息,从而为企业获得更大的利润。 2 3 1 2 数据挖掘的主要算法及相关模型 数据挖掘的任务一般分为两类:描述和预测。描述性挖掘任务刻画数据库中 数据的一般特性。预测性挖掘任务在现有的历史数据上进行推断以及预测。常用 的数据挖掘算法如下【1 6 】: ( 1 ) 概念描述:概念描述以公式的形式描述与给定的任务相关的数据集,描述 数据的一般特性。概念描述由特征化和比较组成,一般有两种方法:基于o l a p 的 方法和面向属性归纳的方法。 ( 2 ) 关联规则挖掘:关联规则挖掘是数据挖掘中一个重要的课题,它从大量数 据项集中发现项集与项集之间有趣的关联或相关性。关联规则研究有助于发现交 易数据库中不同项之间的联系,如发现顾客购买某一商品对购买其他商品的影响。 最典型的例子有购物篮分析,分析结果可以应用于商品货架布局,也可以根据购 买模式对客户进行分类。 ( 3 ) 分类和预测:分类的目的是通过样本训练得到一个模型,用来将数据集的 每条数据项映射到一个类中。 预测是通过对以往数据的分析,找到规律,来预计未来的趋势。常用方法有 时间序列预测和回归分析等。 分类可以看作进行预测的前提,由于分类模型是通过学习己有的样本数据集 得出的,因此对未分类数据集分类时就体现出一种预测能力。 ( 4 ) 聚类分析:聚类是把一组个体按照相似性分成若干类别,它的目的是使得 属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能 的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方 法。 ( 5 ) 孤立点分析:在大规模的数据集中可能包含一些数据对象,它们与其它对 象相比是显著相异、不符合数据的一般模型的,这些对象被称为孤立点( o u t l i e r ) 。 探测这些对象的数据挖掘任务被称为孤立点分析,孤立点分析可以采用统计方法、 基于距离的方法或者基于偏移的方法。 ( 6 ) 时间序列分析:时间序列模型是一种基于序列的历史记录进行建模的一种 方法。时间序列分析有两种基本方法:一为频域法,强调谱密度和时间序列谱分 解,大多是对时间序列做非参数描述,在工程学、物理学、经济学等方面都有广 泛的应用。二为时域法,是用相关函数的方法处理随机过程,如用a r i m a ( 自回归 4 辽宁

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论