已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)商业智能技术及其在配方辅助系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商业智能技术及其在配方辅助系统中的应用研究 摘要 近年来随着经济的发展、数据量的积累以及竞争的加剧,企业急需实现快捷 的综合业务分析,为管理决策提供准确有效的信息,由此商业智能( b i ) 软件系 统得到很快发展。在金融、电信、保险、零售等数据集中程度高的行业,商业智 能技术得到了大量的应用并取得了显著的效果,相应的商业智技术也日趋成熟。 国内外许多重量级供应商也纷纷推出了各自的商业智能产品。但在生产制造领域 内,尤其是配方产品的制造行业,由于企业之间信息化水平高低不齐,商业智能 并未得到很好的利用。配方产品企业积累的大量的历史数据,其中蕴含这很多宝 贵的经验和知识。企业需要从这些数据挖掘出这些知识,使传统的经验配方转变 为科学配方,以支持产品质量的稳定和提高以及新产品的开发,提高品牌产品的 综合竞争能力。 本文在分析商业智能( b i ) 的架构及关键技术的基础上,结合配方产品行业 的共同特点,以产品质量稳定和提高为目的,以原料分析、配方设计以及工艺加 工参数分析为主线,给出了适合配方产品辅助系统的商业智能系统建设方案。并 以卷烟配方辅助设计系统为例,结合实际业务需求,阐述了配方辅助系统商业智 能的构建流程。本文首先介绍了商业智能的概念以及它的关键技术,包括数据仓 库技术、e t l 技术、o l a p 技术以及数据挖掘技术等。然后分析了青岛卷烟厂的 卷烟配方辅助系统项目情况以及系统的架构。然后以s q ls e r v e r 2 0 0 5 商业智能 工具为平台,介绍了商业智能系统在卷烟配方辅助系统的整个流程。业务需求分 析介绍了原料、配方、工艺等配方行业的三大主要业务。逻辑设计和物理设计介 绍了数据仓库建设的主要维度模型,包括维表和事实表。e t l 过程数据抽取、转 换、加载( 勘儿) 系统的建立和s s i s 程序包的设计和使用。o l a p 设计介绍了 多维数据集的创建过程,建立事实表、维度表及其关系。数据挖掘分析介绍了决 策树、关联规则和时间序列等算法在卷烟生产数据分析中的使用方法。最后从数 据分析的角度展示了卷烟配方辅助系统的应用效果,包括不同的分析方法和前端 展示效果。本文为商业智能应用及分析在配方行业的应用提供了借鉴和参考。 关键词:商业智能;数据仓库;e n 。;联机分析处理;数据挖掘;产品配方 b u s i n e s si n t e l li g e n c et e c h n o l o g ya n di t sa p p li e d r e s e a r c hi nf o r m u l as u p p o r ts y s t e o r m uas u p p o r tt e m a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ee c o n o m i cd e v e l o p m e n t ,t h ea c c u m u l a t e da m o u n to fd a t a a sw e l la sc o m p e t i t i o n ,c o m p a n i e su r g e n t l yn e e d st oa c h i e v ef a s ta n d c o m p r e h e n s i v e b u s i n e s sa n a l y s i st op r o v i d ea c c u r a t ei n f o r m a t i o nf o rb u s i n e s sd e c i s i o n s ob u s i n e s s i n t e l l i g e n c e ( b ds o f t w a r es y s t e m sa r ed e v e l o p e dq u i c k l y i nt h ei n d u s t r i e sw i t hl a r g e a m o u n t so fd a t e,s u c ha sf i n a n c i a l , t e l e c o m m u n i c a t i o n s ,i n s u r a n c ea n dr e t a i l , b u s i n e s si n t e l l i g e n c eh a sb e e nh a v eal a r g en u m b e ro fa p p l i c a t i o n sa n dh a sa c h i e v e d s i g n i f i c a n tr e s u l t t h ec o r r e s p o n d i n gb it e c h n o l o g i e sa r em a t u r ea n dm a n yb i g s u p p l i e r sh a v ea l s ol a u n c h e dt h e i ro w nb u s i n e s si n t e l l i g e n c ep r o d u c t s h o w e v e r , i n t h ef i e l do fm a n u f a c t u r i n g ,e s p e c i a l l yt h ef o r m u l a t i o np r o d u c t si n d u s t r i e s ,d u et o d i f f e r e n tl e v e lo fi n f o r m a t i o n ,b u s i n e s s i n t e l l i g e n c e h a sn o tb e e nu s e dw e l l f o r m u l a t i o ne n t e r p r i s e sh a v ea c c u m u l a t e dal a r g en u m b e ro fh i s t o r i c a ld a t a , w h i c h c o n t a i n sm a n yv a l u a b l ee x p e r i e n c ea n dk n o w l e d g e e n t e r p r i s e sn e e dt od i go u tt h e k n o w l e d g ef r o mt h ed a t a ,t ot r a n s l a t et r a d i t i o n a lf o r m u l at os c i e n t i f i cf o r m u l a ,f o rt h e p u r p o s eo fs t a b i l i z i n ga n dd e v e l o p i n gt h ep r o d u c t s q u a l i t ya n de n h a n c i n gt h eb r a n d s o v e r a l lc o m p e t i t i v e n e s s b a s e do nt h ea n a l y s i so fb u s i n e s si n t e l l i g e n c e ( b df r a m e w o r ka n di t sk e y t e c h n o l o g y t h i sa r t i c l ei n t r o d u c e sab u s i n e s si n t e l l i g e n c es y s t e ms o l u t i o nw h i c h i s a p p l i c a b l et of o r m u l ap r o d u c t s t h es o l u t i o ni n t e g r a t e st ot h ec o m m o nc h a r a c t e r i s t i c o ff o r m u l ap r o d u c t si n d u s t r i e s ,f o rt h ep u r p o s eo fs t a b i l i z i n ga n di m p r o v i n gt h e q u a l i t yo ft h ep r o d u c t s ,t h r o u g h o u tt h em a i nl i n eo ft h er a wm a t e r i a la n a l y s i s , f o r m u l a t i o nd e s i g na n dp r o c e s s i n gp a r a m e t e r sa n a l y s i s t a k i n gt h ec o m p u t e r - a i d e d d e s i g ns y s t e mf o rc i g a r e t t ef o r m u l aa sa ne x a m p l e ,a n di nl i g h to ft h ea c t u a lb u s i n e s s n e e d s ,t h i sa r t i c l eg i v e st h eb u i l d i n gf l o wo f t h eb u s i n e s si n t e l l i g e n c es y s t e mf o r f o r m u l ap r o d u c ta d d e dd e s i g ns y s t e m t h i sa r t i c l ef n s ti n t r o d u c e st h ec o n c e p to f b u s i n e s si n t e l l i g e n c ea sw e l la si t sk e yt e c h n o l o g i e s ,i n c l u d i n gd a t aw a r e h o u s e ,e t l t e c h n o l o g y ,o l a pt e c h n o l o g ya n dd a t em i n i n gt e c h n o l o g ye t c a n dt h e ni ta n a l y z e s n t h ec i g a r e t t ef o r m u l as u p p o r ts y s t e ma n di t ss t r u c t u r eo fq i n gd a oc i g a r e t t ef a c t o r y u s i n gs q ls e r v e r2 0 0 5b u s i n e s si n t e l l i g e n c et o o l sa st h ep l a t f o r m ,t h es y s t e m s e n t i r ep r o c e s sa r ei n t r o d u c e d b u s i n e s sn e e d sa n a l y s i sd e s c r i b e st h et h r e em a j o r s e c t o r so fr a wm a t e r i a l ,f o r m u l a t i o na n dp r o c e s s l o g i ca n dp h y s i c a ld e s i g n i n t r o d u c e st h ed a t ew a r e h o u s e sm a i nd i m e n s i o n a lm o d e l ,i n c l u d i n gt h ed e s i g n i n go f t h ed i m e n s i o nt a b l e sa n dt h ef a c tt a b l e s e t lp r o c e s si n t r o d u c e st h ed a t ae x t r a c t i o n , t r a n s f o r m a t i o n ,l o a df e t l ) s y s t e ma n dt h eu s i n go fs s i sp a c k a g e s t h eo l a p d e s i g n i n gi n t r o d u c e st h ee s t a b l i s h m e n to fm u l t i - d i m e n s i o n a ld a t as e t ,t h ed i m e n s i o n t a b l e s ,f a c tt a b l e sa n di t sr e l a t i o n s d a t em i n i n gi n t r o d u c e sa l g o r i t h m su s m gi nt h e c i g a r e t t ep r o d u c t i o na d d e ds y s t e m ,i n c l u d i n gt h ed e c i s i o nt r e e ,a s s o c i a t i o nr u l ea n d t i m e s e r i e s f i n a l l yt h i s a r t i c l ed e m o n s t r a t e ss o m ed e m o so ft h es y s t e mi nt h e p e r s p e c t i v eo fd a t aa n a l y s i s d i f f e r e n ta n a l y t i c a lm e t h o d sa n df r o n t e n dd i s p l a ye f f e c t a r eu s e d t h i sp a p e rc a np r o v i d es o m er e f e r e n c ef o rt h eb u s i n e s si n t e l l i g e n c eu s i n gi n f o r m u l ai n d u s t r y 。 k e yw o r d s :b u s i n e s si n t e l l i g e n c e ;d a t ew a r e h o u s e ;e l l , ;o l a p ; d a t em i n i n g ;p r o d u c tf o r m u l a i i i 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 注! 如遗查墓丝益要挂型虚塑笪! 奎拦亘窒2或其他教育机构 的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。 学位论文作者签名:豸勿4 刍 签字日期:岬年月衫日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后 适用本授权书) 学位论文作者签名:参红佑 导师签字: 签字日期:加哆年月占日 学位论文作者毕业后去向: 工作单位: 通讯地址: 丁铷 签字日规铷哆年万月7 日 电话: 邮编 商业智能技术及其在配方辅助系统中的应用研究 1 1 研究背景及意义 1 1 1 研究背景 第一章绪论 近几年,商业智能( b i ) 技术得到了大量的应用并取得显著的应用效果, 相应的商业智技术也日趋成熟。国外知名的商业智能( b i ) 软件供应商相继在国 内亮相,国内的b i 厂商也纷纷推出了各自的商业智能产品,i b m 、o r a c l e 、 微软等公司纷纷推出了支持b i 开发和应用的软件系统【1 1 。目前商业智能主要应 用在金融、电信、保险、零售等数据集中程度高的行业,但在生产制造领域内, 尤其是配方产品的制造行业,由于企业信息化水平高低不齐,商业智能并未得到 很好的利用。配方产品企业积累的大量的历史数据,其中蕴含这很多宝贵的经验 和知识,企业急需从这些数据挖掘出这些知识,使传统的经验配方转变为科学配 方,以支持产品质量的稳定和提高以及新产品的开发,提高品牌产品的综合竞争 能力。 在业务需求上,随着数据库、数据仓库技术的发展,企业积累的生产数据也 呈现指数级的增长。数据积累只是一个过程,它最终的目的是从海量的数据中提 取出实用、有价值的信息,从而能指导以后的生产和决策,提高产品质量和企业 效益,使企业在激烈的竞争中站稳脚跟。对于配方行业来说,其配方产品的制造 流程大致相同,都是经过原料采购,原料的存储和加工,配方的设计以及生产线 制造等,最终的产品质量的好坏也是通过消费者或专家的感官评估情况判断的。 在整个制造过程中,包括基础原料指标数据、辅助材料规格、生产配方的组合信 息,加工过程中的工艺参数等,所有这些数据参数都会影响最终产品的质量。那 么它们之间是怎样的影响关系,怎么来描述这种影响,控制和改变哪些数据和指 标能够提高最终产品的质量,是我们值得研究和感兴趣的问题。以往只是行业专 家凭借多年的生产经验能对问题进行一定的解释,很难被其他人掌握,而且这些 经验由于缺乏科学理论依据,不能快速形成知识为大家所掌握,使相关工作人员 的业务掌握程度很慢,在一定程度上阻碍了科研的进行和新产品的开发。要想把 商业智能技术及其在配方辅助系统中的应用研究 这些产品数据内部的知识突破专家的界限,以更简单的方式呈现在所有人的面 前,让更多人掌握,需要信息技术的支持,需要完整规划的配方设计计算机系统。 在技术需求上,商业智能由业务需求的驱动而产生,由决策支持系统发展而 来。它是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据 和信息,通过数据分析和数据挖掘,来实现数据一信息一知识一决策过程的系统 实现技术【2 j o 商业智能作为一种技术架构,是目前相对成熟的支持数据分析、数 据挖掘以及决策任务的工具,在很多行业的应用已经取得了很好的效果。它可以 应用到任何需要数据分析和决策支持的系统中,因此商业智能技术可以也应该应 用到配方行业的产品质量分析和配方设计中。 商业智能系统最核心的价值不是平台,而是模型。但目前由于国内配方行业 应用b i 的企业并不多,应用深入的更少,应用基础也比较薄弱;国外配方行业 的研究也主要集中在数据分析和规律的挖掘,也没有太成熟的适用于某个配方的 行业商业智能模型,需要尽快建立各种适合行业特色的商业智能解决方案,行业 业务应用经验加上商业智能产品才是b i 的真正价值体现。 配方以产品为中心,以质量为目标,关注原料、成本等生产要素,有别于其 它的行业。商业智能技术在配方设计领域应用的目标就是通过数据整理、分析, 找出生产过程中对产品质量影响较大的关键环节,及其影响关系,从而合理的指 导工艺生产,达到稳定和提高产品质量的目的。商业智能还可以发现产品原料指 标和产品质量指标的关系,提供一种关系模型,帮助配方人员选择最佳的工艺参 数和配方比例,来指导配方改革和新产品研发。在整个产品生产的角度上看,利 用b 1 分析结果制定有关策略、规划,对资源进行合理配置,达到节约成本提高 产品质量的目的。 软件工程与智能信息系统是笔者研究方向,笔者在校期间主要研究商业智能 技术在数据分析和决策支持的系统应用,选择该课题作为毕业设计一方面是对校 学习和工作实践的系统总结,另一方面也为笔者以后在此方向的工作需要打下扎 实的基础。 1 1 2 研究意义 商业智能以及数据挖掘技术日趋成熟,但在关注产品质量的配方产品行业的 2 商业智能技术及其在配方辅助系统中的应用研究 应用却一直空缺。宝钢曾结合质量分析,应用数据挖掘技术,实现质量问题的诊 断,进入了把商业智能技术应用到生产中,但也只是在局部质量分析上的应用。 与配方产品生产相关的行业拥有大量历史生产数据,急需通过分析这些数据,挖 掘出其中隐藏的关系规律以指导产品生产,优化产品配方,提高产品质量。配方 行业的需求与商业智能的目标是一致的。 在配方产品生产中,主要任务是稳定和提高产品质量以及研发新产品。往常 配方人员开发产品通常根据经验,不断评吸、反复尝试,这种开发设计过程已经 不能适应配方行业的市场变化【3 j 。企业需要根据市场的需求快速研制新配方,推 出新产品,但配方设计一个复杂的过程。在比较传统的配方行业,比如烟草,啤 酒,中药等,一个配方中往往需要几十个不同的原料组合,而配方原料存在地区, 等级,年份等差异,而且同一个原料的内在品质也随着时间变化。品牌需要保持 自己的风味特点,只有掌握这些原料的质量随库存、时间、加工等的变化情况, 才能为配方选择恰当的原料搭配。配方产品的原料大都是农作物产品,其内在化 学成分随着高温高压等加工过程而发生变化,而这些成分是对最终产品的外观和 口感等产生影响的关键因素,怎么合理控制工艺参数,才能保持较好的产品感官, 就需要分析工艺参数变化和化学成分变化之间复杂的非线性关系。利用各种统计 技术和智能技术等数据分析方法进行规律分析是必然的途径。通过数据分析和挖 掘能提高配方设计的效率、降低成本,保持品牌风格的统一性;还可以优化原料 库存结构,指导原料的采购。 要解决以上问题,无论是对数据的分析和研究、对规律的挖掘、知识的展现 和以及模型的保存,还是结果的预测都需要通过完整的系统来实现,这样的配方 辅助系统与传统的业务管理系统不同,它主要体现在对数据的研究,对结果的展 示上,需要用到不同的库结构和系统体系结构,商业智能技术正好符合需要。 本课题以实际项目研究为背景,充分考虑企业信息化建设的现状和应用的实 际需求,以商业智能技术在配方产品行业的应用为出发点来进行讨论,能对相关 行业的产品配方辅助设计系统的商业智能应用提供一定的参考和借鉴。 3 商业智能技术及其在配方辅助系统中的应用研究 1 2 相关研究现状 1 2 1 商业智能的应用现状 商业智能在国外起步较早,已经得到国外企业普遍认同,并取得很好的应 用效果和商业价值。其在中国处于起步阶段,企业对其认识还不充分,但随着 b i 软件厂商的高调亮相和宣传以及典型的b i 成功应用案例,使其逐渐被大家所 接受和期待。 2 0 0 8 年9 月第三届中国r r 技术趋势大调查活动中对商业智能技术做了连续 调查,调查数据表明,已经有6 0 以上的企业开始了商业智能项目的开发和应用 ( 没有从事商业智能开发的企业和个人比例为3 1 ,0 7 年没有从事商业智能项目 开发的企业或个人比例为4 7 7 1 。虽然这已经是一个很不错的比例,然而,从 诸多调查数据中可以看出,商业智能应用实际上并没有像业界预测的那样,产生 井喷式的增长。传统的数据库应用包括数据处理和存储等依然在数据库应用中占 据较大的比例。简言之,目前还存在诸多因素阻碍商业智能应用在企业开展。 巨大的市场潜力,已经吸引m i c r o s t r a t e g y ,b u s i n e s s o b j e c t s ,c o g n o s 等不少 国际知名的商务智能软件厂商进入我国,还吸引了与其相关方面的分析软件公司 如甲骨文、s a p 等公司,国内金蝶、用友等厂商也推出了相关产品【5 】。 国内的商业智能大多应用电信、金融、航空等信息化程度偏高的行业,这 些行业无论是在历史数据积累还是在对客户需求的把握程度上,都存在一定的共 性被广泛关注。而配方行业由于分析角度的不同和高层重视程度的不够,商业智 能的应用还属于摸索阶段。 1 2 2 配方产品分析现状 以食品、酒类、医药、烟草等为例的配方产品已经有了很长的发展历史, 但其数据分析还处于较低的层面,企业信息化水平也是相对薄弱。其中主要原因 一是这些都是传统行业,对配方改变需求不大,甚至有的以祖传配方为宝;二是 配方非常复杂,配方内在的数据关系很难用有效的数学模型来表现。 目前配方行业的数据分析主要通过使用通用的统计及数据分析软件,如 s p s s 、w e k a 、s a s 、m a t l a b 等,针对特定的分析需求进行单独的数据分析 4 商业智能技术及其在配方辅助系统中的应用研究 1 3 j 。这种分析方法有许多不足:它需要专业的统计分析人员来做,其结果也需要 专业人员来解释;而且这种分析方法的分析结果得不到系统的保存和管理,存在 大量精力浪费;有时很难从业务数据库中构造出需要的数据格式;分析结果不系 统,很难从产品的全局把握。以上种种问题表明,要对配方数据做更好的研究和 分析,必须建立专门的配方辅助设计系统,针对行业内的主要问题,进行专业化 设计,专业化分析,并对分析的结果进行保存,以便随时利用。 1 3 本文主要工作及论文结构 1 3 1 本文主要工作 本文在分析商业智能概念及其关键技术的基础上,以卷烟配方辅助设计系统 为例,并以s q l s e r v e r2 0 0 5 商业智能工具为平台,阐述了商业智能技术在配 方辅助系统中的应用,以及建立配方行业商业智能系统的系统设计和流程。包括 配方产品的主要业务分析和维度建模;系统的需求分析、数据仓库逻辑设计以及 物理设计;数据仓库的数据集加载以及数据抽取、转换、加载( e t l ) 系统的建 立;o l a p 多维数据集的设计和分析,包括建立事实表、维度表及其关系;数 据挖掘高级分析的挖掘结构和模型建立和部署等主要商业智能技术。最后展示了 卷烟配方辅助系统的应用效果,介绍了各种数据分析方法的使用,以及多种商业 智能前端展示技术,充分展示了配方分析的工具和方法。 本论文所述卷烟配方辅助系统是来自具体的企业级应用项目,在该项目中, 作者本人参与了商业智能模块的设计和开发,重点是对e t l 数据转变包的编写 以及对数据挖掘算法的使用和模型调用等工作。 1 3 2 论文结构 本文共分为五章: 第一章指出了本文的研究背景、意义、相关研究现状以及本文的主要工作 和文章结构 第二章重点讲述了商业智能概念及其关键技术,包括数据仓库,多维数据 分析,数据挖掘,e t l ,前端展示等 5 商业智能技术及其在配方辅助系统中的应用研究 第三章详细分析了卷烟配方辅助系统的系统架构和商业智能应用设计流程 第四章展示了商业智能技术在卷烟配方辅助系统中的应用效果 第五章总结了全文,并指出商业智能技术在配方行业辅助设计系统的应用 存在的问题和改进建议。 6 商业智能技术及其在配方辅助系统中的应用研究 第二章商业智能及其关键技术 2 1 商业智能概述 2 1 1 商业智能的概念 g a r t n e rg r o u p 与1 9 9 6 年最早提出商业智能( b u s i n e s si n t e l l i g e n c e ) 的概念,当 时将商业智能定义为一系列的概念和方法,通过应用基于事实的支持系统来 辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方 法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分 发到企业各处 4 , 5 , 6 1 。 商业智能以数据库技术为支撑,包括数据提取、转换和加载( e t l ) ,联机分 析处理、数据挖掘和商业模型等,其发展先后经历了事务处理系统( t p s ) 、高级 管理人员信息系统( e i s ) 、管理信息系统( m i s ) 以及决策支持系统( d s s ) 等阶段, 最终成为企业商业智能。 对商业智能目前还没有准确的定义,不同的组织给出了不同的理解【5 1 。 d a t aw a r e h o u s ei n s t i t u t e 认为“商业智能是将数据转换成知识并将知识应用到 商业行为上的一个过程 。 g a r t n e r g r o u p 认为“商业智能是将数据转换成信息的过程,然后通过发现将 信息转化为知识 。 i b m 则认为商业智能是指一种能力:通过智能地使用数据财产来制定更好的 商务决策。 以上从不同的角度给出了商业智能的定义,但都没有阐述其本质。 商业智能被认为是将数据转化为知识,帮助企业做出业务决策的工具。 为此目的,引需要利用数据仓库、联机分析处理( o l a p ) 工具和数据挖掘 等技术。从技术上讲商业智能只是以上技术的综合运用,所以商业智能应 该被看成是一种解决方案,商业智能的关键是从许多不同的企业运作系统 数据库中提取出有用的数据并经过抽取( e x t r a c t i o n ) 、转换 ( t r a n s f o r m a t i o n ) 和装载( l o a d ) ,合并到企业数据仓库里,从而得到 企业数据仓库的总体视图,并利用适当的查询和分析工具、数据挖掘工具、 7 商业智能技术及其在配方辅助系统中的应用研究 o l a p 工具等对其进行分析和处理,将数据展示出的知识展现给决策者,决 策过程提供支持。 2 1 2 商业智能的研究内容 商业智能的研究主要集中在三个方面:支撑技术的研究、体系结构的研究、 应用系统的研究。 ( 1 ) 支撑技术的研究。商业智能是一个跨学科领域,主要借助两大学科的成果, 一是计算机技术,其中关键是数据仓库技术和数据分析以及数据挖掘技术;另一 个是企业管理方面的进展。计算机技术为商业智能系统能够提供技术支撑;企业 管理理论为商业智能系统提供业务动力。 ( 2 ) 体系结构的研究。一般认为商业智能系统主要包括数据预处理、建立数 据仓库、数据分析及数据展现四个主要阶段,而数据仓库、o l a p 和数据挖掘技 术是商业智能的三大关键技术。一般认为商业智能( b i ) 系统的架构如图2 - 1 所示。 图2 - 1 商业智能系统架构 ( 3 ) 应用系统的研究。各个应用领域所面临的决策问题的分析是应用系统的 研究的重点。商业智能被应用到企业运营过程的各个领域,并且已经形成其特有 体系。对一般企业来说,商业智能可以实现以下作用【6 】:帮助企业了解本身的运 营推动力和异常情况,协助用户清楚产品未来趋势;衡量绩效指标,追踪并管理 企业运行的关键性能指标;改善和加强客户关系;掌握各种商务信息挖掘利润增 8 商业智能技术及其在配方辅助系统中的应用研究 长点。 2 1 3 商业智能的实施步骤 商业智能系统的实旌涉及企业运作管理、信息系统、数据仓库、业务数 据分析、数据挖掘等知识。即需要选择合适的商业智能工具,还必须按照 正确的步骤实施,商业智能项目可分为以下步骤。 ( 1 ) 需求分析:需求分析是商业智能实施的第一步,必须明确定义企业 对商业智能的期望和需求,包括分析的主题,查看的角度( 维度) ,业务需求 和用户的要求等。 ( 2 ) 数据仓库建模:通过需求分析,将企业中的数据按照主题归类,建 立企业数据仓库的逻辑模型和物理模型,并设计b l 系统的架构。 ( 3 ) 数据抽取:必须将数据从业务数据库加载到数据仓库中, 并在加 载过程中进行转换、清洗,以保证数据的正确性和可用性。 ( 4 ) 业务系统的开发:主要是根据业务需求,对数据仓库中的数据进行 各种数据分析和展示,主要包括多维数据o l a p 分析和数据挖掘,以及建 立商业智能分析报表系统及门户。 ( 5 ) 系统改进和完善:根据系统使用情况和用户反馈信息,对商业智 能系统按照上述步骤对系统进行重构或完善。 2 1 4 商业智能的发展趋势 从应用和技术需求上看,商业智能的发展趋势可以归纳为以下方面【9 1 。 功能上具有可配置性、灵活性、可变化性。b i 系统的使用范围从特定部门到 企业所有用户,其业务多样化,需求格式不同,展示方式也各有变化,对b i 系 统在配置和灵活上提出了要求。 解决方案更开放、可扩展、可定制。b i 系统在原有方案基础,根据企业的独 特需求,增加个性化设置的接口和扩展特性,使系统更加灵活而且扩大了使用范 围。 从单独的商业智能向嵌入式商业智能发展。即把商业智能组件嵌入到企业现 有的应用系统中,使事务处理系统具有商业智能的分析特性。如s a p 的e r p 就 9 商业智能技术及其在配方辅助系统中的应用研究 嵌套了b u s i n e s so b j i e c t 的商业智能产品,其它公司也有类似的合并,这是商业智 能应用的一大趋势,。 从传统功能向增强型功能转变。商业智能增强功能是相对于s o l 查询来说 的,而企业建模、多维数据处理、数据挖掘以及数据预测等功能可以提高系统的 可用性和智能性,通常被看作b i 系统的增强功能。 从市场前景来看,商业智能将面临b i 提供商的合并;从战略型商业智能向操 作性或实时性商业智能转换;以及更加智能和成熟的分析工具和展现工具等改变 i 羽。 2 2 数据仓库 数据仓库是商业智能系统的基础,以往的数据库系统主要用于事务处理,很 难或无法实现分析处理。近年来,越来越多的数据分析与决策信息支持在被企业 所重视,数据仓库技术应运而生。 2 2 1 数据仓库的定义 目前对于数据仓库还没有统一的定义,被称为数据仓库之父的b i l l i n m o n 在其著作( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中给出的定义被广泛接 受:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集 成的( i n t e g r a t e d ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策f 1 2 , 1 3 , 1 4 l 。 可以从两个层面对数据仓库的概念进行理解,首先数据仓库是面向分 析处理的,主要用来支持决策制定;再者数据仓库包含历史数据,是对多 个异构的数据源数据按照主题的集成,它的数据相对固定,不会经常改动。 2 2 2 数据仓库的特点 面向主题、集成、相对稳定、反映历史变化是对数据仓库的定义,也是对数 据仓库特点的描述,下面分别解释它们的含义。 1 0 商业智能技术及其在配方辅助系统中的应用研究 ( 1 ) 面向主题的:数据仓库的数据都是按照一定的业务主题进行组织 的,面向主题体现在数据仓库的建设中,而且还包含在业务数据分析和存 储上。 ( 2 ) 集成的:数据仓库中的数据来自各个不同的分散数据库中,它并 不是对源数据库数据的简单拷贝,而是按照划分好的主题和数据分析要求, 经过数据抽取、清理、汇总和整理等步骤,消除源数据中的错误和不一致 数据,保证数据仓库中数据的正确性和可用性,所以它是整合集成的。 ( 3 ) 相对稳定的:数据仓库的稳定性体现在它的非易失性上,由于数 据仓库是面向分析的,其中的数据是从业务数据中加载过来的历史数据, 所进行的主要操作是查询和分析,供决策分析使用,所以其修改和删除操 作很少,只需要定期的增量加载,所以具有相对稳定特征。 ( 4 ) 反映历史变化:数据仓库必须能够不断地捕捉业务系统中的变化 数据,记录企业生产过程的各个阶段的信息,以满足决策分析的需要,所 以必须实时地把新变化的业务数据追加到数据仓库中去,通过数据随时问 变化的研究和分析,可以对企业的发展历程和未来趋势做出定量分析和预 测。 可见数据仓库与业务数据库的不同之处体现在:数据库是面向事务的 设计,数仓库是面向主题设计的;数据库一般存储在线交易数据,数据仓 库存储的一般是历史数据;数据库设计是尽量避免冗余,一般采用符合范 式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来 设计;数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的 两个基本的元素是维表和事实表。 2 2 3 数据仓库与b i 关于数据仓库和商业智能的关系,在业界还存在一些分歧【1 1 】。有人从数据仓 库系统的角度考虑,认为数据仓库包含了从原始数据提取到用于见到的软件和应 用的所有内容。它和商业智能的创建步骤和目的都是一致的,它们没有本质的区 别,可以看作是一回事。还有人从静态的角度看待数据仓库,认为数据仓库仅仅 是集中式的高度规范化的数据存储,它只是为商业智能提供数据支持。 商业智能技术及其在配方辅助系统中的应用研究 不管是数据仓库还是商业智能,都是应业务分析需要而产生的,它们都不可 能脱离业务逻辑分析和业务维度分析而存在。两者是相互存在,互为条件的。不 存在脱离商业智能分析的数据仓库,也不存在没有数据仓库支持的商业智能。如 果从商业智能的角度考虑,通常认为数据仓库为商业智能的一部分,它和联机分 析处理以及数据挖掘被定义为商业智能的三个关键技术。从这个角度看,在商业 智能系统中所指的数据仓库,是数据仓库构建和填充的过程,没有包括其分析功 能,它为商业智能系统提供数据基础。 2 3 数据抽取、转换和加载( e t l ) 2 3 1 e 1 3 _ , 概念及作用 e t l 是数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 的缩写, 是完成数据从数据源向目标数据仓库转化的过程,抽取是将数据从各种原 始的业务系统中读取出来,这是所有工作的前提。转换是按照预先设计好 的规则将抽取的数据进行转换、清洗,以及处理一些冗余、歧义的数据, 使本来异构的数据格式能统一起来。装载是将转换完的数据按计划增量或 全部的导入到数据仓库中。e t l 是数据仓库、数据挖掘以及商业智能等技术的 基石【2 1 】。 e t l 是b l d w ( b u s i n e s si n t e l l i g e n c e ) 的核心和灵魂,它在商业智能 系统中占据举足轻重的作用【1 9 , 2 0 】。在整个b i 项目中最难部分是用户需求分 析和模型设计,而e t l 规则设计和实施则是工作量最大的,约占整个项目 的6 0 8 0 。可见e t l 的重要性,e t l 设计的正确性和合理性,直接影 响整个b i 项目的效率和质量。 2 3 2 数据清洗和转换 e t l 过程中最复杂的是数据清洗和转换,它通常是与业务需要和后期的数据 分析和数据挖掘直接相关的,也是b i 项目中资源密集程度最高的步骤【2 1 】。数据 清洗的目的是除去数据中的“噪声( n o i s e ) ”和不相关的信息。数据转换的目的 是将源数据的数据值与类型转换为同一的格式【冽。数据清洗和转换通常包括以 1 2 商业智能技术及其在配方辅助系统中的应用研究 下处理。 数据类型的转换:这是数据转换中最简单的任务,由需要通常将布尔类型转 换为整数类型;或连续的数据类型根据一定原则转变为离散的值;对数据进行归 一化等。 数据分组:有时可能有许多不同的值( 状态) 出现在离散列中,为了减少模 型的复杂性需要把这些值分组,例如职业可能有几十种不同的值,如软件工程师、 电子工程师、硬件工程师、顾问等,我们可以用一个“工程师来对其进行归纳, 以减少模型的复杂度。 数据聚集:聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。 比如希望通过每个客户的详细通话记录对客户进行细分,派生出呼叫次数和平均 通话时间等属性列。 离群点的处理:离群点称为孤立点,是数据集中的异常事例,这些事例是少 数的情况,但却影响一般数据分析模型的准确性,需要对它们单独进行处理。通 常情况是直接删除这些孤立点,对正常数据进行建模。但有时候对这些点的分析 却有非常重要的意义,比如信用卡欺诈检测和网络入侵检测等。 缺失值处理:从不同数据源集成过来的数据,由于多方面原因存在很多的缺 失的数据,这些空值的存在严重影响了正常的数据分析工作,必须对其进行处理。 目前有一些方法来处理这种问题,利用平均值代替或者用常见的值代替或者直接 产出带空值的记录,无论使用怎么的方法,都必须看实际业务对数据的要求和对 模型准确性的要求程度。 还有其它的数据清洗和转换任务,在具体操作中,我们需要使用相应的工具 来解决业务问题,确保数据的正确性及可用性。 2 3 3e t l 的挑战 e t l 系统是一个复杂的系统工程,虽然e t l 已经进入实用阶段,但还有许多 阻碍其应用的情况【2 3 1 。主要体现在异构数据源的结构差别和数据源数据质量方 面。e t l 的各个数据源位于不同的网络和操作系统,在数据格式定义,数据结构 和接口方面都存在很大差异,给数据提取工作带来很多的麻烦。而且现有不同数 据库系统存在无法解决的脏数据,包括命名格式不规范,滥用缩写词、惯用语、 商业智能技术及其在配方辅助系统中的应用研究 数据录入错误、数据重复、数据丢失、单位尺度不一致等。其中对数据集成和清 洗影响最大的是以下问题【2 4 1 。 ( 1 ) 数据冗余不一致。数据库系统设计时可能从方便或效率方面的考虑,将一 种数据分别保存在不同的地方别进行维护,数据的修改得不到及时的反馈和统 一,造成了数据之间的不一致,及增加了数据冗余度,也很难分辨数据的正误。 ( 2 ) 数据关联错误。由于数据库设计的不合理,很多情况下会存在数据之间的 关联和依赖,包括属性关联即两个属性分别可以由对方推导计算出来,或实体关 联即实体间使用关联属性来关联连接。这种设计方式会产生数据之间的不一致、 实体关联性丢失甚至出现实体关联错误。 ( 3 ) 数据本身错误。由于在数据库设计时没有进行数据的约束设计,或者用户输 入数据时的个人疏忽等原因造成数据源中存在不满足要求的数据。 以上问题给e t l 的设计和实施增加了不同程度的困难,有时只有牺牲数据的 准确性来达到系统效率和项目进度的要求。解决这些问题,还需要加强企业工作 过程的规范化管理,改善企业的数据库结构等,随着企业信息化水平的提高,这 些困扰e t l 实施的问题会逐渐得到改善和解决。 2 4 联机分析处理( o l a p ) 2 4 1o l 廿的理解 o l a p 是o n l i n ea n a l y t i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家政员试工期间服务跟进规范
- 长期卧床老人翻身扣背操作规范
- 体脂成分分析专业解读手册
- 种植机械调试维护管理操作规范
- 病史采集规范流程操作手册
- 颈椎牵引安全标准
- 家政服务员劳动合同签署规范
- 面部拨筋护肤与抗衰技法
- 产后修复理疗疗程方案
- 门店日常消杀卫生执行标准
- 2026江苏省铁路集团有限公司春季校园招聘笔试备考题库及答案解析
- 普通高考监考人员参考试题
- 2026广东东莞市松山湖社区卫生服务中心招聘纳入岗位管理编制外人员4人笔试备考试题及答案解析
- 2026西藏阿里地区普兰县审计局招聘审计协助人员的2人备考题库有答案详解
- 2026河南科高产业集团有限责任公司高级管理人员招聘7人笔试备考试题及答案解析
- 浙江省金华市2026年中考一模 科学卷
- 2026年广东省高三语文4月二模联考试卷附答案解析
- TSG08-2026《特种设备使用管理规则》解析
- 2025版《CSCO前列腺癌诊疗指南》全文
- 村级集体资产资源管理自治手册
- 2026年中级社会工作者《社会工作综合能力》考试押题密卷带答案详解(模拟题)
评论
0/150
提交评论