(计算机应用技术专业论文)基于商业智能的制药企业销售分析系统设计与实现.pdf_第1页
(计算机应用技术专业论文)基于商业智能的制药企业销售分析系统设计与实现.pdf_第2页
(计算机应用技术专业论文)基于商业智能的制药企业销售分析系统设计与实现.pdf_第3页
(计算机应用技术专业论文)基于商业智能的制药企业销售分析系统设计与实现.pdf_第4页
(计算机应用技术专业论文)基于商业智能的制药企业销售分析系统设计与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于商业智能的制药企业销售分析系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 如何利用科技手段准确把握药品市场供求关系,做到有针对性的制定营销策略, 保证其供应链的有效运作,对提高制药企业竞争能力、最大化的实现营销效益具有 重要意义。商业智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 提供了一种将数据转变为信息 与知识的技术,可以有效地利用企业常年积累的大量的历史数据进行分析、决策。 本论文以开发某制药企业医药销售分析系统项目为依托,深入分析和研究了商 业智能在医药销售分析中的应用。首先,本文在医药销售分析的理论基础上,详细 调研了该公司对决策分析的不足,研究了商业智能理论与关键技术,为销售分析的 多维数据模型及分析模式的建立奠定了基础。其后,提出了一套基于商业智能的医 药销售分析解决方案,即对相关业务的源数据进行转换、清理和装载,建立销售分 析数据仓库;构建多维数据模型,实现了对销售情况的多维联机在线分析及前端展 现应用。目前,以本文提出的b i 体系架构的医药销售分析系统已在该企业初步试用, 在实际工作中,已能够准确分析药品的销量情况,并考核各部门销售业绩,为辅助 公司管理层进行战略决策起到了重要作用。 本论文紧密结合项目建设的实施过程,以商业智能的设计原则为指导,主要利 用数据仓库、o l a p 技术对医药销售分析系统的设计和应用研究进行了阐述。 关键词商业智能;数据仓库;多维分析;医药销售分析 河北科技大学硕士学位论文 a b s t r a c t h o wt ot a k em e a s u r e st oi m p r o v ec o m p e t i t i v e n e s sa n dg e tt h el a r g e s tm a r k e t i n g e f f i c i e n c ya r ev e r yi m p o r t a n tt ot h ep h a r m a c e u t i c a le n t e r p r i s e s ,w h i c hn e e du t i l i z i n g s c i e n c ea n dt e c h n o l o g yt og e ta na c c u r a t et e n d e n c ya n dc h a r a c t e r i s t i co fs u p p l y d e m a n d r e l a t i o n so fm e d i c i n em a r k e t b u s i n e s si n t e l l i g e n c e ( b i ) h a sp r o v i d e de f f i c i e n tm e t h o d s i t f u n c t i o n st ot r a n s f e rd a t ai n t oi n f o r m a t i o na n dk n o w l e d g e ,r e s u l t i n gi n a n a l y s i sa n d d e c i s i o n m a k i n gw i t l lt h el a r g ea m o u n to fa c c i d e n td a t aa c c u m u l a t e dy e a rb yy e a r t h i st h e s i si sb a s e do no n ep r o j e c to fp h a r m a c e u t i c a le n t e r p r i s e sn a m e dm e d i c i n e s a l e sa n a l y s i ss y s t e m ,a n a l y z i n ga n dr e s e a r c h i n ga p p l i c a t i o no fm e d i c i n es a l e sa n a l y s i s b a s e do nb i f i r s t ,t h i st h e s i sb a s e do nm e d i c a ls a l e sa n a l y s i st h e o r y , s t u d i e st h e i n a d e q u a t eo fd e c i s i o na n a l y s i s f r o mt h i s c o m p a n y , s t u d i e s b i st h e o r ya n dk e y t e c h n o l o g i e s ;e s t a b l i s ht h ef o u n d a t i o n sf o rm u l t i p l ed i m e n s i o nm o d e la n da n a l y s i sm o d e l o fm e d i c i n es a l e s s e c o n d ,as e r i e so fs o l u t i o n sa b o u tm e d i c a ls a l e sa n a l y s i so fb i t e c h n o l o g yi sp r e s e n t e d ,s u c ha se x t r a c t ,t r a n s f o r m a t i o na n dl o a d i n go fr e l a t e dd a t a ,s e t u p d a t aw a r e h o u s eo fm e d i c i n es a l ea n a l y s i s ,a sw e l la se s t a b l i s h m e n to fm u l t i p l ed i m e n s i o n m o d e lt om a k eap r a c t i c a lu s eo fm e d i c i n es a l e so l a ps t a t i s t i ca n a l y s i sa n d f r o md i s p l a y a tp r e s e n t ,t h er e s e a r c hr e s u l to ft h et h e s i sh a sa p p l i e dt ot h ec o m p a n y , w h i c hs h o w st h i s s y s t e mi sa b l et oa n a l y z ep r o d u c ts a l e s ,e v a l u a t i o nd e p a r t m e n t sp e r f o r m a n c e i tp l a y e da n i m p o r t a n tr o l eo nm a n a g e m e n td e c i s i o n m a k i n g t h i st h e s i sc o m b i n a t i o n sw i mp r o j e c ti m p l e m e n t a t i o na n di sg u i d e du n d e rd e s i g n p r i n c i p l eo fb u s i n e s si n t e l l i g e n c e i ti l l u s t r a t e st h ed e v i s ea n da p p l i c a t i o no fb is y s t e mo f m e d i c i n es a l e s ,t h e ya l ed a t aw a r e h o u s e ,o l a p k e yw o r d sb i ;d a t aw a r e h o u s e ;o l a p ;m e d i c i n es a l e sa n a l y s i s i i 河北科技大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发 表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:建博、 0 方年2 月c f 日 指导教师签名:彳粥 d6 年f 2 月9 日 河北科技大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 口保密,在一年解密后适用本授权书。 本学位论文属于 留不保密。 ( 请在以上方框内打“4 ) 学位论文作者签名: 走茸 指导教师签名: 0 豸年1 2 刖日【) 弓年1 1 月c 7 日 第1 章绪论 第1 章绪论 1 1 课题研究的背景及意义 医药行业属于特许经营行业,由于其生产的相对简单和营销的相对复杂,形成 了整体偏向于以顾客为中心、以营销为主体的销售管理模式。企业的营销能力是企 业发展的关键。在这种情况下,要合理的进行决策分析、制定商业战略,就必须要 有大量的,准确的数据进行分析。 目前,国内的大中型制药企业纷纷进行了信息化建设,对于e r p ( e n t e r p r i s er e s o u r c ep l a n n i n g ,企业资源计划) 的应用已经积累了一定经验,在多 年的运营中积累下了丰富的数据资料【i 】。但是,很多企业在实施e r p 项目后,缺乏 合理的数据分析手段,领导层仍然需要通过层层上报的手工报表了解企业经营状况。 造成企业运营中产生的有价值数据没有得到合理的规划使用。在企业决策的层面上, 这将直接导致企业数据资产价值的贬值,对企业长久发展产生不利的影响。 由此看到,传统分析方法是难以实现营销效益最大化的目标,必须依靠先进的 技术手段,通过科学的决策才能实现。因此,基于商业智能的医药销售分析系统的 研究开发就显得十分必要。该系统的研究开发和运用,必将为制药企业销售部门的 日常营销分析提供深入的指导方案,对合理制定原材料的采购计划、药品生产计划、 安排销售配额计划,都有着十分重要的现实意义;其次,先进的信息手段也必将对 传统的领导决策方式和管理手段带来深刻变革,极大地提高制药企业在同行业内竞 争能力,为企业的跨越式发展提供强大的动力。 本课题以为河北省石家庄市某大型制药企业开发的医药销售分析系统作为选题 背景,该企业在较长的经营期间里企业积累了大量的营销数据和文档,这些数据必 然包含了长期以来市场的供求变化和价格变动的信息。本课题的医药分析系统是以 该企业实施的企业资源计划系统数年的生产数据作为数据来源,从中抽取分析相关 数据,希望通过对这些数据的整理和分析能够发现有用的信息,使之成为确定市场 策略,改善经营方针、提高销售利润、建立友好客户关系的决策依据。 1 2国内外现状分析 1 2 1 药品销售的特点 在国外,大规模医药公司般年销售金额均在于2 0 亿美元以上,美国的医药企 业通过不断兼并,历经洗礼,形成了r i t e a i d 、w a l g r e e n 、c v s 三寡头垄断的状况, 这3 个公司的零售额占全美的医药零售总额的6 0 ;批发企业业务则主要由 河北科技大学硕士学位论文 m c k e s s o n 和c a r d i n a lh e a l t h 两大公司主导。全美批发商平均毛利率4 5 ,平均费用 率只有2 9 ,由于采用代理配送制,实行统一的科学管理,效率高,整体实力强。 我国医药销售企业在计划经济时期,划分全国一级医药采购供应站、地区二级 药品批发企业县( 市) 三级批发单位及各药品零售单位。改革开放以后,这一逐级 调拨供应体系被冲垮,被多渠道、少环节的药品购销体系所代替,且竞争激烈。到 目前为止我国现有药品批发企业有1 2 万家,零售企业有1 1 5 万家。 由于医药行业属于特许经营行业,从企业外部来看,传统的医药分销体系呈金 字塔形结构,药品必须通过具有特许经销权的药品批发商( 省市医药公司) 分销到 药店、医院,形成独特的分销体系,该体系环节多、层次多、信息沟通不畅;从企 业内部来看,整个结构体系自上而下包括了总部销售副总、大区经理、地区经理、 销售主管和医药代表,销售渠道广,销售链长。国内医药企业经营成本高,信息化 水平低,流通效率低,导致经济效益差。据统计,全国平均流通费用率为1 2 5 6 , 销售利润率小于1 。同时,覆盖全国性的医药企业极少,总体格局为各自为政, 分散经营,规模化不够,网络化不够,呈现“多、小、散、乱”的格局。具体表现在以下 几个方面【2 】: 1 ) 医药销售组织结构不合理。由于药品经营企业多,企业规模一般较小,据统计 最大的药品批发企业年销售额为6 0 多亿元,年销售额达到5 亿元的批发企业不到1 0 0 家。而且,网点分布在城乡之间以及经济发达与落后地区间分布也不平衡。 2 ) 医药市场流通秩序较为混乱,无序竞争、过渡竞争现象严重。主要表现在一些 企业违规经营,一些地方开办或变相开办药品集贸市场,药品交易行为不规范,医 药市场存在着地区封锁等。 3 ) 多数企业市场开发能力和市场服务能力较弱。 医药行业所销售的药品种类繁多,一般分为中西药品、医疗器械、中成药、中 药材和原料药等。每一大类下又有若干小类。其主要特点有1 3 j : 1 ) 药品品种数目繁多。国家对药品品种没有统一编码,要想从上万种商品中查找 某一种产品所费的时间和精力极大。 2 ) 严格控制药品有效期。药品作为一种特殊的商品,时效性强。需要严格控制其 有效期,对批次号的管理要求严格,而手工管理很难做到及时、准确。 3 ) 销售模式特殊。医药产品作为一种特殊产品,其销售模式也较特殊,即通常所 说的“三角账 。销售顺序是:厂家将医药产品发货给批发站;批发站又将医药产品 发货给医院。相应的资金流动方向相反:医院将产品全部或部分卖出后与批发站结 款;批发站收款后再与厂家结算。退货又是与此相反的过程。这种复杂的处理流程 是手工操作很难胜任的。 4 ) 流通业务量大。由于药品品种多、客户数量多,造成业务量很大。同时,随着 2 第1 章绪论 药品货物数量的增加及出入库频率的剧增,难以准确的进行统一管理,致使仓储管 理准确率和效率降低,同时财务及管理部门所需的各种经营数据及经营分析报表无 法及时得到。 1 2 2 医药企业信息化现状 在国外,医药企业的运营,信息化程度非常高,公司的客户管理、销售管理、 库存管理、行政管理、财务管理等通过计算机完成,为公司提供了科学决策的依据 和准确、快速运行的保证,从而提高了公司的经营效益。同时能更好地为生产企业、 消费者提供服务。 在我国,医药行业的业务管理、财务处理、信息处理等长期以来一直采用手工 操作。9 0 年初,医药行业以药医分离、连锁经营、g s p 达标为标志,逐步封闭了近 5 0 年的药品流通四级批发制被完全打破。同时,信息系统的应用也逐年加快。 在过去的十几年里一些实力强劲的大型药厂先后斥巨资引进了具有世界领先水 平的e r p 系统1 4 j 。体现了现代化信息技术和现代先进管理思想结合的e r p 系统,是 企业实现发展策略的必不可少的强大工具【5 ,6 】。 e r p 的应用可以为企业产生有价值的数据信息,但e r p 是一种基于o l t p ( o n l i n e t r a n s a c t i o np r o c e s s i n g ,联机在线处理) 的企业信息系统,由于其数据库和应用软件技 术长期偏向于面向事务,在信息分析领域存在着不足,与企业高层经理人员的决策 分析要求还存在着一定的差距【_ 7 1 。为了缓解上述原因造成的问题,客户化的查询报 告功能、标准的电子表格、关系数据库和图形展现等被越来越多的应用于信息分析。 然而,这些解决方案大都是由i t 部门设计和修改的,往往很难理解最终用户的 特殊需求。治标不治本。甚至,很多企业在成功部署集团的e r p 系统后,领导层仍 然需要通过层层上报的手工报表了解企业经营状况。这就需要采用更先进的技术与 方法辅助领导层进行决策分析。 在制药企业销售部门分析过程中,传统意义上的销售分析方法主要建立在分散 的业务系统数据库信息系统的信息查询和数据统计上,主要存在的缺点有:应用的 技术落后,灵活不强,只是对信息进行简单低层次的分类、统计和对静态信息资料 的积累;数据集成度不高,信息分析资源还未实现广泛共享;计算性能较弱,统计 方法无法提供相应的数据处理和分析能力;设计模式单一。 1 2 3 商业智能国内外研究动态 商业智能( b u s i n e s si n t e l l i g e n c e ,简称b i ) 是由g a r t n e rg r o u p 于1 9 9 6 年提出来的, 其定义为:b i 是一类由数据仓库( 或数据集市) 、查询报表、数据分析、数据挖掘、 数据备份和恢复等部分组成的、以帮助企业决策为目的的技术及其应用。一般我们 可以认为商业智能是一系列概念、方法和过程的综合,通过这些概念、方法和过程 3 河北科技大学硕士学位论文 来获取和分析数据,提取有用信息,帮助更好的进行决策,特别是战略决策【8 9 1 。 根据i d c ( i n t e m a t i o n a ld a t ac o r p ) 最新的研究报告称,2 0 0 6 年商业智能系统的市 场规模将翻倍且在世界范围超过1 4 0 亿美元,而亚太地区b i 解决方案市场将达3 3 亿美元,这是目前市场价值1 2 亿美元的近3 倍。业界许多提供软件平台和工具平台 的大公司通过多年与企业的交流,己经认识到企业对商业智能的迫切需求,纷纷加 入到从事商业智能的研究与开发上来。i b m 建立了专门从事b i 方案设计的研究中心, o r a c l e ,微软等公司纷纷推出了支持b i 开发和应用的软件系统,有的直接进入了b i 的开发领域。据市场分析员介绍,b i 己经成了企业信息技术最为重要并且极具潜力 的领域。 在国外,商业智能发展成熟,已有很多实施商业智能的成功案例:a t & tu n i v e r s a l 公司通过部署商业智能解决方案,每年减少信用卡欺诈额高达8 0 0 1 万美元;c a d b u r y 巧克力公司借助商业智能使市场份额很快从2 8 提升到了3 0 :美国第二大银行一 花旗银行( c i t i b a n k ) 在b i 系统的帮助下,能够有效分析其分布于5 7 个国家的客户和 信息。 在国内,已经有不少国际商业智能公可进入中国,其中有m i c r o s t r a t e g y , b u s i n e s s o b j e c t s ,c o g n o s 等国际知名的传统的商业智能软件厂商,也有一些著名的企业管理应 用软件厂商投资于分析软件【1 0 ,】。国内本地如用友、金蝶、创智等厂商近期也推出 了这类产品。 由于b i 实施普遍耗资大、周期长、风险高、见效慢等因素,造成商业智能很少 应用于制药企业的医药销售领域。同时由于b i 以数据为基础,在有丰富数据源一些 行业应用突出,比如金融、保险、银行等行业。基于医药销售企业对b i 的强烈需求, b i 在销售领域尚有很大的发展空间,b i 在医药销售的应用主要体现在销售营销方面 采取更主动的行动以吸引客户,及时订货和补货,实时了解供应商和代理商的情况, 优化调度、配送和运输过程,实现低库存水平等方面。目前国内的b i 应用仍然存在 许多问题,主要表现在数据分析、知识发现能力、效率低,或者缺乏知识发现,而 更像一个操作型应用系统。很难在决策支持方面发挥b 1 应有的作用。首先应该认识 到b i 发展、应用的总体趋势,其次多借鉴国外b i 成熟的技术和方法,开发或不断 完善真正意义上的b i 系统。相信本文对国内医药销售b i 系统的研究开发会有启发。 1 3 本文主要研究内容 本课题通过研究河北省石家庄某大型制药下属某销售公司的经营现状,分析了 该医药销售企业所面临的重要难题,并以开发药品销售分析系统作为背景,利用商 业智能解决其现有的难题。在对商业智能的理论技术进行深入研究后,建立相应的 数据仓库与数据分析平台,实现医药销售情况分析、查询的方便与快捷,并为医药 4 第1 章绪论 销售决策人员提供数据分析和决策支持。其核心是建立数据仓库,并在该数据仓库 基础上制定相应的营销措施。 在完成上述任务的过程中,本课题重点论述了商业智能技术在数据集成、信息 分析及的设计和应用过程,主要内容有以下几个方面: 1 ) 研究了医药销售企业所面临的难题,对该公司e r p 系统应用现状的进行了详 细的调查与研究,深入的研究分析现有e r p 数据源资料。 2 ) 设计并实现数据源到数据仓库的e t l ( 抽取、转换、加载) 应用。完成了一种数 据提取方案,该方案利用缓冲区技术实现了数据从e r p 到多维数据库的加载。 3 ) 研究基于数据流的多层次的订单分析数据仓库系统架构,并面向销售主题,依 据数据仓库迭代式开发步骤建立了数据仓库模型,构建了基于数据仓库的多维立方 体模型。 4 ) 利用o l a p 技术,对销售数据进行数据分析,能高效的获取利润、部门业绩 等信息,并通过前端展现界面呈现给决策人员。 1 4 论文结构安排 本文的主要内容来自于项目实施过程中所用到的知识、在系统设计过程中所采 取的方法和研究实现步骤。本文的结构组织安排如下: 第1 章是绪论,主要介绍本论文的研究意义和背景,以及本论文的研究目的和 研究内容。 。第2 章介绍了商业智能理论及其主要技术,并对其应用范围进行探讨。分析了 商业智能在企业信息系统中的地位与作用 第3 章根据该医药销售企业的实际情况,结合当前面临的销售分析问题,提出 相应的需求与解决方案。 第4 章依据商业智能的设计原理,提出具体设计方案,主要包括e t l 的设计, 数据仓库的数据模型选用,并阐述了该医药销售公司的星型销售数据仓库的设计方 法。 第5 章通过实际的系统上线情况和运行数据,分析验证了论文方法可以满足医 药销售企业对处理当前重要问题的决策支持的要求。 最后是本文的结论。 5 河北科技大学硕士学位论文 第2 章商业智能理论及其应用范围的界定 2 1 商业智能的发展阶段 商业智能( b i ) 是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策 者获得知识和洞察力,促使他们做出对企业更有利的决策。 从技术的演进看,b i 的出现是一个渐进的、复杂的演变过程,而且仍处在发展 之中,它经历了事务处理系统、管理信息系统、决策支持系统和专家系统等阶段, 最终演变成今天的企业商业智能系统。 在这期间,企业一直在寻找对商业智能的理解和实现的方式,以增强企业的竞 争力【12 1 。早在8 0 年代,当时“商业智能”的标准是能容易地获得想要的数据和信息; 9 0 年代是商业智能真正起步的阶段;到目前为止,关于b i 还没有统一的定义,不同 的人只是从不同的方面表达了对b i 的理解。早在9 0 年代初,g a r t e rg r o u p 的h o w a r d d r e s n e r 把终端查询和报表、d s s ( d e c i s i o ns u p p o r ts y s t e m ,决策支持系统) 。 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,联机在线分析) 称为商业智能【l3 ,h j 。企业使用这 些工具使企业获得的优势也被称为商业智能。后来,出现了数据仓库、数据集市技 术,以及与之相关的e t l ( e x t r a c t i o n t r a n s f o r m a t i o n l o a d i n g ,数据抽取、转换和加载) 、 数据清洗、数据挖掘、商业建模等,人们也将这些技术统归为商业智能的领域。目 前,存在将商业智能与数据仓库和基于数据仓库的分析方法等同起来的认识趋势。 第一代b i 平台是在1 9 9 2 年至1 9 9 3 年所开发的基于c l i e n t s e r v e r 模式的固定报 表工具;第二代是在c l i e n t s e r v e r b r o w s e r 三层模式环境下的b i 工具,尽管强化了 查询功能,但各个工具之间仍相互独立;2 0 0 0 年之后出现了n 层模式,用户的需求 也越来越复杂。目前提出的第三代b i 是在报表、查询的基础上,增加了用于分析的 指标模型、整合信息孤岛平台的信息门户和全方位满足用户的数据挖掘能力。 在决策支持系统基础上发展b i 成为必然,在统一的平台上,企业能对组织内外 的人员方便的发送信息,包括员工、供货商、合作伙伴、客户,伴随基于因特网的 各种信息系统在企业中的应用,企业将收集越来越多的关于客户、产品及销售情况 在内的各种信息,这些信息能帮助企业更好地预测和把握未来。随着因特网的迅速 拓展,企业的数据来源也近乎爆炸式的增长,企业好像是坐在数据金矿上,迫切需 要一种工具挖掘出这些数据金矿以创造更高的利润。 在决策支持系统基础上进一步发展起来的b i 能够向用户提供更为复杂的商业信 息,可以更为方便地定制各种报表和图表的格式,能够向行政管理人员、技术人员 和普通员工提供个性化的多维信息,使分析处理信息的能力和信息的利用率大为提 6 第2 章商业智能理论及其应用范围的界定 高。例如:当用户想了解销售情况时,可以得到按产品、产品地区、产品地区客户 分类的零售销售和经销商销售的各种样式的分析报告。在此基础上,可以进一步解 决企业决策时需要了解的各种问题,并帮助企业更快、更好地制定和做出决策。 2 2 商业智能相关技术介绍 商业智能技术是一系列先进信息技术的总和,在本文的研究范围内,采用的主 要技术主要包括数据仓库与联机在线分析( o l a p ) 。 2 2 1数据仓库 实施b i 的前提是将来自企业业务系统和外部环境中的种种数据进行收集合并, 这就离不开数据仓库的支持,数据仓库是一切b i 系统的实施基础。 数据仓库技术是近年来计算机学科的技术热点之一,它在生产实践的应用中取 得了明显的经济效益,体现了强大的竞争活力。随着数据库技术的应用和发展,人 们尝试对数据库中的数据进行再加工,形成一个综合的,面向分析的环境,以更好 支持决策分析,从而形成了数据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 1 1 5 】。 ( 1 ) 数据仓库的特征 数据仓库概念的创始人w h i n m o n 在建立数据仓库一书中指出:“数据仓库是面 向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策 制定过程【1 6 1 。 数据仓库是指从多个数据源收集的信息,以一个一致的模式存储起来所得到的 数据集合。在构造数据仓库时,要经过数据清理、数据转换、数据集成、数据装入 和定期数据刷新等过程。其具有如下四个特征【1 7 】: 1 ) 面向主题性:主题是一个抽象的概念,是一个在较高层次将数据归类的标准, 每一个主题对应一个宏观的分析领域,也是用户使用数据仓库进行决策时所关心的 重要方面,一个主题通常与多个操作型信息系统相关。数据仓库中的所有数据都是 围绕着某一主题组织,数据仓库的创建、使用都是围绕着主题实现的。 2 ) 数据集成性:数据仓库实现数据由面向应用的操作型环境向面向分析的数据仓 库的集成。数据仓库中的数据来自多个异种数据源,如关系数据库、一般文件和联 机事务处理记录等。由于各个应用系统在编码、命名习惯、实际属性、属性度量等 方面不一致,当数据进入数据仓库时,要采用某种方法来消除这些不一致性。 3 ) 数据历史性:操作型数据库主要关心当前某一个时段内的数据,而数据仓库中 的数据通常包含历史信息,系统地记录了企业从过去某时间点到目前的各个阶段 的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 4 ) 数据非易失性:是指数据仓库中所存放的数据在物理上是分离的。由于这种分 离,数据仓库不需要事务处理、恢复和并发控制机制。在数据仓库环境中并不进行 7 河北科技大学硕士学位论文 一般意义上的数据更新,它只需要两种数据访问:数据的初始化装入和数据访问。 概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的 物理实现,并存放企业战略决策所需信息。为此,数据仓库也常常被看作是一种支 持结构化和专门的查询、分析报告和决策制定的体系结构。 ( 2 1 数据仓库的组织结构 1 ) 数据集市:数据集市可以理解为数据仓库的子集,它面向更详细的业务主题。 数据集市中的数据大多通过汇总而成,而不是详细的业务数据。数据集市一般作为 局部数据仓库或部门级数据仓库。 2 ) 粒度:粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就 越小,级别也就越低;数据综合度越高,粒度就越大,级别也就越高。粒度的具体 划分将直接影响数据仓库中的数据量以及查询质量。数据仓库中的数据粒度可以根 据应用的需要采取单一粒度形式或多重粒度形式。 3 ) 数据分割:数据分割指把逻辑上整体的数据分割成较小的、可以独立管理的物 理单元进行存储的方法。使用数据分割能够便于数据的重构、重组和恢复,以提高 创建索引和顺序扫描的效率。数据分割有几种策略:水平分割、垂直分割和硬件式 分割。水平分割主要包括:以时间为基准将数据分割成相等或不相等的区块;以某 一维度为基准来分割数据;将数据分割为相同大小的区块。垂直分割是将事实表中 的某一个字段和某些字段做纵向的筛选,而成为一个数据分割。硬件式分割是采用 多硬件平台,将数据分割至不同的硬件平台上。 3 ) 数据聚集:聚集是数据仓库系统的必备内容,它与分析型应用的需求密切相关, 它是数据仓库数据建模的后期工作,是基本事实表和维表设计工作的延续。所有的 数据仓库都包据的聚集。在数据仓库中,进行数据的聚集是减少o l a p 分析的数据 量及提高查询效率的最重要的办法。 4 ) 数据组织:数据仓库中的数据通常采用分级的方式进行组织,包括高度综合级、 轻度综合级、当前细节级、早期细节级。当前的数据首先进入当前细节级,然后根 据应用的需求,通过预运算将数据聚合成轻度综合级和高度综合级,老化的数据进 入早期细节级。常见的数据组织形式有简单堆积结构、轮转综合数据存储、简单直 接文件和连续组织。 5 ) 事实表:事实一般来讲是数值型数据,尤其是浮点数值型数据都是事实数据, 可以度量。有可加性,例如销售量、销售额、销售成本等。事实表的设计包括4 项 工作,依时后顺序分别为:明确数据集市及相应的数据源,确定事实表的粒度,确 定相应的维完成事实表的设计。 6 ) 维表:维表中的属性值一般是文本型的、离散的及不具有可加性的,它们将最 终以为型查问的约束条件,是分析型查询的起点。在形成的分析报表中,维属性将 8 第2 章商业智能理论及其应用范围的界定 成为列标在数据仓库中,最为常见的维是时间维、产品维和客户维等。其中,时间 维在仓库中更是具有特殊的地位,因为数据仓库具有时间特征,从某种程度上讲事 实数据都是一种时间序列。 7 ) 索引:正确地建立和使用索引可以大大地降低检索时的数据操作规模,缩短数 据访问时间。维表中的索引也分为主键索引和非主键索引。主键索引一定是单值索 引,一般也采用b 树索引的方式。 ( 3 ) 数据仓库的主要术语 下面是在数据仓库中常用到的几个主要的术语。 1 ) 主题( s u b j e c t ) :所要分析的某一方面的数据的名称,它可以有多个立方体。 2 ) 立方体( c u b e ) :即一个多维数据集,一个事实表和多个维组成,一个维可以是 一个维表。 3 ) 事实( f a c t ) :与一个具体的事实表相对应,对应于决策支持研究的中心,是星 型模型的中心,它包含着用户所关注的所有度量值。 4 ) 维( d i m e n s i o n ) :维定义了事实研究的中心轴,维需要与一个维表相对应,该 维表包含了这个维所能取到的各种聚集方式的值。 5 ) 维层次( d i m e n s i o nh i e r a r c h y ) :维的值往往具有不同层次粒度,维层次是从其 它更详细的维中分割出来的一个维。在维层次中,每个递减的级都对应着细节中更 详细的级。维层次中的级数对应着查询中的间隔尺寸的有效级。 6 ) 度量( m e a s u r e ) 度量是一个对应于研究中心点的变量或测度。度量是一个数 值度量被赋予给事实表中的列。 7 ) 属性( a t t r i b u t e ) :属性是用来限定一个维的对象,属性通常被赋给维表中的列。 ( 4 ) 数据仓库与数据库设计的区别 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。 而后整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。 数据仓库的设计过程是一个动态反馈和循环的过程,实际上常常会出现现有的 系统不能满足用户的要求,需要开始一个新的设计的生命周期。因此,数据仓库的 设计是运用一套有效的数据仓库建立方法不断反复循环的过程,如表2 1 所示。 表2 1数据仓库与数据库的设计差别 t a b 2 - 1d i f f e r e n c e so f d wa n dd bi nd e s i g n 设计阶段数据仓库 数据库 概念模型信息包图数据流程图 逻辑模型星形模型实体关联图 物理模型物理数据模型物理数据模型 9 2 2 2 数据抽取转换加载 数据e t l 是一个来源于数据仓库的概念,指数据的抽取( e x t r a c t i o n ) 、转换 ( t r a n s f o r m a t i o n ) 、清洗, ( c l e a n i n g ) 、装载( l o a d i n d 过程,是构建数据仓库的重要环节”。 e t l 是从各种原始的业务系统中提取数据,按照预先设计好的规则将抽取至u 的数据 进行转换,最后将转换完的数据按计划增量或全部导入到目标数据库或贽培仓库中。 在此过程中,必须确保引入的仅仅是在数据分析过程中发挥有效作用的数据,必须 保证被引入的数据具有完整性的、正确性。 ( 1 1e t l 的必要性 数据仓库中的数据不是简单的传统数据库中的数据堆积,也不是简单地选择一 个工具下载数据的过程,它是一个复杂的容纳数据集成的系统工程。虽然数据仓库 不同于传统的数据库,但是其数据仍然由传统数据库中的数据组成,因此研究如何 从现有数据库中有效地将数据引导八数据仓库的方法和策略就显得非常必要”。2 0 1 o 在多数情况下数据源系统和数据仓库并不在同一个数据服务器中,往往是独立 存在的。数据处于远程系统中,数据的提取就是以远程的,分布式提取进行的;如 果数据源不在同一个服务器中,这样就得建立不同的数据库系统之间的联系,建立 目标数据库和真正的源数据库。例如,数据源存在于s q l s e r v e r 和o r a c l e 数据库中, 就可以通过连接服务器建立一个从s q l s e r v e r 到o r a c l e 的数据连接,并最终从o r a c l e 数据库中提取数据。完成数据的提取之后,要做到将数据加载到目标数据仓库中, 数据才被能赋予使用的意义。在进行数据加载时可选择i m p o r t 、s q l l o a d e r 和s q l 语言进行转化。 数据仓库系统建设中e t l 可以从不同异构数据源流向统一的目标数据,壹口图 2 1 所示。 h o b i l e r e g o # c s 固、图 5 m ls tu c t u * d 旦j 型,旦i i 一 匿趔i 旦蛐!豳! q 图2 - 1e t l 的功能简图 f i g2 le t l m 甜d 0 第2 章商业智能理论及其应用范围的界定 ( 2 ) e t l 的工作内容 1 ) 数据提取,这是e t l 处理的第一步,它的工作任务是根据数据仓库要求收集 并提取外界数据源中的数据。 2 ) 数据清洗,它是对进入数据仓库的数据清除那些脏数据( d i r t yd a t a ) 或是噪音。 3 ) 数据转换,它是将数据源中的数据根据转换成数据仓库中的数据,数据转换又 分为两个步骤,第一个步骤是转换规则的组成,第二个步骤是转换规则的实施。 4 ) 数据加载,它是将数据源的数据经清洗、转换后所形成的数据装入数据仓库中, 数据加载是后端处理的必不可少的一个工作,它的实现可以由软件工具协助完成。 5 ) 数据刷新,以不同时间段内更新数据。 ( 3 ) e t l 的主流程 e t l 会随着应用和系统环境的不同而各具有不同的特点,一般来讲,包括下面 的处理过程: 1 ) 预处理,这是正式开始作业之前的准备工作,包括清空工作区,检查过渡准 备区,检查远程数据库服务器状态等。 2 ) 启动数据加载的批作业。 。 3 ) 对维表进行加载,生成维表主键,并作为以后加载实事表所需要的外键。 4 ) i j l :l 载事实表,即从有关维表中找到相应的主键,并以此作为实事表的外键。 5 ) 总计方阵体系进行刷新,保障总计方阵与其基础数据同步。 6 ) 设计具有完善的出错处理机制和作业控制日志系统,用以监测和协调整个加载 的过程。 2 2 3 联机在线分析 联机在线分析( o l a p ) 是使分析人员、管理人员或执行人员能够从多种角度, 从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业特性的信息 进行快速、致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 联机在线分析是对数据仓库的信息分析处理过程,是数据仓库与用户接口部分。 o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是 维,因此o l a p 也可以说是多维数据分析工具的集合。o l a p 系统是跨部门、面向 主题的【2 i 】。 多维结构是决策支持的支柱,也是o l a p 的核心。“维 是指同类数据的集合, 也可以理解为变量,而且有自身的层次结构。如在货运营销分析系统中,对于“维” 的概念,可以理解为用户对货运业务数据从不同需求角度进行分析,这些“角度” 即构成了维。如按时间、地域以及品类等进行分析,在此,时间、地域及品类就构 成了时间维、地域维和品类维。 河北科技大学硕士学位论文 文献 2 2 指出o l a p 主要有如下几个特征 ( 1 ) 快速性用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内 对用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会 变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达 到这个速度并不容易,因此就更需要一些技术上的支持,如专门的数据存储格式、 大量的事先运算、特别的硬件设计等。 ( 2 ) 可分析性o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 尽管系统需要事先编程,但并不意味着系统己定义好了所有的应用。用户无需编程 就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。 用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时 间序列分析工具、成本分配工具、意外报警、数据开采等。 ( 3 ) 多维性多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和 分析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据 最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及 时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、 可利用的磁盘空间、o l a p 产品的性能及与数据仓库的结合度等。 o l a p 根据存储数据的方式不同可以分为关系型o l a p ,( r e l a t i o n a lo l a p ,简 称r o l a p ) 、多维o l a p ( m u l t i d i m e n s i o n a lo l a p ,简称m o l a p ) 和混合型o l a p ( h y b r i do l a p ,简称h o l a p ) 三种类型。 ( 1 ) 关系型联机在线分析该结构是基于关系数据库的o l a p 实现。基于关系 表的存储方式是在关系型数据库的表结构( 星型或雪花型模式) 中,利用元数据的管理 完成数据仓库的功能。这种组织方式在建库时有两个主要过程用以完成数据的抽取。 首先要提供一种图形化的点击操作界面,使分析员能对源数据库的内容进行选择, 定义多维数据模型,然后再编制程序把数据库中的数据抽取到数据仓库的数据库中。 ( 2 ) 多维型联机在线分析多维数据库的组织是直接面向0 l a p 分析操作的数 据组织形式。这种数据库产品也比较多,其实现方法不尽相同。其数据组织采用多 维数组结构文件进行数据存储,并且利用维索引及相应的元数据管理文件与数据相 对应。多维联机分析处理的优势不仅在于能清晰地表达多维概念,更重要的是它有 着极高的综合速度。在关系数据库管理系统中,如果要得到某一地区的事故损失总 数,只能逐条记录检索,找到满足条件的记录后将数据相加。而在多维数据库中, 数据可以直接按行或列累加,其统计速度远远超过关系数据库管理系统。数据库中 的记录数越多,其效果越明显。但是对多维联机分析处理来说,随着维度和维成员 的增加,其存储空间可能出现组合爆炸。 1 2 第2 章商业智能理论及其应用范围的界定 ( 3 ) 混合型联机在线分析其目的是把m o l a p 和r o l a p 两种结构的优点结 合起来,是基于混合数据组织的o l a p 实现。如低层是关系型的,高层是多维矩阵 型的。这种方式具有更好的灵活性。 2 2 4 数据仓库与o l a p 的关系 在数据仓库中,o l a p 和数据仓库是密不可分的,但是两者具有不同的概念。数 据仓库是一个包含企业历史数据的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论